МИОТЕХ

Generic selectors
Exact matches only
Search in title
Search in content
Search in posts
Search in pages

OCR решения на платформе OpenText

OCR включает в себя несколько решений:

Optical Character Recognition (OCR) – автоматизированное или механическое распознавание информации с бумажных носителей в электронные данные с помощью оптических методов и алгоритмов систем искусственного интеллекта (ИИ); при этом происходит перекодировка изображений и символов в подходящий пользователю формат.

Применение разработок в области ИИ позволяет анализировать, распознавать и преобразовывать:

  • Печатный текст
  • Рукописный текст
  • Изображения (схемы, фотографии, иллюстрации и пр.)
  • Элементы оформления (таблицы, колонтитулы, символы и пр.)

Сейчас OCR-системы активно используются для оптимизации процессов документооборота внутри компаний и с внешними источниками коммуникаций. Также они существенно оптимизируют работу с ОЦО.

Компания Миотех предлагает услуги по извлечению информации со следующих видов бумажных носителей:

Структурированные документы:

бланки

Бланки строгой отчетности

бланки

Удостоверения

бланки

Типовые формы документов

Неструктурированные документы:

бланки

Документация свободной формы

бланки

Рукописные носители

бланки

Бланки нефиксированных параметров

В результате мы получаем:

  • Интуитивно доступный интерфейс
  • Автоматизированное распознавание и обработка информации
  • Верификация документов
  • Морфологический контроль
  • Поддержка почти 200 языков
  • Высокое качество изображений
  • Возможность фрагментированного редактирования элементов

Схема решения OCR

схема решения OCR

Компании, внедрившие системы OCR, получают от их использования следующие преимущества:

  • Увеличение скорости документооборота
  • Увеличение срока хранения информации
  • Возможность оперативной корректировки документов
  • Сокращение затрат трудовых и временных ресурсов
  • Увеличение скорости бизнес-процессов
  • Увеличение доходности компании

Схематично процесс обработки документов OCR-системой выглядит так:

обработка ocr

К нам обращаются компании, которым для успешного развития необходимо освободить свои трудовые и финансовые ресурсы. Чтобы получить экспертную консультацию — достаточно обратиться к нашим специалистам.

На этапе предварительной обработки в полученном скан-образе происходит поворот текста до горизонтального положения.

За этим следует его очистка от фона, шума и артефактов.

Не важно, было ли изображение отсканировано в цветном формате (24-битное RGB) или же в градациях серого. Оно конвертируется в черно-белое (1-битное) во время «бинаризации».

После этой процедуры полученное монохромное изображение раскладывается в двоичный код, состоящий лишь из нулей и единиц (где 0 – это белый цвет, а 1 – черный).

На следующем этапе происходит зонирование текста – его разбиение на столбцы, строки, абзацы и таблицы.

Отдельно распознанная буква «А» или «О» может быть частью английского слова или же русского.  Поэтому уже на этом этапе часто производится определение языка, используемого в документе.

При распознавании символов самые простые алгоритмы проводят анализ каждого пикселя, содержащегося в черно-белых изображениях. Они сравнивают каждый символ с базой данных, состоящей из известных шрифтов. Результатом распознавания является символ, совпадение с которым оказалось наиболее близким.

Более продвинутые алгоритмы разбивают каждый символ на элементы, такие как линии, штрихи, изгибы и углы между ними, а также анализируют места соединений этих элементов.

Возможность подключения словарей на этапе постобработки увеличивает вероятность правильного распознавания символов и позволяет исключить возможность появления несуществующих в языке слов.

Алгоритмы являются обучаемыми и в них можно заложить определенные правила. К примеру, в поле на отсканированном конверте, содержащем почтовый индекс, могут быть только цифры от 0 до 9. Зная это, алгоритм исключит появление буквы «О» вместо цифры «0», буквы «B» вместо цифры «8» или латинской буквы «I» вместо цифры «1». Также формализации легко подвергаются телефонные номера, автомобильные номера, номера СНИЛС и ИНН.

К текущему моменту, благодаря машинному обучению, алгоритмы OCR могут распознавать сложные для прочтения шрифты, а также рукописный текст.

Реализованные проекты

АльфаСтрахование
АльфаСтрахование
Один из первых проектов нашей компании. Работа с бумажными удостоверяющими личность документами, для ускорения процесса оформления дополнительного страхования
Мегафон
Крупнейшие проект для телекоммуникаций, полный цикл работы с электронными и бумажными документами, переход на внутренний безбумажный документооборот с сотрудниками ОЦО Мегафон возглавляет тройку лидеров по эффективности
Металлоинвест
Не зря общий центр обслуживания в «Металлоинвест» называется «МКС» - проект получился такой же космический! Автоматические проводки, конструктор договоров, роботы – все это поджидает вас на каждом шагу.
Норникель
Компания «Норникель» выступает флагманом для своих коллег по отрасли в вопросах цифровизации. Управление договорами, СЭД, электронная канцелярия, продвинутая аналитика и многие другие наши решения входят в рабочий набор инструментов для повышения эффективности компании.
Роснефть
ГК Роснефть наш давний партнер. Автоматизированный ОЦО в Саратове, автоматические проводки в учетной системе, все это наши общие достижения. Сейчас закупочная площадка стала одним из первых получателей нашего сервиса по аутсорсингу обработки поступающих документов.
Спортмастер
Крупнейший международный проект в сфере продажи одежды. Его особенностью стала работа с документами от международных поставщиков, вплоть до китайских инвойсов.

Заявка на внедрение