МИОТЕХ

МИОТЕХ
МИОТЕХ

ТЕХНОЛОГИИ

Optical Character Recognition (OCR)

OCR уже давно вышел за стены банков и финансовых учреждений. Сейчас эта технология используется повсеместно при работе с любыми документами. Это технология, позволяющая преобразовать напечатанный на бумаге или ином носителе текст в цифровой формат.

Изображение, полученное в результате сканирования или фотографирования, остается лишь изображением. В текст, отображающийся на картинке, нельзя внести правки в текстовом редакторе. Сам документ может быть отсканирован неровно и содержать в себе следы пыли, попавшие в сканер. OCR используется в тех случаях, когда вам необходимо получить текстовое содержимое документа в электронном виде с улучшением качества изображения.

На этапе предварительной обработки в полученном скан-образе происходит поворот текста до горизонтального положения.

За этим следует его очистка от фона, шума и артефактов.

Не важно, было ли изображение отсканировано в цветном формате (24-битное RGB) или же в градациях серого. Оно конвертируется в черно-белое (1-битное) во время «бинаризации».

После этой процедуры полученное монохромное изображение раскладывается в двоичный код, состоящий лишь из нулей и единиц (где 0 – это белый цвет, а 1 – черный).

На следующем этапе происходит зонирование текста – его разбиение на столбцы, строки, абзацы и таблицы.

Отдельно распознанная буква «А» или «О» может быть частью английского слова или же русского.  Поэтому уже на этом этапе часто производится определение языка, используемого в документе.

При распознавании символов самые простые алгоритмы проводят анализ каждого пикселя, содержащегося в черно-белых изображениях. Они сравнивают каждый символ с базой данных, состоящей из известных шрифтов. Результатом распознавания является символ, совпадение с которым оказалось наиболее близким.

Более продвинутые алгоритмы разбивают каждый символ на элементы, такие как линии, штрихи, изгибы и углы между ними, а также анализируют места соединений этих элементов.

Возможность подключения словарей на этапе постобработки увеличивает вероятность правильного распознавания символов и позволяет исключить возможность появления несуществующих в языке слов.

Алгоритмы являются обучаемыми и в них можно заложить определенные правила. К примеру, в поле на отсканированном конверте, содержащем почтовый индекс, могут быть только цифры от 0 до 9. Зная это, алгоритм исключит появление буквы «О» вместо цифры «0», буквы «B» вместо цифры «8» или латинской буквы «I» вместо цифры «1». Также формализации легко подвергаются телефонные номера, автомобильные номера, номера СНИЛС и ИНН.

К текущему моменту, благодаря машинному обучению, алгоритмы OCR могут распознавать сложные для прочтения шрифты, а также рукописный текст.

Заявка на внедрение



Реализованные проекты

АльфаСтрахование
АльфаСтрахование
Один из первых проектов нашей компании. Работа с бумажными удостоверяющими личность документами, для ускорения процесса оформления дополнительного страхования
Мегафон
Крупнейшие проект для телекоммуникаций, полный цикл работы с электронными и бумажными документами, переход на внутренний безбумажный документооборот с сотрудниками ОЦО Мегафон возглавляет тройку лидеров по эффективности
Металлоинвест
Не зря общий центр обслуживания в «Металлоинвест» называется «МКС» - проект получился такой же космический! Автоматические проводки, конструктор договоров, роботы – все это поджидает вас на каждом шагу.
Норникель
Компания «Норникель» выступает флагманом для своих коллег по отрасли в вопросах цифровизации. Управление договорами, СЭД, электронная канцелярия, продвинутая аналитика и многие другие наши решения входят в рабочий набор инструментов для повышения эффективности компании.
Роснефть
ГК Роснефть наш давний партнер. Автоматизированный ОЦО в Саратове, автоматические проводки в учетной системе, все это наши общие достижения. Сейчас закупочная площадка стала одним из первых получателей нашего сервиса по аутсорсингу обработки поступающих документов.
Спортмастер
Крупнейший международный проект в сфере продажи одежды. Его особенностью стала работа с документами от международных поставщиков, вплоть до китайских инвойсов.