OCR решения на платформе OpenText
OCR включает в себя несколько решений:
Optical Character Recognition (OCR) – автоматизированное или механическое распознавание информации с бумажных носителей в электронные данные с помощью оптических методов и алгоритмов систем искусственного интеллекта (ИИ); при этом происходит перекодировка изображений и символов в подходящий пользователю формат.
Применение разработок в области ИИ позволяет анализировать, распознавать и преобразовывать:
- Печатный текст
- Рукописный текст
- Изображения (схемы, фотографии, иллюстрации и пр.)
- Элементы оформления (таблицы, колонтитулы, символы и пр.)
Сейчас OCR-системы активно используются для оптимизации процессов документооборота внутри компаний и с внешними источниками коммуникаций. Также они существенно оптимизируют работу с ОЦО.
Компания Миотех предлагает услуги по извлечению информации со следующих видов бумажных носителей:
Структурированные документы:
Бланки строгой отчетности
Удостоверения
Типовые формы документов
Неструктурированные документы:
Документация свободной формы
Рукописные носители
Бланки нефиксированных параметров
В результате мы получаем:
- Интуитивно доступный интерфейс
- Автоматизированное распознавание и обработка информации
- Верификация документов
- Морфологический контроль
- Поддержка почти 200 языков
- Высокое качество изображений
- Возможность фрагментированного редактирования элементов
Схема решения OCR
Компании, внедрившие системы OCR, получают от их использования следующие преимущества:
- Увеличение скорости документооборота
- Увеличение срока хранения информации
- Возможность оперативной корректировки документов
- Сокращение затрат трудовых и временных ресурсов
- Увеличение скорости бизнес-процессов
- Увеличение доходности компании
Схематично процесс обработки документов OCR-системой выглядит так:
К нам обращаются компании, которым для успешного развития необходимо освободить свои трудовые и финансовые ресурсы. Чтобы получить экспертную консультацию — достаточно обратиться к нашим специалистам.
На этапе предварительной обработки в полученном скан-образе происходит поворот текста до горизонтального положения.
За этим следует его очистка от фона, шума и артефактов.
Не важно, было ли изображение отсканировано в цветном формате (24-битное RGB) или же в градациях серого. Оно конвертируется в черно-белое (1-битное) во время «бинаризации».
После этой процедуры полученное монохромное изображение раскладывается в двоичный код, состоящий лишь из нулей и единиц (где 0 – это белый цвет, а 1 – черный).
На следующем этапе происходит зонирование текста – его разбиение на столбцы, строки, абзацы и таблицы.
Отдельно распознанная буква «А» или «О» может быть частью английского слова или же русского. Поэтому уже на этом этапе часто производится определение языка, используемого в документе.
При распознавании символов самые простые алгоритмы проводят анализ каждого пикселя, содержащегося в черно-белых изображениях. Они сравнивают каждый символ с базой данных, состоящей из известных шрифтов. Результатом распознавания является символ, совпадение с которым оказалось наиболее близким.
Более продвинутые алгоритмы разбивают каждый символ на элементы, такие как линии, штрихи, изгибы и углы между ними, а также анализируют места соединений этих элементов.
Возможность подключения словарей на этапе постобработки увеличивает вероятность правильного распознавания символов и позволяет исключить возможность появления несуществующих в языке слов.
Алгоритмы являются обучаемыми и в них можно заложить определенные правила. К примеру, в поле на отсканированном конверте, содержащем почтовый индекс, могут быть только цифры от 0 до 9. Зная это, алгоритм исключит появление буквы «О» вместо цифры «0», буквы «B» вместо цифры «8» или латинской буквы «I» вместо цифры «1». Также формализации легко подвергаются телефонные номера, автомобильные номера, номера СНИЛС и ИНН.
К текущему моменту, благодаря машинному обучению, алгоритмы OCR могут распознавать сложные для прочтения шрифты, а также рукописный текст.