OCR решения на платформе OpenText

OCR

OCR включает в себя несколько решений:

Optical Character Recognition (OCR) – автоматизированное или механическое распознавание информации с бумажных носителей в электронные данные с помощью оптических методов и алгоритмов систем искусственного интеллекта (ИИ); при этом происходит перекодировка изображений и символов в подходящий пользователю формат.

Применение разработок в области ИИ позволяет анализировать, распознавать и преобразовывать:

Печатный текст
Рукописный текст
Изображения (схемы, фотографии, иллюстрации и пр.)
Элементы оформления (таблицы, колонтитулы, символы и пр.)

Сейчас OCR-системы активно используются для оптимизации процессов документооборота внутри компаний и с внешними источниками коммуникаций. Также они существенно оптимизируют работу с ОЦО.

Компания Миотех предлагает услуги по извлечению информации со следующих видов бумажных носителей:

Структурированные документы:

Неструктурированные документы:

В результате мы получаем:

Интуитивно доступный интерфейс
Автоматизированное распознавание и обработка информации
Верификация документов
Морфологический контроль
Поддержка почти 200 языков
Высокое качество изображений
Возможность фрагментированного редактирования элементов

Схема решения OCR

Компании, внедрившие системы OCR, получают от их использования следующие преимущества:

Увеличение скорости документооборота
Увеличение срока хранения информации
Возможность оперативной корректировки документов
Сокращение затрат трудовых и временных ресурсов
Увеличение скорости бизнес-процессов
Увеличение доходности компании

Схематично процесс обработки документов OCR-системой выглядит так:

К нам обращаются компании, которым для успешного развития необходимо освободить свои трудовые и финансовые ресурсы. Чтобы получить экспертную консультацию — достаточно обратиться к нашим специалистам.

Пример использования OCR

На этапе предварительной обработки в полученном скан-образе происходит поворот текста до горизонтального положения.

За этим следует его очистка от фона, шума и артефактов.

Не важно, было ли изображение отсканировано в цветном формате (24-битное RGB) или же в градациях серого. Оно конвертируется в черно-белое (1-битное) во время «бинаризации».

После этой процедуры полученное монохромное изображение раскладывается в двоичный код, состоящий лишь из нулей и единиц (где 0 – это белый цвет, а 1 – черный).

На следующем этапе происходит зонирование текста – его разбиение на столбцы, строки, абзацы и таблицы.

Отдельно распознанная буква «А» или «О» может быть частью английского слова или же русского. Поэтому уже на этом этапе часто производится определение языка, используемого в документе.

При распознавании символов самые простые алгоритмы проводят анализ каждого пикселя, содержащегося в черно-белых изображениях. Они сравнивают каждый символ с базой данных, состоящей из известных шрифтов. Результатом распознавания является символ, совпадение с которым оказалось наиболее близким.

Более продвинутые алгоритмы разбивают каждый символ на элементы, такие как линии, штрихи, изгибы и углы между ними, а также анализируют места соединений этих элементов.

Возможность подключения словарей на этапе постобработки увеличивает вероятность правильного распознавания символов и позволяет исключить возможность появления несуществующих в языке слов.

Алгоритмы являются обучаемыми и в них можно заложить определенные правила. К примеру, в поле на отсканированном конверте, содержащем почтовый индекс, могут быть только цифры от 0 до 9. Зная это, алгоритм исключит появление буквы «О» вместо цифры «0», буквы «B» вместо цифры «8» или латинской буквы «I» вместо цифры «1». Также формализации легко подвергаются телефонные номера, автомобильные номера, номера СНИЛС и ИНН.

К текущему моменту, благодаря машинному обучению, алгоритмы OCR могут распознавать сложные для прочтения шрифты, а также рукописный текст.

Реализованные проекты

АльфаСтрахование

Один из первых проектов нашей компании. Работа с бумажными удостоверяющими личность документами, для ускорения процесса оформления дополнительного страхования

Подробнее

Мегафон

Крупнейшие проект для телекоммуникаций, полный цикл работы с электронными и бумажными документами, переход на внутренний безбумажный документооборот с сотрудниками ОЦО Мегафон возглавляет тройку лидеров по эффективности

Подробнее

Металлоинвест

Не зря общий центр обслуживания в «Металлоинвест» называется «МКС» - проект получился такой же космический! Автоматические проводки, конструктор договоров, роботы – все это поджидает вас на каждом шагу.

Подробнее

Норникель

Компания «Норникель» выступает флагманом для своих коллег по отрасли в вопросах цифровизации. Управление договорами, СЭД, электронная канцелярия, продвинутая аналитика и многие другие наши решения входят в рабочий набор инструментов для повышения эффективности компании.

Подробнее

Роснефть

ГК Роснефть наш давний партнер. Автоматизированный ОЦО в Саратове, автоматические проводки в учетной системе, все это наши общие достижения. Сейчас закупочная площадка стала одним из первых получателей нашего сервиса по аутсорсингу обработки поступающих документов.

Подробнее

Спортмастер

Крупнейший международный проект в сфере продажи одежды. Его особенностью стала работа с документами от международных поставщиков, вплоть до китайских инвойсов.

Подробнее

OCR решения на платформе OpenText

Использование OCR систем для оптимизации процессов документооборота

Сравнение неструктурированных бумажных документов

Внедрение системы автопостинга документов в учетные системы

Smart Engines

Реализованные проекты

АльфаСтрахование

АльфаСтрахование

Мегафон

Металлоинвест

Норникель

Роснефть

Спортмастер

Заявка на внедрение

КОМПАНИЯ

ПРОДУКТЫ И РЕШЕНИЯ

УСЛУГИ

ТЕХНОЛОГИИ

ОТРАСЛИ

ОБУЧЕНИЕ