Автоматизация работы с неструктурированными документами платформе OpenText

Сравнение неструктурированных бумажных документов

На работу с неструктурированными бумажными документами уходит много времени. При этом часто встречаются ошибки, связанные с человеческим фактором.

Компания Миотех предлагает автоматизацию работы с неструктурированными документами и документами с таблицами.

Для классификации сложных документов и извлечения из них данных разработан отдельный модуль платформы. Он классифицирует и распознает документы при помощи системы на основе искусственного интеллекта, анализируя заложенные в систему примеры и разбирая текст внутри документа. Основные функции модуля:

Нормализует текст Unicode.
Упрощает пунктуацию, диакритические знаки.
Разбивает текст документа на предложения, используя пунктуацию.
Распознает поля вне зависимости от их расположения на странице (координат).
Распознает информацию табличной части (игнорирует графические линии).
Выполняет поиск в предложениях уже известных шаблонов /токенов /фраз в обученных контекстах.
Форматно-логическая проверка извлеченных данных и сверка с данными из внутренних и внешних справочников и учетных систем.

Модуль включает механизм поиска ключевых значений в тексте документов, основанный на анализе контекста самого текста — Text Content Locator (TCL). Он обладает простым интерфейсом и позволяет производить следующие действия:

Распознавать и извлекать неструктурированные данные (формат данных переменчив: имена, адреса и т.п.).
Распознавать и извлекать данные в неструктурированных документах (расположение данных в документе не определено).
Производить простое обучение системы.
Динамическая адаптация системы к разнообразию форм документов.
Извлечение данных на основе заложенных правил или автоматический выбор результата с наибольшей аккуратностью распознавания.

Преимущества от внедрения нашего решения в ИС компании:

Этапы распознавания неструктурированных документов и документов с таблицами для оптимизации процессов документооборота:

Модуль может выполнять сверки между документами в комплекте, а также имеет механизм поиска ключевых значений в тексте документов, основанным на анализе контекста самого текста-Text Content Locator (TCL).

Пример обработки неструктурированных форм при помощи нашего решения:

Возможность нечеткого поиска информации в справочнике

Проблема:

Поле типа «услуги» располагается в табличной части и имеет много строк, поэтому OCR-локатор не дает 100% уверенности в правильном распознавании.

Решение:

Создаем текстовый список всех встречаемых видов услуг аренды.
Используем технологию нечеткого поиска в словаре.
Система выполняет кросс-проверку распознанных OCR и учитывает степень близости словарных слов.

Словарь:

Услуги по размещению оборудования;
Услуги по договору аренды;
Услуги аренды нежилых помещений;
Услуги аренды;
Субаренда недвижимого имущества;
Субаренда части земельного участка.

Результат: 90% уверенности в распознавании поля.

Наши клиенты считают временные и трудовые затраты на работу с бумажной документацией нерезультативными. Для того, чтобы минимизировать негативные эффекты, мы внедряем в бизнес-процессы OCR-системы. Проконсультируйтесь с представителями компании Миотех и узнайте, как улучшить работу своей компании.

Автоматизация работы с неструктурированными документами платформе OpenText

Заявка на внедрение

КОМПАНИЯ

ПРОДУКТЫ И РЕШЕНИЯ

УСЛУГИ

ТЕХНОЛОГИИ

ОТРАСЛИ

ОБУЧЕНИЕ