Автоматизация работы с неструктурированными документами платформе OpenText
На работу с неструктурированными бумажными документами уходит много времени. При этом часто встречаются ошибки, связанные с человеческим фактором.
Компания Миотех предлагает автоматизацию работы с неструктурированными документами и документами с таблицами.
Для классификации сложных документов и извлечения из них данных разработан отдельный модуль платформы. Он классифицирует и распознает документы при помощи системы на основе искусственного интеллекта, анализируя заложенные в систему примеры и разбирая текст внутри документа. Основные функции модуля:
- Нормализует текст Unicode.
- Упрощает пунктуацию, диакритические знаки.
- Разбивает текст документа на предложения, используя пунктуацию.
- Распознает поля вне зависимости от их расположения на странице (координат).
- Распознает информацию табличной части (игнорирует графические линии).
- Выполняет поиск в предложениях уже известных шаблонов /токенов /фраз в обученных контекстах.
- Форматно-логическая проверка извлеченных данных и сверка с данными из внутренних и внешних справочников и учетных систем.
Модуль включает механизм поиска ключевых значений в тексте документов, основанный на анализе контекста самого текста — Text Content Locator (TCL). Он обладает простым интерфейсом и позволяет производить следующие действия:
- Распознавать и извлекать неструктурированные данные (формат данных переменчив: имена, адреса и т.п.).
- Распознавать и извлекать данные в неструктурированных документах (расположение данных в документе не определено).
- Производить простое обучение системы.
- Динамическая адаптация системы к разнообразию форм документов.
- Извлечение данных на основе заложенных правил или автоматический выбор результата с наибольшей аккуратностью распознавания.
Преимущества от внедрения нашего решения в ИС компании:
Многоканальный ввод;
Безопасные каналы передачи данных;
Бизнес-правила;
Нормализация документов;
Динамический и гибкий экспорт;
Классификация и разделение документов;
Распознавание и валидация;
Проверки, интеграции;
Автообучение;
Процессная аналитика;
Всесторонняя визуализация;
Отчеты и дашборды;
В режиме реального времени.
Этапы распознавания неструктурированных документов и документов с таблицами для оптимизации процессов документооборота:
Модуль может выполнять сверки между документами в комплекте, а также имеет механизм поиска ключевых значений в тексте документов, основанным на анализе контекста самого текста-Text Content Locator (TCL).
Пример обработки неструктурированных форм при помощи нашего решения:
Возможность нечеткого поиска информации в справочнике
Проблема:
Поле типа «услуги» располагается в табличной части и имеет много строк, поэтому OCR-локатор не дает 100% уверенности в правильном распознавании.
Решение:
- Создаем текстовый список всех встречаемых видов услуг аренды.
- Используем технологию нечеткого поиска в словаре.
- Система выполняет кросс-проверку распознанных OCR и учитывает степень близости словарных слов.
Словарь:
- Услуги по размещению оборудования;
- Услуги по договору аренды;
- Услуги аренды нежилых помещений;
- Услуги аренды;
- Субаренда недвижимого имущества;
- Субаренда части земельного участка.
Результат: 90% уверенности в распознавании поля.
Наши клиенты считают временные и трудовые затраты на работу с бумажной документацией нерезультативными. Для того, чтобы минимизировать негативные эффекты, мы внедряем в бизнес-процессы OCR-системы. Проконсультируйтесь с представителями компании Миотех и узнайте, как улучшить работу своей компании.