МИОТЕХ

Generic selectors
Exact matches only
Search in title
Search in content
Search in posts
Search in pages

Автоматизация работы с неструктурированными документами платформе OpenText

Сравнение неструктурированных бумажных документов

На работу с неструктурированными бумажными документами уходит много времени. При этом часто встречаются ошибки, связанные с человеческим фактором.

Компания Миотех предлагает автоматизацию работы с неструктурированными документами и документами с таблицами.

Для классификации сложных документов и извлечения из них данных разработан отдельный модуль платформы. Он классифицирует и распознает документы при помощи системы на основе искусственного интеллекта, анализируя заложенные в систему примеры и разбирая текст внутри документа. Основные функции модуля:

  • Нормализует текст Unicode.
  • Упрощает пунктуацию, диакритические знаки.
  • Разбивает текст документа на предложения, используя пунктуацию.
  • Распознает поля вне зависимости от их расположения на странице (координат).
  • Распознает информацию табличной части (игнорирует графические линии).
  • Выполняет поиск в предложениях уже известных шаблонов /токенов /фраз в обученных контекстах.
  • Форматно-логическая проверка извлеченных данных и сверка с данными из внутренних и внешних справочников и учетных систем.

Модуль включает механизм поиска ключевых значений в тексте документов, основанный на анализе контекста самого текста — Text Content Locator (TCL). Он обладает простым интерфейсом и позволяет производить следующие действия:

  • Распознавать и извлекать неструктурированные данные (формат данных переменчив: имена, адреса и т.п.).
  • Распознавать и извлекать данные в неструктурированных документах (расположение данных в документе не определено).
  • Производить простое обучение системы.
  • Динамическая адаптация системы к разнообразию форм документов.
  • Извлечение данных на основе заложенных правил или автоматический выбор результата с наибольшей аккуратностью распознавания.

Преимущества от внедрения нашего решения в ИС компании:

Многоканальный ввод;

Безопасные каналы передачи данных;

Бизнес-правила;

Нормализация документов;

Динамический и гибкий экспорт;

Классификация и разделение документов;

Распознавание и валидация;

Проверки, интеграции;

Автообучение;

Процессная аналитика;

Всесторонняя визуализация;

Отчеты и дашборды;

В режиме реального времени.

Этапы распознавания неструктурированных документов и документов с таблицами для оптимизации процессов документооборота:

Модуль может выполнять сверки между документами в комплекте, а также имеет механизм поиска ключевых значений в тексте документов, основанным на анализе контекста самого текста-Text Content Locator (TCL).

Пример обработки неструктурированных форм при помощи нашего решения:

Возможность нечеткого поиска информации в справочнике

Проблема:

Поле типа «услуги» располагается в табличной части и имеет много строк, поэтому OCR-локатор не дает 100% уверенности в правильном распознавании.

Решение:

  1. Создаем текстовый список всех встречаемых видов услуг аренды.
  2. Используем технологию нечеткого поиска в словаре.
  3. Система выполняет кросс-проверку распознанных OCR и учитывает степень близости словарных слов.

Словарь:

  • Услуги по размещению оборудования;
  • Услуги по договору аренды;
  • Услуги аренды нежилых помещений;
  • Услуги аренды;
  • Субаренда недвижимого имущества;
  • Субаренда части земельного участка.

Результат: 90% уверенности в распознавании поля.

Наши клиенты считают временные и трудовые затраты на работу с бумажной документацией нерезультативными. Для того, чтобы минимизировать негативные эффекты, мы внедряем в бизнес-процессы OCR-системы. Проконсультируйтесь с представителями компании Миотех и узнайте, как улучшить работу своей компании.

Заявка на внедрение