ВВОД И ОБРАБОТКА СТАНДАРТНЫХ ФОРМ
Этапы ввода и обработки форматированных документов
У стандартных форм, в отличие от прочих типов документов, структура данных известна до момента распознавания. Это преимущество существенно облегчает ввод информации из формы в поля базы данных, а также позволяет сделать это практически без участия человека.
К основным этапам ввода стандартных форм относят:
1. Подготовка обработки новой формы
2. Сканирование
3. Сегментация полученного изображения
4. Распознавание значимых полей
5. Верификация
6. Сохранение данных в полях базы данных
На первом этапе — этапе подготовки обработки новой формы с помощью специального редактора форм создаётся план документа с незаполненными полями. Для каждого значимого поля определяется тип данных и правила проверки корректности вводимых данных. С помощью редактора экспорта определяется связь между значимыми полями и полями базы данных, куда данные будут помещаться после ввода.
На втором этапе — этапе сканирования происходит получение графического образа документа с помощью технологий сканирования. При выборе сканеров следует учитывать его характеристики, например, возможности сканера по работе с различными типами и количеством документов, производительность и надёжность сканера, а также качество получаемого изображения (т.е. разрешающую способность сканера). При этом качество печати играет очень большую роль. Более выгодно истратить немного больше денег при печати документа, а затем сэкономить значительные суммы при сканировании и распознавании [1,2].
|
|
На третьем этапе — сегментации изображения происходит выделение значимых полей и опорных элементов для облегчения процесса распознавания.
Текстовое представление документа является одним из главных требований, которое позволяет производить поиск, сортировку и модификацию документов.
Поэтому важным этапом является четвёртый этап — конвертирование документа в текстовый файл с помощью программ распознавания [1,11].
Для распознавания значимых полей используется несколько специальных технологий:
OCR (Optical Character Recognition) — технология оптического распознавания печатных символов, т.е. перевода сканированного изображения печатных символов в их текстовое представление.
ICR (Intelligent Character Recognition) — распознавание раздельных печатных символов, написанных от руки в специальных окнах-шаблонах для соблюдения одинаковых размеров символов. А также рукописных цифр, например, как на почтовых конвертах. (Эту технологию называют интеллектуальным распознаванием).
OMR (Optical Mark Recognition) — распознавание отметок. Обычно отметками выступают перечёркнутые крест-накрест либо отмеченные галочками квадраты или круги (checkbox).
|
|
Используется также технология распознавания штрихкодов.
При распознавании используются различные методы для улучшения качества получаемых изображений. Например, поворот, выравнивание, применение различных фильтров для устранения пятен, удаления фона и т.д. [1,11,13].
На пятом этапе происходит верификация документа, т.е. проверка качества распознавания и исправление ошибок. Большие требования в данном случае предъявляются к методам проверки вводимых данных.
Используются следующие режимы верификации:
· Контекстная верификация для проверки текстовых полей;
· Групповая верификация для проверки цифровых данных;
· Верификация полей формы по заранее определённым правилам
Для повышения надёжности данных используют дополнительные механизмы, такие как применение словарей и таблиц, определяемых пользователем. Как правило, системы включают специальные встроенные средства для определения специальных процедур проверки для каждого поля документа.
И на шестом этапе распознанные и проверенные данные сохраняются в полях базы данных. Суммарное количество документов, которые должны быть занесены в базу данных для дальнейшей обработки только в одной организации, может достигать нескольких тысяч и даже десятков тысяч в день [1,10].
|
|
Следовательно, более широкое внедрение систем обработки форм не только освободит сотни людей от неэффективного утомительного труда, но и даст реальную экономию, снизит количество опечаток, повысит точность и соответственно достоверность вводимых данных [8,13].
Выполнение двух основных процессов, сегментации документа и чтения текста документа из значимых полей, предполагает обработка форматируемых документов.
Сегментация — это нахождение опорных элементов и вычисление относительно них положения значимых полей.
Эти процессы могут быть выполнены последовательно и независимо, если поля полностью определены своими визуальными характеристиками. Такая ситуация характерна для машиночитаемых форм и документов с явными разделителями полей в виде линий или больших промежутков.
В документах, не имеющих строго определённого положения полей и явных разделителей между ними, нет принципиально иного способа, как прочитать текст и по его содержанию скорректировать результаты предварительной сегментации. Пример характерного случая ложной геометрической сегментации и её последующей коррекции после чтения приведён на рис.1.
|
|
| ||||
| ||||
| ||||
|
Рис.1. Пример геометрической сегментации полей формы и результата её коррекции
Очевидно, что различная сложность структуры и её визуальная вариативность порождают самый широкий спектр решений.
В машиночитаемых формах задача сегментации осложняется множеством факторов: помехами на опорных элементах, смещением текста в полях, искажениями формы документа в процессе сканирования (например, дефекты в виде разрыва и топографической грязи, прилегание текста к граничным линиям полей и т.п.). Вследствие этого даже исходно простая схема обработки многократно усложняется.
Документы, не имеющие строго заданной геометрии, но, тем не менее, использующие явно заданные разделители (например, таблицы с разделителями в виде горизонтальных и вертикальных прямых), обрабатываются достаточно надёжно. Если линии непрерывные, а текст их не касается, то принципиальных сложностей при обработке не возникает. На практике эти условия обеспечиваются далеко не всегда, поэтому приходится пользоваться априорными сведениями о характере возможных разрывов, находить части изолированных от текста линий и т.д. Но при этом характеристики устройства документа должны быть чётко определены [1,2].
Дата добавления: 2019-07-15; просмотров: 109; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!