Распознавание и индексирование документа.



Анализ содержимого документа и извлечение данных. Которые могут быть впоследствии использованы для сохранения документов. Основной подсистемой, которая обеспечивает индексирование документа является система распознавания изображений. Существует огромное множество систем распознавания, отличающихся по стоимости, качеству и скорости работы. По крупному можно выделить два класса систем.

Системы оптического распознавания (OCR) - работают только с машинописным текстом.

Интеллектуальные системы распознавания (ICR) - работают с рукописным тестом двух видов Hand-Print - текст написанный от руки, но только печатными и большими буквами

Произвольный рукописный текст. Кроме того этот класс систем решает специализированные задачи распознавания изображения, как то:

Распознавание штрих-кодов.

Распознавание специальных меток (Пример, когда Вы заполняете избирательный бюллетень, Вы ставите отметку (крестиком или галочкой) в специально напечатанном квадрате или кружке, напротив выбранного Вами кандидата. Система позволяет распознать Ваш выбор и автоматически ввести его в систему)

Самой большой проблемой является обеспечение достаточного качества распознавания. Вопрос качества очень субъективен и зависит от конкретно решаемой задачи. Например для ввода офисных документов в систему может совсем не понадобится распознавание, одна секретарша вполне справится с вводом нескольких новых договоров в день, но если таких договоров десятки тысяч, то, очевидно, что лучше поставить специализированную систему распознавания, чем содержать полк секретарш для подобных операций. Так что вопрос качества, это в первую очередь финансовый вопрос: какую выгоду Вы получите от внедрения более качественной (и, естественно, более дорогой) системы распознавания. Одним из современных путей улучшения качества распознавания является применение голосующих систем распознавания. Системные интеграторы берут несколько модулей систем распознавания от разных производителей. Основным требованием к подбору таких модулей является использование различных технологий распознавания. Для OCR систем в основном используются три технологии

Матричная (Matrix-based),

Описательная (основана на описании правил построения символов)

Нейронная (основана на использовании нейронных сетей)

Каждая из этих технологий дает лучшие результаты при определенных, причем отличных, условиях. Соответственно было бы разумным совместно использовать модули, использующие различные технологии распознавания. Единственным способом определения правильного результата трех систем является создание маленького, виртуального избирательного участка. Когда две системы говорят что распознанная буква - это "Б", а одна что "Ь", то выносится общее решение, что все-таки это буква будет "Б".

После того, как документ распознан, он поступает в систему управления документами, где проводится его индексирование. В зависимости от конкретной задачи и типа документа, он может быть загружен в полнотекстовый модуль или извлеченная из него информация попасть в систему атрибутивной индексации (например, значения из полей формы попадают в карточку документа).

Вышеперечисленные функции решаются набором серверов приложений. Сколько же необходимо подобных серверов. Для обеспечения максимальной гибкости, естественно, хотелось на каждую операцию с изображением иметь свой отдельный сервер приложений. Но в тоже время, потери на меж серверное взаимодействие (открытие, сохранение файлов, увеличение сетевого трафика и тому подобное) при увеличении количество серверов приложений кажутся значительными. Поэтому выделяются два основных сервера приложений

Сервер сканирования и предварительной обработки изображений

Сервер обработки изображения, распознавания. Данный сервер может существовать в двух ипостасях сервер для обработки стандартных документов

сервер для обработки форм

Кроме этого необходимо специализированное клиентское программное обеспечение, которое предназначено для решения проблемы ручного индексирования документа, в том случае, если не удается сделать это автоматически. Также данное рабочее место может служить для контроля качества обработки документа.

Количество серверов каждого типа определяется конкретной производительностью каждого сервера в конкретной конфигурации на заданной программно-аппаратной платформе и требуемой производительностью системы массового ввода. В общем случае мы получаем разное количество серверов, как на уровне скан-станции, так и на уровне сервера обработки и распознавания. Это явно не одна линия и с этой прорвой серверов надо как-то управляться. Существуют два основных метода управления серверами массового ввода

Файловый
Предлагается в качестве сервера управления использовать директорную структуру, причем организовывая ее таким образом, что каждой технологической операции соответствуют входящие и исходящие каталоги, в которые записываются файлы, на обработку и прошедшие обработку. Также существуют правила, по которым осуществляется переход от одной технологической операции к другой.

Преимущества

Простота и дешевизна

Недостатки

Решение слабо портируемое на различные операционные системы с различными файловыми системами.

Трудность в организации сложных (многостатусных) обработок. Например, документ распознался и определяется качество распознавания. В зависимости от уровня качества документ может направляться по тому или иному пути. В этом случае проектирование директорной структуры становится сложной задачей.

Трудно получить мгновенное состояние всех процессов. Если не ведется лог-файл, то невозможно получить историю процесса.

Необходимо придумывать и отписывать механизм блокировок файлов при их обработке.

Существует вероятность потери целостности процесса. Например, документ взят на обработку, но в результате некого сбоя не ушел на следующую стадию. В этой схеме, даже при наличии файла истории процесса, возможны безвозвратные потери документов.


Дата добавления: 2019-01-14; просмотров: 189; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!