Система автоматического чтения текста – компьютерная программа, позволяющая преобразовать текст бумажного носителя в электронный текстовый файл.



Система OCR - это частная задача машинного зрения. К этому классу задач также относятся и задачи распознавания образов, объектов (распознавание фальшивых денег, идентификация человека)

Принципы работы OCR системы:

Целостность – объект описывается как целое с помощью значимых элементов и отношений между ними.

Целенаправленность – распознавание строится как процесс выдвижения и целенаправленной проверки гипотез

Адаптивность – способность компьютерной системы к самообучению

 Этапы работы Fine Reader :

Сканирование – получение графического образа документа

Распознавание – а) анализ графического макета страницы (выделение областей для распознавания: таблиц, картинок, текстов)

Б) распознавание каждого символа на основе различных форм распознавания

Проверка орфографии

Сохранение

Алгоритмы распознавания (классификаторы)

Шаблонные – растровое изображение накладывается на шаблон, содержащийся в базе данных. Наиболее подходящим является тот, у которого наименьшее количество точек отличается от исследуемого изображения.

Признаковые – позволяют анализировать не все изображение знака, а лишь некоторые признаки, которые вычисляются по формулам. Распознаванию подвергается не сам символ (оригинал), а некоторые его характеристики. Этот классификатор не отвечает принципу целостности, т.к. при вычислении признаков теряется часть инфы.

Структурные – содержат инфу не о точечном изображении символа, а о правилах начертания. Структурными элементами являются составляющие символ линии. Все символы работают с векторными изображениями. Недостаток – чувствительность к дефектам изображения.

Структурно-пятенный эталон – совмещение шаблонного и структурного позволяет представить изображение в виде набора пятен, связанных между собой парными отношениями, задающими структуру символов.

В Fine Reader все 4 типа работают. А экспертная система, встроенная внутрь ядра, сама выбирает оптимальный для данного текста алгоритм.

Возможности системы OCR :

Во время сканирования система автоматически подбирает яркость сканирования, фрагментирует каждую страницу, распознает символы текста, проверяет орфографию.

Позволяет распознавать печатные символы (200 языков), рукопечатные символы, рукописные тексты для портативных устройств.

Способность самообучаться и распознавать плохопропечатанные символы незнакомых языков.

Позволяет распознавать изображения, полученные с помощью цифрового фотоаппарата.

Распознает файлы в формате pdf

Развитие программ автоматического чтения текстов в ближайшем будущем пойдет в направлении повышения точности распознавания текстов низкого качества, распознавание рукописных текстов для портативных устройств, выделение текстовой инфы на фоне шумов (распознавание номерных знаков автомобилей)

Автоматическое аннотирование и реферирование текстов

1. Реферат и аннотация текста. Общее понятие

Методы автоматического аннотирования и реферирования текстов

Составление рефератов и аннотации текста компом на основе статистического метода

Реферат – связный текст, который кратко выражает не только центральную тему или предмет какого-либо документа, но и цель, применяемые методы, основные результаты описанного исследования или разработки.

Аннотация – это краткое изложение содержания документа, дающее общее представление о его теме.

Реферат и аннотация представляют собой вторичные документы. Обычно они составляются к научным книгам, статьям, патентам на изображение.

Составление реферата (аннотации, текста) с помощью компа называют автоматическим реферированием (аннотированием)

Этапы построения реферата человеком:

Подготовительный – референт читает текст, пытается понять и осмыслить документ в целом

2. аналитический – референт делит текст на фрагменты, каждый фрагмент изучает и выделяет в нем основные смысловые единицы. Строится план будущего реферата.

3. этап построения реферата – выделенные ранее смысловые единицы, их комбинации располагаются в единый вторичный текст в соответствии с планом реферата.

Основные смысловые единицы

- ключевые слова – термины, относящиеся к основному содержанию текста и повторяющиеся в нем несколько раз

- ключевые словосочетания – сочетания слов, среди которых есть ключевые слова

- ключевые предложения – предложения, содержащие два и более ключевых слов

В качестве смысловых единиц реферата могут быть:


Дата добавления: 2022-01-22; просмотров: 52; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!