Система автоматического чтения текста – компьютерная программа, позволяющая преобразовать текст бумажного носителя в электронный текстовый файл.
Система OCR - это частная задача машинного зрения. К этому классу задач также относятся и задачи распознавания образов, объектов (распознавание фальшивых денег, идентификация человека)
Принципы работы OCR системы:
Целостность – объект описывается как целое с помощью значимых элементов и отношений между ними.
Целенаправленность – распознавание строится как процесс выдвижения и целенаправленной проверки гипотез
Адаптивность – способность компьютерной системы к самообучению
Этапы работы Fine Reader :
Сканирование – получение графического образа документа
Распознавание – а) анализ графического макета страницы (выделение областей для распознавания: таблиц, картинок, текстов)
Б) распознавание каждого символа на основе различных форм распознавания
Проверка орфографии
Сохранение
Алгоритмы распознавания (классификаторы)
Шаблонные – растровое изображение накладывается на шаблон, содержащийся в базе данных. Наиболее подходящим является тот, у которого наименьшее количество точек отличается от исследуемого изображения.
Признаковые – позволяют анализировать не все изображение знака, а лишь некоторые признаки, которые вычисляются по формулам. Распознаванию подвергается не сам символ (оригинал), а некоторые его характеристики. Этот классификатор не отвечает принципу целостности, т.к. при вычислении признаков теряется часть инфы.
|
|
Структурные – содержат инфу не о точечном изображении символа, а о правилах начертания. Структурными элементами являются составляющие символ линии. Все символы работают с векторными изображениями. Недостаток – чувствительность к дефектам изображения.
Структурно-пятенный эталон – совмещение шаблонного и структурного позволяет представить изображение в виде набора пятен, связанных между собой парными отношениями, задающими структуру символов.
В Fine Reader все 4 типа работают. А экспертная система, встроенная внутрь ядра, сама выбирает оптимальный для данного текста алгоритм.
Возможности системы OCR :
Во время сканирования система автоматически подбирает яркость сканирования, фрагментирует каждую страницу, распознает символы текста, проверяет орфографию.
Позволяет распознавать печатные символы (200 языков), рукопечатные символы, рукописные тексты для портативных устройств.
Способность самообучаться и распознавать плохопропечатанные символы незнакомых языков.
Позволяет распознавать изображения, полученные с помощью цифрового фотоаппарата.
Распознает файлы в формате pdf
|
|
Развитие программ автоматического чтения текстов в ближайшем будущем пойдет в направлении повышения точности распознавания текстов низкого качества, распознавание рукописных текстов для портативных устройств, выделение текстовой инфы на фоне шумов (распознавание номерных знаков автомобилей)
Автоматическое аннотирование и реферирование текстов
1. Реферат и аннотация текста. Общее понятие
Методы автоматического аннотирования и реферирования текстов
Составление рефератов и аннотации текста компом на основе статистического метода
Реферат – связный текст, который кратко выражает не только центральную тему или предмет какого-либо документа, но и цель, применяемые методы, основные результаты описанного исследования или разработки.
Аннотация – это краткое изложение содержания документа, дающее общее представление о его теме.
Реферат и аннотация представляют собой вторичные документы. Обычно они составляются к научным книгам, статьям, патентам на изображение.
Составление реферата (аннотации, текста) с помощью компа называют автоматическим реферированием (аннотированием)
Этапы построения реферата человеком:
|
|
Подготовительный – референт читает текст, пытается понять и осмыслить документ в целом
2. аналитический – референт делит текст на фрагменты, каждый фрагмент изучает и выделяет в нем основные смысловые единицы. Строится план будущего реферата.
3. этап построения реферата – выделенные ранее смысловые единицы, их комбинации располагаются в единый вторичный текст в соответствии с планом реферата.
Основные смысловые единицы
- ключевые слова – термины, относящиеся к основному содержанию текста и повторяющиеся в нем несколько раз
- ключевые словосочетания – сочетания слов, среди которых есть ключевые слова
- ключевые предложения – предложения, содержащие два и более ключевых слов
В качестве смысловых единиц реферата могут быть:
Дата добавления: 2022-01-22; просмотров: 52; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!