Так же некоторые термины вовсе отсутствуют в аннотации. Это обусловлено их редким появлением в рецензии, а так же алгоритмом программы.



Основной задачей автоматического аннотирования было и остается краткое и адекватное изложение исходного текста документа, сохранив его основную мысль. Но, к сожалению, ни одна программа на данный период времени не способна в полной мере справиться с это задачей. Компьютер не может осмыслить информацию так, как это делает человеческий мозг, поэтому он компонует отдельные важные участки, что приводит к потере целостности информации. В этом и заключается главный недостаток. Текст, полученный путем соединения отрывочных фрагментов, не учитывающих контекст, лишен гладкости, его трудно читать. Однако это очень быстрый способ получение информации, поэтому средства автоматического реферирования и аннотирования, в последнее время, набирают популярность.

Подводя заключение о ручном и автоматическом аннотировании, надо сказать, что у каждого из них есть свои плюсы и минусы.

Ручное аннотирование позволяет в полной мере передать смысл информации, выделить главное и кратко изложить содержание. Однако его главной проблемой является большое количество времени, потраченного на составление аннотации. Это приводит к тому, что новейшая информация доходит до людей слишком долго, что ведет за собой немало проблем. Исходя из этого, люди прибегают к помощи средств автоматического аннотирования.


 

Использованная литература

 

 

1. Некрестьянов И.С. Кураленок И.Е. Оценка систем текстового поиска. Программирование, 28:226-242, 2002.

2. М. В. Губин. Модели и методы представления текстового документа в системах информационного поиска

3. http://do.gendocs.ru/docs/index-13506.html

4. http://ixxi.me/kompyuter/sistemy-avtomaticheskogo-annotirovaniya-i-referirovaniya-teksta/

5. http://ru.wikipedia.org/wiki/TF-IDF

 

Варианты заданий

Задание 1

- Выбрать 10-15 текстов объявлений о знакомствах в Воткинске как минимум с трех различных сайтов.

- Провести автоматическое аннотирование данных текстов с целью обобщения информации о людях, ищущих знакомств и об их предпочтениях.

- Отразить результаты работы в виде графиков или таблиц.

______________________________________________________________
Задание 2

- Выбрать 10-15 текстов библиографических списков из научных статей по одной и той же специальности, находящихся в свободном доступе в сети Интернет.

- Провести автоматическое аннотирование данных текстов с целью обобщения информации: например, какие авторы и работы наиболее часто цитируются, насколько современны приводимые источники и т.п.

- Отразить результаты работы в виде графиков или таблицы.

______________________________________________________________
Задание 3

- Выбрать 10-15 текстов объявлений о вакансиях в Воткинске как минимум с трех различных сайтов.

- Провести автоматическое аннотирование данных текстов с целью обобщения информации: верхний и нижний предел заработной платы, график работы, обязанности и т.п.

- Отразить результаты работы в виде графиков.
______________________________________________________________
Задание 4

- Выбрать 10-15 текстов объявлений о продаже квартир в Воткинске как минимум с трех различных сайтов.

- Провести автоматическое аннотирование данных текстов с целью обобщения информации.

- Подготовить графическое выражение результатов работы .

______________________________________________________________

Задание 5

- Выбрать 10-15 коротких текстов (до 500 знаков) пользовательских отзывов о мобильных телефонах (любые модели) как минимум с трех различных сайтов.

- Провести автоматическое аннотирование данных текстов с целью обобщения мнений различных пользователей о работе выбранной модели телефона.

- Подготовить графическое выражение результатов работы (например, в виде нескольких секторных диаграмм, представляющих процентное соотношение положительных и отрицательных оценок тех или иных параметров).
______________________________________________________________
Задание 6

- Выбрать 10-15 текстов рецензий на фильмы как минимум с трех различных сайтов.

- Провести автоматическое аннотирование данных текстов с целью обобщения зрительских оценок качества фильма.

- Отразить результаты работы в виде графиков или таблиц.
______________________________________________________________
Задание 7

- Выбрать 10-15 текстов рецензий на книги как минимум с трех различных сайтов.

- Провести автоматическое аннотирование данных текстов с целью обобщения читательских оценок качества книги.

- Отразить результаты работы в виде графиков или таблиц.
______________________________________________________________
Задание 8

- Выбрать 10-15 текстов отзывов на музыкальные альбомы различных исполнителей как минимум с трех различных сайтов.

- Провести автоматическое аннотирование данных текстов с целью обобщения оценок альбома.

- Отразить результаты работы в виде графиков или таблиц.

 

Материалы для обработки

Коллекция цитат из новостного потока

Тестовая коллекция, с размеченными объектами

Коллекция отзывов о фотокамерах с Яндекс.Маркет

Коллекция отзывов о книгах с Имхонет:

Коллекция отзывов о фильмах с Имхонет:

 


 

Контрольные вопросы

1) Что такое аннотация, для чего она необходима?

2) Этапы ручного аннотирования?

3) Что такое смысловой ориентир, для чего и как используется?

4) Определение автоматического аннотирования, виды автоматического аннотирования?

5) Различия и сходства ручного и автоматического аннотирования?

6) Направления квазиреферирования(поверхностный метод)?

7) В чем суть статистической группы методов?

8) Что такое TF-IDF , структура формулы?

9) В позиционных методах автоматического реферирования и ан­нотирования что считается ключевым предложением?

10) Какие два основных подхода семантических методов формирования аннотаций?

11) Что может выступать в качестве смысловых единиц?

12) Где используется мера TF-IDF?

13) Формула для подсчета весов?

14) В чем заключается суть статической группы?

15) Поверхностные методы включают в себя?

 


Дата добавления: 2023-01-08; просмотров: 19; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!