Так же некоторые термины вовсе отсутствуют в аннотации. Это обусловлено их редким появлением в рецензии, а так же алгоритмом программы.
Основной задачей автоматического аннотирования было и остается краткое и адекватное изложение исходного текста документа, сохранив его основную мысль. Но, к сожалению, ни одна программа на данный период времени не способна в полной мере справиться с это задачей. Компьютер не может осмыслить информацию так, как это делает человеческий мозг, поэтому он компонует отдельные важные участки, что приводит к потере целостности информации. В этом и заключается главный недостаток. Текст, полученный путем соединения отрывочных фрагментов, не учитывающих контекст, лишен гладкости, его трудно читать. Однако это очень быстрый способ получение информации, поэтому средства автоматического реферирования и аннотирования, в последнее время, набирают популярность.
Подводя заключение о ручном и автоматическом аннотировании, надо сказать, что у каждого из них есть свои плюсы и минусы.
Ручное аннотирование позволяет в полной мере передать смысл информации, выделить главное и кратко изложить содержание. Однако его главной проблемой является большое количество времени, потраченного на составление аннотации. Это приводит к тому, что новейшая информация доходит до людей слишком долго, что ведет за собой немало проблем. Исходя из этого, люди прибегают к помощи средств автоматического аннотирования.
Использованная литература
1. Некрестьянов И.С. Кураленок И.Е. Оценка систем текстового поиска. Программирование, 28:226-242, 2002.
|
|
2. М. В. Губин. Модели и методы представления текстового документа в системах информационного поиска
3. http://do.gendocs.ru/docs/index-13506.html
4. http://ixxi.me/kompyuter/sistemy-avtomaticheskogo-annotirovaniya-i-referirovaniya-teksta/
5. http://ru.wikipedia.org/wiki/TF-IDF
Варианты заданий
Задание 1
- Выбрать 10-15 текстов объявлений о знакомствах в Воткинске как минимум с трех различных сайтов.
- Провести автоматическое аннотирование данных текстов с целью обобщения информации о людях, ищущих знакомств и об их предпочтениях.
- Отразить результаты работы в виде графиков или таблиц.
______________________________________________________________
Задание 2
- Выбрать 10-15 текстов библиографических списков из научных статей по одной и той же специальности, находящихся в свободном доступе в сети Интернет.
- Провести автоматическое аннотирование данных текстов с целью обобщения информации: например, какие авторы и работы наиболее часто цитируются, насколько современны приводимые источники и т.п.
- Отразить результаты работы в виде графиков или таблицы.
______________________________________________________________
Задание 3
- Выбрать 10-15 текстов объявлений о вакансиях в Воткинске как минимум с трех различных сайтов.
|
|
- Провести автоматическое аннотирование данных текстов с целью обобщения информации: верхний и нижний предел заработной платы, график работы, обязанности и т.п.
- Отразить результаты работы в виде графиков.
______________________________________________________________
Задание 4
- Выбрать 10-15 текстов объявлений о продаже квартир в Воткинске как минимум с трех различных сайтов.
- Провести автоматическое аннотирование данных текстов с целью обобщения информации.
- Подготовить графическое выражение результатов работы .
______________________________________________________________
Задание 5
- Выбрать 10-15 коротких текстов (до 500 знаков) пользовательских отзывов о мобильных телефонах (любые модели) как минимум с трех различных сайтов.
- Провести автоматическое аннотирование данных текстов с целью обобщения мнений различных пользователей о работе выбранной модели телефона.
- Подготовить графическое выражение результатов работы (например, в виде нескольких секторных диаграмм, представляющих процентное соотношение положительных и отрицательных оценок тех или иных параметров).
______________________________________________________________
Задание 6
- Выбрать 10-15 текстов рецензий на фильмы как минимум с трех различных сайтов.
- Провести автоматическое аннотирование данных текстов с целью обобщения зрительских оценок качества фильма.
|
|
- Отразить результаты работы в виде графиков или таблиц.
______________________________________________________________
Задание 7
- Выбрать 10-15 текстов рецензий на книги как минимум с трех различных сайтов.
- Провести автоматическое аннотирование данных текстов с целью обобщения читательских оценок качества книги.
- Отразить результаты работы в виде графиков или таблиц.
______________________________________________________________
Задание 8
- Выбрать 10-15 текстов отзывов на музыкальные альбомы различных исполнителей как минимум с трех различных сайтов.
- Провести автоматическое аннотирование данных текстов с целью обобщения оценок альбома.
- Отразить результаты работы в виде графиков или таблиц.
Материалы для обработки
Коллекция цитат из новостного потока
Тестовая коллекция, с размеченными объектами
Коллекция отзывов о фотокамерах с Яндекс.Маркет
Коллекция отзывов о книгах с Имхонет:
Коллекция отзывов о фильмах с Имхонет:
Контрольные вопросы
1) Что такое аннотация, для чего она необходима?
2) Этапы ручного аннотирования?
3) Что такое смысловой ориентир, для чего и как используется?
|
|
4) Определение автоматического аннотирования, виды автоматического аннотирования?
5) Различия и сходства ручного и автоматического аннотирования?
6) Направления квазиреферирования(поверхностный метод)?
7) В чем суть статистической группы методов?
8) Что такое TF-IDF , структура формулы?
9) В позиционных методах автоматического реферирования и аннотирования что считается ключевым предложением?
10) Какие два основных подхода семантических методов формирования аннотаций?
11) Что может выступать в качестве смысловых единиц?
12) Где используется мера TF-IDF?
13) Формула для подсчета весов?
14) В чем заключается суть статической группы?
15) Поверхностные методы включают в себя?
Дата добавления: 2023-01-08; просмотров: 19; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!