Три принципа индексирования
- Классификационный
- Предметизационный
- Координатное индексирование
1. Кл-й принцип. Содержание документа или запроса выражается классификационными индексами в соответствии с правилами какой-либо классификационной системы.
Классификационный принцип индексирования обеспечивает возможность организации информационного поиска по иерархическому признаку. Представление ИПЯ – таблицы классификаций.
Характер информационного поиска – систематический.
4. Предметизационный принцип индексирования базируется на представлении содержания документа в понятийной системе определенного естественного языка и на использовании в качестве терминов индексирования лексических единиц (ЛЕ) естественного языка (предметные рубрики).
Представление – словарь предметных рубрик.
Предметизационный принцип индексирования обеспечивает возможность организации информационного поиска по алфавитному признаку.
5. Координатное индексирование. Смысловое содержание документа или запроса многоаспектно выражается множеством ключевых слов или дескрипторов.
Представление – тезаурус.
2 режима индексирования:
1. Предкоординация – лексические единицы ИПЯ изначально строятся для обозначения сложных понятий и даже целых тем (в УДК, ББК, ГРНТИ, МПК). Одна ЛЕ может обозначать сложное понятие и составлять целый ПОД.
2. Посткоординация. Словарный состав ИПЯ строится на основе разделения сложных понятий текстов на более простые понятия с целью дальнейшего свободного оперирования ими (комбинирования, координации) в процессе индексирования документов.
|
|
Этот подход позволяет более гибко проводить индексирование документов, но в таких ИПЯ без применения грамматики возможны ложные сочетания ЛЕ в процессе обработки поисковых запросов.
11. Вербальные ИПЯ: назначение, преимущества и недостатки.
Вербальные ИПЯ основаны на использовании профессиональной терминологии отраслей знания и человеческой деятельности.
Поэтому они более комфортны с точки зрения пользователя, т.к. применяются понятные пользователям слова и словосочетания ЕЯ.
Применение вербальных ИПЯ опирается на разницу в информативности слов ЕЯ в специальных текстах. В силу данного свойства возникает возможность свертывания текста до набора терминов, отражающего основное его содержание.
Типы вербальных ИПЯ:
1. Предкоординируемые вербальные ИПЯ
1.1. С контролируемой лексикой
1.1.1. Без грамматики
1.1.1. 1. Язык предметных рубрик
2. Посткоординируемые ИПЯ
2.1. С контролируемой лексикой
2.1.1 С грамматикой
2.1.1.1 Дескрипторные ИПЯ с грамматикой (например, тезаурус MESH)
|
|
2.1.2. Без грамматики
2.1.2.1 Дескрипторные ИПЯ без грамматики (большинство реально применяемых дескрипторных ИПЯ)
2.2. С неконтролируемой лексикой
2.2.1. ИПЯ ключевых слов (ИПЯ свободного индексирования) с грамматикой
2.2.2. ИПЯ ключевых слов без грамматики.
12. Классификационные ИПЯ: назначение, преимущества и недостатки.
Типы классификационных ИПЯ
(это чрезвычайно разнородный класс ИПЯ)
• Простые перечислительные одноуровневые классификаторы (справочники)
• Фасетные классификации
• Иерархические перечислительные классификации
• Комбинационные универсальные классификации
Перечислительные классификации
Основное свойство – классификация содержит в качестве своих ЛЕ готовые к применению рубрики для всех объектов, в описании которых она будет использоваться. Комбинация рубрик не предусматривается.
Перечислительные классификации бывают:
• одноуровневые без парадигматических связей эквивалентности;
• одноуровневые с парадигматическими связями эквивалентности;
• Иерархические (т.е. многоуровневые).
Одноуровневые перечислительные классификаторы (справочники кодируемых элементов)
Каждый классификатор охватывает множество объектов одного вида (категории читателей, языки, страны, профессии, работы, материальные носители).
|
|
Объектам не дается никакой характеристики в классификаторе, объекты просто называются, поэтому коды не структурированы.
Широко применяются в фактографических БД и в полях кодируемых данных библиографических записей.
Преимущества иерархических перечислительных классификаций
• Классификации многоаспектные, каждая рубрика - комбинация признаков.
• Перечислительные иерархические классификации лучше применять для систематизированных и хорошо выделяемых объектов, т.е. материальных (ОКП, почтовая индексация).
• Эти классификации позволяют легко переходить от более узких по объему классов объектов к более широким и наоборот, поднимаясь или опускаясь по иерархической цепочке.
• Хорошо видно место интересующих пользователя объектов во множестве других объектов (в классификации представлена системность описываемых объектов).
• Если размерность разрядов классификации создана с учетом расширения классификации, то она легко может быть пополнена.
Фасетные классификации
Основное отличие: многоаспектные классификации. Классифицируемое множество делится по нескольким признакам одновременно. Каждый объект представлен в аспекте нескольких признаков, значит описание объектов структурировано.
|
|
Порядок разработки:
Для некой предметной области (совокупности объектов) выделяется набор существенных признаков.
Для каждого признака перечисляется множество его значений, возможных для данного типа объектов.
Признаки и все значения каждого признака кодируются.
Составляется «фасетная формула», предписывающая порядок следования признаков в ПОДе.
Важно!
Классификация должна быть составлена таким образом, чтобы для любого объекта из выбранного нами множества можно было получить точное описание средствами классификации.
Преимущества:
7. Возможно точное описание объектов в рамках выбранных признаков.
8. Количество признаков не ограничивается.
9. Список значений любого признака легко может пополняться.
Недостатки:
1. Технология построения классификации (многочисленность признаков) подходит только для ограниченного круга однотипных или достаточно близких объектов. Классификации этого типа широко применяются в фактографических БД.
Комбинационные универсальные иерархические классификации (УДК, ББК, ДКД)
Преимущества:
1. Системность представления знаний, многоаспетность.
2. Легкость перехода от широких тем к более узким вопросам и наоборот.
3. Наличие свойств фасетных классификаций за счет типовых делений.
4. Наличие грамматики (возможности составлять сложные многоаспектные рубрики).
5. Обеспечивают полноту поиска по широким темам.
Недостатки:
1. Универсальность охвата знаний приводит к сложнейшей структуре классификации.
2. Детальные рубрики пересекаются по содержанию, что приводит к неоднозначности индексирования.
3. Низкая точность поиска по рубрикам.
4. Жесткая схема рубрикации и недостаточная разрядность кода на каждом уровне затрудняют ввод новых рубрик.
Дата добавления: 2015-12-21; просмотров: 88; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!