Три принципа индексирования



- Классификационный

- Предметизационный

- Координатное индексирование

1. Кл-й принцип. Содержание документа или запроса выражается классификационными индексами в соответствии с правилами какой-либо классификационной системы.

Классификационный принцип индексирования обеспечивает возможность организации информационного поиска по иерархическому признаку. Представление ИПЯ – таблицы классификаций.

Характер информационного поиска – систематический.

4. Предметизационный принцип индексирования базируется на представлении содержания документа в понятийной системе определенного естественного языка и на использовании в качестве терминов индексирования лексических единиц (ЛЕ) естественного языка (предметные рубрики).

Представление – словарь предметных рубрик.

Предметизационный принцип индексирования обеспечивает возможность организации информационного поиска по алфавитному признаку.

5. Координатное индексирование. Смысловое содержание документа или запроса многоаспектно выражается множеством ключевых слов или дескрипторов.

Представление – тезаурус.

2 режима индексирования:

1. Предкоординация – лексические единицы ИПЯ изначально строятся для обозначения сложных понятий и даже целых тем (в УДК, ББК, ГРНТИ, МПК). Одна ЛЕ может обозначать сложное понятие и составлять целый ПОД.

2. Посткоординация. Словарный состав ИПЯ строится на основе разделения сложных понятий текстов на более простые понятия с целью дальнейшего свободного оперирования ими (комбинирования, координации) в процессе индексирования документов.

Этот подход позволяет более гибко проводить индексирование документов, но в таких ИПЯ без применения грамматики возможны ложные сочетания ЛЕ в процессе обработки поисковых запросов.

 

11. Вербальные ИПЯ: назначение, преимущества и недостатки.

 

Вербальные ИПЯ основаны на использовании профессиональной терминологии отраслей знания и человеческой деятельности.

Поэтому они более комфортны с точки зрения пользователя, т.к. применяются понятные пользователям слова и словосочетания ЕЯ.

Применение вербальных ИПЯ опирается на разницу в информативности слов ЕЯ в специальных текстах. В силу данного свойства возникает возможность свертывания текста до набора терминов, отражающего основное его содержание.

Типы вербальных ИПЯ:

1. Предкоординируемые вербальные ИПЯ

1.1. С контролируемой лексикой

1.1.1. Без грамматики

1.1.1. 1. Язык предметных рубрик

2. Посткоординируемые ИПЯ

2.1. С контролируемой лексикой

2.1.1 С грамматикой

2.1.1.1 Дескрипторные ИПЯ с грамматикой (например, тезаурус MESH)

2.1.2. Без грамматики

2.1.2.1 Дескрипторные ИПЯ без грамматики (большинство реально применяемых дескрипторных ИПЯ)

2.2. С неконтролируемой лексикой

2.2.1. ИПЯ ключевых слов (ИПЯ свободного индексирования) с грамматикой

2.2.2. ИПЯ ключевых слов без грамматики.

 

 

12. Классификационные ИПЯ: назначение, преимущества и недостатки.

Типы классификационных ИПЯ
(это чрезвычайно разнородный класс ИПЯ)

• Простые перечислительные одноуровневые классификаторы (справочники)

• Фасетные классификации

• Иерархические перечислительные классификации

• Комбинационные универсальные классификации

Перечислительные классификации

Основное свойство – классификация содержит в качестве своих ЛЕ готовые к применению рубрики для всех объектов, в описании которых она будет использоваться. Комбинация рубрик не предусматривается.

 

Перечислительные классификации бывают:

• одноуровневые без парадигматических связей эквивалентности;

• одноуровневые с парадигматическими связями эквивалентности;

• Иерархические (т.е. многоуровневые).

 

Одноуровневые перечислительные классификаторы (справочники кодируемых элементов)

Каждый классификатор охватывает множество объектов одного вида (категории читателей, языки, страны, профессии, работы, материальные носители).

Объектам не дается никакой характеристики в классификаторе, объекты просто называются, поэтому коды не структурированы.

Широко применяются в фактографических БД и в полях кодируемых данных библиографических записей.

 

Преимущества иерархических перечислительных классификаций

• Классификации многоаспектные, каждая рубрика - комбинация признаков.

• Перечислительные иерархические классификации лучше применять для систематизированных и хорошо выделяемых объектов, т.е. материальных (ОКП, почтовая индексация).

• Эти классификации позволяют легко переходить от более узких по объему классов объектов к более широким и наоборот, поднимаясь или опускаясь по иерархической цепочке.

• Хорошо видно место интересующих пользователя объектов во множестве других объектов (в классификации представлена системность описываемых объектов).

• Если размерность разрядов классификации создана с учетом расширения классификации, то она легко может быть пополнена.

 

Фасетные классификации

Основное отличие: многоаспектные классификации. Классифицируемое множество делится по нескольким признакам одновременно. Каждый объект представлен в аспекте нескольких признаков, значит описание объектов структурировано.

Порядок разработки:

Для некой предметной области (совокупности объектов) выделяется набор существенных признаков.

Для каждого признака перечисляется множество его значений, возможных для данного типа объектов.

Признаки и все значения каждого признака кодируются.

Составляется «фасетная формула», предписывающая порядок следования признаков в ПОДе.

Важно!
Классификация должна быть составлена таким образом, чтобы для любого объекта из выбранного нами множества можно было получить точное описание средствами классификации.

Преимущества:

7. Возможно точное описание объектов в рамках выбранных признаков.

8. Количество признаков не ограничивается.

9. Список значений любого признака легко может пополняться.

Недостатки:

1. Технология построения классификации (многочисленность признаков) подходит только для ограниченного круга однотипных или достаточно близких объектов. Классификации этого типа широко применяются в фактографических БД.

 

Комбинационные универсальные иерархические классификации (УДК, ББК, ДКД)

 

Преимущества:

1. Системность представления знаний, многоаспетность.

2. Легкость перехода от широких тем к более узким вопросам и наоборот.

3. Наличие свойств фасетных классификаций за счет типовых делений.

4. Наличие грамматики (возможности составлять сложные многоаспектные рубрики).

5. Обеспечивают полноту поиска по широким темам.

Недостатки:

1. Универсальность охвата знаний приводит к сложнейшей структуре классификации.

2. Детальные рубрики пересекаются по содержанию, что приводит к неоднозначности индексирования.

3. Низкая точность поиска по рубрикам.

4. Жесткая схема рубрикации и недостаточная разрядность кода на каждом уровне затрудняют ввод новых рубрик.

 


Дата добавления: 2015-12-21; просмотров: 88; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!