Основные процессы обработки и хранения



Документальной информации

С организационно-функциональной точки зрения в АИПС выделяются два контура: - обработки запросов и обработки документов. В свою очередь, в контуре обработки документов могут выделяться (как отдельные подсистемы) контур первичной и вторичной информации. Контур первичной информации выделяется в отдельную подсистему в том случае, если массив первичных документов размещается на иных типах носителей или использует отдельную систему управления данными, например, на микрофишах или специализированные хранилища CD ROM-носителей, не имеющих программных интерфейсов с АИПС.

 

С точки зрения функциональности в составе АИПС можно выделить следующие блоки (Слайд 10.10):

- блок предобработки – преобразование в машинную форму документов и запросов;

- блок формирования базы данных АИПС - загрузка ПОДов и машиных форм документов(полных текстов) в базу данных

- блок поиска – отбор по поисковому образу запроса из множества ПОД, тех, которые удовлетворяют требованиям критерия смыслового соответствия;

- блок постобработки – упорядочение найденных документов.

- блок выдачи – форматирование и отображение материала найденных документов.

 

На слайде (Слайд 10.11) представлена обобщенная схема обработки запросов и документов в АИПС. Изначальными являются процессы генерации информации и появление информационной потребности. Их возникновение происходит в сознании человека, однако выражение, так или иначе, связывается с конкретной предметной областью, её структурой и терминологией. При этом могут использоваться такие лингвистические средства, как тезаурусы предметных областей, язык представления онтологий (OWL) или язык представления знаний (KWL). При этом для машинной формы материалов, ориентированной на передачу, используются коммуникативные форматы, как например, ISO-2709 и ISO-8211, или XML, а для описания логической структуры ресурса, содержащего материалы, может использоваться язык описания ресурсов RDF.

Обработка поступающих в систему документов обычно включает:

- присвоение документу уникального идентификатора, необходимого для поиска, а также, возможно, для связывания ПОДа с полным текстом документа, для чего может использоваться соответствующий кодификатор или, например, система идентификации цифровых объектов (Digital Object Identifier - DOI);

- преобразование во внутрисистемный формат, когда могут использоваться XML-схемы и язык определения документов DTD;

- индексирование и, возможно, реферирование – построение поискового образа (не обязательно автоматическое или автоматизированное) в рамках лингвистических средств АИПС, для чего используются словари, рубрикаторы, классификации, тезаурусы предметных областей;

- загрузку ПОДов и, если в АИПС есть контур первичной информации, то и полного текста документа в базу данных. При этом используются языки определения и манипулирования данными соответствующей СУБД, а для оперативного взаимодействия с внешними ресурсами, например, XML-SQL.

При обработке запросов введенная пользователем формулировка преобразуется в соответствии с требованиями информационно-поискового языка (индексируется) и преобразуется во внутрисистемный формат в соответствии с правилами информационно-поискового языка конкретной АИПС. При этом используются словари системы, а для расширения (терминологического и тематического обогащения запроса) могут использоваться тезаурусы, онтологии, а также словари естественного языка.

Отметим, что на схеме отражены две классические технологии обработки запросов (так называемых режимов информационного поиска): режим ретроспективного поиска и режим избирательного распределения информации.

При ретроспективном поиске очередной ПОЗ сравнивается со всеми ПОД (реально поиск производится только в части пространства вспомогательных структур -инвертированной форме, но построенных по всему массиву ПОД). 

В режиме избирательного распределения информации схема обратная (зеркально симметричная): ПОД каждого вновь загружаемого документа сравнивается со всеми поисковыми образами запросов. То есть, в первом случае запросы обрабатываются после создания массива ПОД, которые, накапливаясь, формируют ретроспективную БД, а во втором – массив ПОЗ создается до обработки документов (при этом хранится массив ПОЗ и необязательно - ПОД). Поэтому эти режимы иначе называют режимами обработки разовых и постоянно действующих запросов.

 

На этапе отбора документов поисковый запрос, по тому или иному алгоритму, сопоставляется с поисковым образом документа и, если результат удовлетворяет критерию выдачи, который выступает в качестве критерия смыслового соответствия, то документ (точнее, его идентификатор в БД) включается в список результата поиска.

На этапе постобработки отобранные по ПОЗу документы могут группироваться (путем классификации или кластеризации) и ранжироваться, например, по степени соответствия запросу. При этом для обогащения ПОДа и уточнения возможных (осмысленных) сочетаний лексических единиц за счет устойчивых семантических связей используются словари, тезаурусы, онтологии предметной области, а также словари естественного языка.

На этапе выдачи документы из внутренней машинной формы преобразуются в форму удобную для восприятия человеком и, более или менее, адекватную его задачам. При этом используются языки отчетов, HTML+SSL и т.д.

Отметим, что в целом лингвистические средства, упомянутые выше, могут быть с той или иной точностью отнесены либо к группе, обеспечивающей форму представления информации, либо к группе, обеспечивающей представление содержания. К первой группе относятся коммуникативные форматы, схемы документов и баз данных, языки отчетов, HTML, XML, DTD, RDF. Ко второй - тезаурусы, классификации, рубрикаторы, кодификаторы, ИПЯ, языки онтологий. Более подробно основные из перечисленных компонентов ЛО будут рассмотрены далее.

 


Дата добавления: 2021-01-21; просмотров: 101; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!