Текстологические методы извлечения знаний

Содержание

Введение. 3

Многообразие методов извлечения знаний. 4

Текстологические методы извлечения знаний. 18

Заключение. 29

Список литературы.. 30

Введение

Извлечение знаний - процесс взаимодействия инженера по знаниям с источником знаний (экспертом), в результате которого становятся явными процесс рассуждений специалистов при принятии решения и структура их представлений о предметной области.

Несмотря на то, что в отечественной практике понятие менеджмента интеллектуальных систем стало использоваться сравнительно недавно, в этой области накоплены значительные теоретические достижения и практический опыт. В отечественной экономической литературе и официальных документах, они нашли наибольшее отражение в работах, посвященных проблемам управления научно-техническим прогрессом, развития науки и техники, управления научными исследованиями и разработками.

Накопленные теоретические предпосылки, а также специфические проблемы практического характера, волновавшие классический менеджмент и ранее, но наиболее остро, проявившиеся на современном этапе его развития, привели к выделению из менеджмента - менеджмента интеллектуальных систем. К таким проблемам относятся и спонтанность создания новых знаний, и потребность в выработке методов, с помощью которых можно ускорить процесс достижения новых решений.

Учитывая актуальность темы, целью работы является теоретический и методологический обзор текстологических методов извлечения знаний.

В связи с поставленной целью, задачами работы выступает изучение теоретических и методологических аспектов:

1. Многообразия методов извлечения знаний

2. Текстологических методов извлечения знаний

Многообразие методов извлечения знаний

Многообразие задач, ситуаций и источников знаний обусловило появление большого количества методов извлечения, приобретения и формирования знаний. Одна из возможных классификаций методов извлечения знаний приведена на рис. 1, на первом уровне которой выделены два больших класса. Первый класс образуют коммуникативные методы, которые ориентированы на непосредственный контакт инженера по знаниям с экспертом (источником знаний), второй класс — текстологические методы, основанные на приобретении знаний из документов и специальной литературы[1].

Рис. 1. Классификация методов извлечения знаний

Коммуникативные методы разделяются на пассивные и активные.

В пассивных методах ведущую роль играет эксперт, в активных — инженер по знаниям. При решении конкретных задач, как правило, используются как пассивные, так и активные методы.

Активные методы делятся на индивидуальные и групповые. В групповых методах знания получают от множества экспертов, в индивидуальных — от единственного эксперта. Индивидуальные методы получили более широкое применение на практике по сравнению с групповыми.

Пассивные коммуникативные методы включают наблюдение, анализ протоколов «мыслей вслух», процедуры извлечения знаний из лекций.

Метод наблюдения является одним из наиболее применяемых на начальных этапах разработки экспертных систем. Его суть заключается в фиксировании всех действий эксперта, его реплик и объяснений. При этом аналитик не вмешивается в работу эксперта, а только наблюдает за процессом решения реальных задач либо за решением проблем, имитирующих реальные задачи. Наблюдения за процессом решения реальных задач позволяют инженеру по знаниям глубже понять предметную область. Однако эксперт в этом случае испытывает большое психологическое напряжение, понимая, что осуществляет не только свою профессиональную деятельность, но и демонстрирует ее инженеру по знаниям. Наблюдение за имитацией процесса снимает это напряжение, но приводит к снижению полноты и качества извлекаемых данных. Наблюдения за имитацией незаменимы в тех случаях, когда наблюдения за реальным процессом невозможны из-за специфики изучаемой предметной области[2].

Метод анализа протоколов «мыслей вслух» отличается от метода наблюдения тем, что эксперт не только комментирует свои действия, но и объясняет цепочку своих рассуждений, приводящих к решению. Основной проблемой, возникающей при использовании этого метода, является принципиальная сложность для любого человека словесного описания собственных мыслей и действий. Повысить полноту и качество извлекаемых знаний можно за счет многократного уточняющего протоколирования рассуждений эксперта.

Метод извлечения знаний из лекций предполагает, что эксперт передает свой опыт инженеру по знаниям в форме лекций. При этом инженер по знаниям может заранее сформулировать темы лекций. Если этого не удается сделать, то когнитолог конспектирует лекции и задает вопросы. Качество информации, предоставленной экспертом в ходе лекции, определяется четкостью сформулированной темы, а также способностями лектора в структурировании и изложении своих знаний и рассуждений.

Сравнительные характеристики пассивных методов извлечения знаний приведены в табл. 1.

Одна из возможных классификаций людей по психологическим характеристикам делит всех на три типа:

• мыслитель (познавательный тип);

• собеседник (эмоционально-коммуникативный тип);

• практик (практический тип).

Мыслители ориентированы на интеллектуальную работу, учебу, теоретические обобщения и обладают свойствами поленеза-висимости и рефлексивности. Собеседники — общительные, открытые люди, готовые к сотрудничеству. Практики предпочитают действия разговорам, хорошо реализуют замыслы других[3].

Таблица 1. Сравнительные характеристики пассивных методов извлечения знаний

Показатели	Наблюдения	«Мысли вслух»	Лекции
Достоинства	Отсутствие влияния аналитика и его субъективной позиции Максимальное приближение аналитика к предметной области	Свобода самовыражения для эксперта Вербализация рассуждений Отсутствие влияния аналитика и его субъективной позиции	Свобода самовыражения для эксперта Структурированное изложение Высокая концентрация Отсутствие влияния аналитика и его субъективной позиции
Недостатки	Отсутствие обратной связи Фрагментарность полученных комментариев	Отсутствие обратной связи Возможность ухода «в сторону» в рассуждениях эксперта	«Зашумленность» деталями Слабая обратная связь Недостаток хороших лекторов среди экспертов-практиков
Требования к эксперту (типы и основные качества)	Собеседник или мыслитель (способность к вербализации мыслей, аналитический склад ума, открытость, рефлексивность)		Мыслитель (лекторские способности)
Требования к аналитику {типы и основные качества)	Мыслитель (наблюдательность, поленезависимость)	Мыслитель или собеседник (поленезависимост, способность к общению)	Мыслитель (поленезависимость, способность к общению)
Характерис-тика предметной области	Слабо- и среднеструктурированные, слабо- и среднедокументированные		Слабоструктурированны, слабодокументированные

Предметные области отличаются уровнем документированности и структурированности. Для характеристики предметной области по уровню документированности выделяют три класса: хорошо документированные, среднедокументированные и слабодокументированные области. По степени структурированности знаний предметные области могут быть:

· хорошо структурированными (с четкой аксиоматизацией, широким применением математического аппарата, устоявшейся терминологией);

· среднеструктурированными (с определившейся терминологией, развивающейся теорией, явными взаимосвязями между явлениями);

· слабоструктурированными (с размытыми определениями, богатым эмпирическим материалом, скрытыми взаимосвязями).

Активные индивидуальные методы включают методы анкетирования, интервьюирования, свободного диалога и игры с экспертом. Сравнительный анализ методов данной группы приведен в табл. 2[4].

Преимуществом методов анкетирования является то, что анкета или вопросник составляются инженером по знаниям заранее и используются для опроса экспертов. Составление анкеты следует проводить с учетом рекомендаций, выработанных в социологии и психологии. Основными требованиями к анкетам являются следующие:

1. Анкета не должна быть монотонной и однообразной, чтобы не вызывать скуку или усталость. Для этого необходимо разнообразить тематику и форму задания вопросов, включить вопросы-шутки и применить стиль игры.

2. Анкета должна быть приспособлена к языку эксперта.

3. Следует учитывать, что вопросы влияют друг на друга, поэтому важно расположить их в правильной последовательности.

4. В анкете должно содержаться оптимальное число избыточных вопросов, часть которых предназначена для контроля правильности ответов, а другая часть — для снятия напряжения.

Метод интервьюирования отличается от метода анкетирования тем, что позволяет аналитику опускать ряд вопросов в зависимости от ситуации, вставлять новые вопросы в анкету, изменять темы и разнообразить ситуацию общения. Важную роль в методе интервьюирования играют вопросы, классификация которых показана на рис. 2.

Открытый вопрос называет тему или предмет, оставляя эксперту полную свободу в отношении формы и содержания ответа. Закрытый вопрос предлагает эксперту выбрать ответ из предложенного набора[5].

Таблица 2. Сравнение активных индивидуальных методов

Показатели	Анкетирование	Интервьюирование	Свободный диалог
Достоинства	Возможность стандартизированного опроса нескольких экспертов. Не требует особенного напряжения от аналитика во время процедуры анкетирования	Наличие обратной связи (возможность уточнения контекста и разрешения противоречий)	Гибкость Обратная связь Возможность изменения сценария и формы сеанса
Недостатки	Требует умения и опыта составления анкет Отсутствие контекста и обратной связи. Вопросы анкеты могут быть неправильно поняты экспертом	Требует значительного времени на подготовку вопросов интервью	Требует от аналитика высочайшего напряжения Отсутствие формальных методик проведения Трудность протоколирования результатов
Требования к эксперту	Практик и мыслитель	Собеседник и мыслитель
Требования к аналитику	Мыслитель (педантизм в составлении анкет, внимательность)	Собеседник (журналистские навыки, умение слушать)	Собеседник (наблюдательность, умение слушать, обаяние)
Характеристика предметной области	Слабоструктурированные, слабо- и среднедокументированные

Рис.2. Классификация вопросов при интервьювировании

Личный вопрос непосредственно касается личного опыта эксперта. Безличный вопрос направлен на выявление наиболее распространенных закономерностей предметной области.

Прямой вопрос непосредственно указывает на интересующий предмет или тему (используется при «зажатости» эксперта). Косвенный вопрос исподволь затрагивает рассматриваемую проблему.

Вербальный вопрос — традиционный устный вопрос. Вопрос с использованием наглядного материала позволяет разнообразить интервью и снять усталость эксперта (используются фотографии, рисунки, карточки).

Основной вопрос направлен на выявление знаний. Зондирующий вопрос направляет рассуждения эксперта в нужную сторону. Контрольный вопрос проверяет достоверность и объективность информации, полученной в интервью ранее.

Нейтральный вопрос подчеркивает беспристрастность инженера по знаниям к предмету исследования. Наводящий вопрос ориентирует эксперта принять во внимание позицию инженера по знаниям.

Дополнительно в интервью рекомендуется включать следующие вопросы: контактные (снимающие психологический барьер между аналитиком и экспертом), буферные (разграничивающие отдельные темы интервью), оживляющие память экспертов (реконструирующие отдельные случаи из практики), «провоцирующие» (способствующие получению неподготовленных ответов).

При использовании метода интервьюирования следует иметь в виду, что его эффективность во многом определяется языком вопросов (понятностью, лаконичностью, терминологией); порядком вопросов (логическая последовательность); уместностью вопросов (этичностью и вежливостью)[6].

Прежде чем готовить вопросы, аналитик должен овладеть ключевым набором знаний исследуемой предметной области, поскольку любой вопрос имеет смысл только в контексте.

Метод свободного диалога позволяет извлекать знания в форме беседы с экспертом, поэтому здесь не предусматривается использование жесткого вопросника или плана. В то же время подготовка к свободному диалогу должна проводиться по специальной методике, в которую входит общая, специальная, конкретная и психологическая подготовка. Общая подготовка направлена на повышение научной эрудиции, овладение общей культурой, знакомство с системной методологией. Специальная подготовка сводится к овладению теорией и навыками интервьюирования. Конкретная подготовка предполагает изучение предметной области, подготовку ситуации общения, знакомство с экспертом, тестирование эксперта. Психологическая подготовка включает знакомство с теорией общения и с когнитивной психологией.

Игры с экспертом существенно отличаются от приведенных выше индивидуальных активных методов извлечения знаний и рассматриваются в классе групповых активных методов, где особое место принадлежит ролевым и экспертным методам.

Активные групповые методы включают «мозговой штурм», дискуссии за круглым столом и ролевые игры. Групповые методы позволяют творчески интегрировать знания множества экспертов. Сравнительный анализ методов приведен в табл. 3[7].

Таблица 3. Сравнение активных групповых методов извлечения знаний

Показатели	«Мозговой штурм»	Дискуссия за круглым столом
Достоинства	Позволяет выявлять глубинные пласты знаний (на уровне бессознательного) Активизирует экспертов Позволяет получать новые знания	Позволяет получать более объективные фрагменты знаний Оживляет процедуру извлечения знаний Позволяет участникам обмениваться знаниями
Недостатки	Возможен только ДЛЯ новых интересных исследовательских проблем Не всегда эффективен (довольно низкий процент продуктивных идей)	Требует больших организационных затрат Отличается сложностью проведения
Требования к эксперту	Мыслитель (способность к творчеству)	Собеседник или мыслитель (искусство полемики)
Требования к аналитику	Собеседник или мыслитель (быстрая реакция и чувство юмора)	Собеседник (дипломатические способности)
Характеристика предметной области	Слабоструктурированные и слабодокументированные с наличием перспективных «белых пятен»	Слабоструктурированные и слабодокументированные с наличием спорных проблем

Метод «мозгового штурма» - один из наиболее известных и широко применяемых методов генерирования новых идей путем творческого сотрудничества группы специалистов. Являясь в некотором смысле единым мозгом, группа пытается штурмом преодолеть трудности, мешающие разрешить рассматриваемую проблему. В процессе такого штурма участники выдвигают и развивают собственные идеи, стимулируя появление новых и комбинируя их. Для обеспечения максимального эффекта «мозговой штурм» должен подчиняться определенным правилам и основываться на строгом разделении во времени процесса выдвижения идей и процесса их обсуждения и оценки. На первой стадии штурма запрещается осуждать выдвинутые идеи и предложения (считается, что критические замечания уводят к частностям, прерывают творческий процесс, мешают выдвижению идей). Роль аналитика состоит в том, чтобы активизировать творческое мышление участников заседания и обеспечить выдвижение возможно большего числа идей.

После выдвижения идей выполняются тщательное их обсуждение, оценка и отбор лучших. На стадии обсуждения участники «мозгового штурма» должны сконцентрироваться на положительных сторонах идей, найти в них рациональные зерна и предложить направления их развития. Выдвигаемые в процессе обсуждения дополнительные идеи могут базироваться на идеях других участников или, наоборот, служить для них фундаментом, катализатором. Значительный эффект дает комбинирование идей при одновременном выявлении преимуществ и недостатков синтезируемых при этом вариантов.

Метод «мозгового штурма» эффективен при решении не слишком сложных задач общего организационного характера, когда проблема хорошо знакома всем участникам заседания и по рассматриваемому вопросу имеется достаточная информация. Существует ряд модификаций этого метода[8].

Индивидуальный «мозговой штурм» проводится по тем же правилам, что и коллективный, но выполняется одним экспертом, который одновременно генерирует идеи, дает им объективную оценку и критикует их.

Массовый «мозговой штурм» проводится в массовой аудитории (до нескольких десятков человек). Отбор идей проводится на промежуточных этапах. Эксперты группируются по 6-8 человек, при этом важно, чтобы непосредственное отношение к задаче имел лишь руководитель группы, а остальные были лишь знакомы с нею (иначе амбиции могут сыграть негативную роль). Штурм проводится в два этапа. На первом этапе оперативные группы осуществляют прямой коллективный «мозговой штурм»[9].

При этом желательно, чтобы каждая группа работала над задачей, наиболее близкой по тематике к профилю вошедших в нее специалистов. На втором этапе руководители каждой группы в течение нескольких минут оценивают выдвинутые идеи, отбирают из них наиболее интересные и сообщают их на «пленарном заседании».

Двойной «мозговой штурм» органически соединяет в себе процессы генерирования идей и их доброжелательной позитивной критики.

Обратный «мозговой штурм» отличается от прямого тем, что в нем больше внимания уделяется критике высказанных идей.

Метод дискуссии за круглым столом предполагает равноправное обсуждение экспертами поставленной проблемы. Отличительной особенностью метода дискуссии является коллективное рассмотрение предметной области с разных точек зрения и исследование спорных гипотез.

Экспертные игры предназначены для извлечения знаний и базируются на деловых, диагностических и компьютерных играх (табл. 4)[10].

Таблица 4. Сравнительные характеристики экспертных игр

Показатели	Экспертные игры
	индивидуальные	групповые		компьютерные
Достоинства	Дают возможность сравнительно быстро получить качественную картину принятия решения Позволяют выяснить, какую информацию и как использует эксперт	Реалистично воссоздают атмосферу конкретной задачи Раскрепощают экспертов Групповые занятия более объективны Выявляют логику и аргументацию экспертов		Вызывают интерес у эксперта Привлекают дизайном и динамикой
Недостатки	Отсутствие методик и стандартного набора игр. Высокие профессиональные требования к аналитику	Требуют от аналитика знания основ игротехники Сложность создания игр для конкретных предметных областей		Сложность и высокая стоимость создания специализированных игр в конкретной предметной области
Требования к эксперту	Собеседник или практик (раскованность и актерское мастерство)			Практик (без психологического барьера к ЭВМ)
Требования к аналитику	Собеседник (режиссерские способности, умение создавать сценарии, актерское мастерство)		Собеседник (способность к ведению конферанса, режиссерские способности, актерское мастерство)	Мыслитель (контакт с программистом)
Характеристика предметной области	Средне- и слабоструктурированные и слабодокументированные

По числу участников игры подразделяют на индивидуальные (игры с экспертом) и групповые (ролевые игры в группе). По применению специального оборудования — игры с тренажерами и игры без реквизита. Особый класс представляют собой компьютерные игры.

В играх с экспертом инженер по знаниям берет на себя чью-нибудь роль в моделируемой ситуации. Ролевые игры в группе предусматривают участие в игре нескольких специалистов. Участники игры наделяются определенными ролями, а собственно игра проводится по составленному когнитологом сценарию. В целях повышения эффективности ролевых игр в них необходимо вводить элементы состязательности.

Игры с применением тренажеров позволяют зафиксировать трудно уловимые знания, которые возникают в реальных ситуациях и могут быть потеряны при выходе из них.

Компьютерные экспертные игры в настоящее время используются в основном в целях обучения. Они полезны для «разминки» экспертов перед сеансом извлечения знаний.

Текстологические методы включают методы извлечения знаний, основанные на изучении текстов учебников, специальной литературы и документов. Текстология — это наука, целью которой является практическое прочтение текстов, изучение и интерпретация литературных источников, а также рассмотрение семиотических, психолингвистических и других аспектов извлечения знаний из текстов. Схема извлечения знаний из специальных текстов приведена на рис. 3, где М1 — смысл, заложенный автором и основанный на его собственной модели мира; М2 — смысл, который постигает инженер по знаниям; I — интерпретация текста, изложенного словесно; Т — словесное изложение знаний; V — результат вербализации[11].

Рис. 3. Схема извлечения знаний из текста

Научный текст Т, который формируется автором на основе модели M1, включает в себя пять компонентов, погруженных в языковую среду L; , где - первичный материал наблюдений; — система научных понятий; — субъективный взгляд автора; — дополнительная информация, не касающаяся научного знания (общие места); — заимствования. На процесс понимания (интерпретации) I и на модель М2 влияют следующие компоненты: М2 = , где - экстракт компонентов, почерпнутый из текста Т; — предварительные знания аналитика о предметной области; — общенаучная эрудиция инженера по знаниям; — личный опыт аналитика.

Автор книги, являющийся в данном случае экспертом, на основании собственной модели мира М1 пишет книгу, представляя свои знания в виде текста. Затем инженер по знаниям на основании своей модели знаний М2 и информации, почерпнутой из текста Т, интерпретирует знания эксперта. Схема процесса извлечения знаний из текста показывает, что смысл М1, заложенный автором книги, отличается от смысла М2, который постигает читатель (инженер по знаниям). Эти различия определяются тем, насколько развиты факторы , и у конкретного аналитика (читателя).

Немецкий философ и языковед В. Фон Гумбольдт так охарактеризовал сложную и трудно формализуемую процедуру взаимного понимания людей: «Люди понимают друг друга не потому, что передают собеседнику знаки предметов, и даже не потому, что взаимно настраивают друг друга на точное и полное воспроизведение идентичного понятия, а потому, что взаимно затрагивают друг в друге одно и то же звено цепи чувственных представлений и зачатков внутренних понятий, прикасаются к одним и тем же клавишам инструмента своего духа, благодаря чему у каждого вспыхивают в сознании соответствующие, но не тождественные смыслы»[12].

Особую сложность представляет извлечение знаний из специальной литературы и методик, поскольку в них очень высока степень концентрации специальных знаний.

Простейший алгоритм извлечения знаний из текстов включает следующие шаги.

1. Составить «базовый» список литературы для ознакомления с предметной областью.

2. Выбрать текст для извлечения знаний.

3. Беглое знакомство с текстом. Провести консультации со специалистами для определения значений незнакомых слов.

4. Сформировать первую гипотезу о макроструктуре текста.

5. Внимательно прочитать текст и выписать ключевые слова и выражения, определив тем самым «смысловые вехи».

6. Определить связи между ключевыми словами, разработать макроструктуры текста в форме графа или реферата.

7. Сформировать новое представление знаний на основании макроструктуры текста.

Текстологические методы извлечения знаний

Группа текстологических методов объединяет методы извлечения знаний, основанные на изучении специальных текстов из учебников монографий, статей, методик и других носителей профессиональных знаний.

В буквальном смысле текстологические методы не относятся к текстологии — науке, которая родилась в русле филологии с целью критического прочтения литературных текстов, изучения и интерпретации источников с узкоприкладной задачей — подготовки текстов к изданию. Сейчас текстология расширила свои границы включением аспектов смежных наук — герменевтики (науки правильного толкования древних текстов — библии, античных рукописей и др.), семиотики, психолингвистики и др.

Текстологические методы извлечения знаний, безусловно, используя основные положения текстологии, отличаются принципиально от ее методологии, во-пер-вых, характером и природой своих источников (профессиональная специальная литература, а не художественная, живущая по своим особым законам), а во-вторых, жесткой прагматической направленностью извлечения конкретных профессиональных знаний.

Среди методов извлечения знаний эта группа является наименее разработанной, по ней практически нет никакой библиографии, поэтому дальнейшее изложение является как бы введением в методы изучения текстов в том виде, как это представляют авторы.

Задачу извлечения знаний из текстов можно сформулировать как задачу понимания и выделения смысла текста. Сам текст на естественном языке является лишь проводником смысла, а замысел и знания автора лежат во вторичной структуре (смысловой структуре или макроструктуре текста), настраиваемой над естественным текстом, или, как сформулировано в работе, «текст не содержит и не передает смысл, а является лишь инструментом для автора текста»[13].

При этом можно выделить две такие смысловые структуры:

М, — смысл, который пытался заложить автор, это его модель мира, и М₂ — смысл, который постигает читатель, в данном случае инженер по знаниям (рис. 4), в процессе интерпретации I. При этом Т — это словесное одеяние М₁, то есть результат вербализации V.

Сложность процесса заключается в принципиальной невозможности совпадения знаний, образующих М₁ к М₂, из-за того, что М₁ образуется за счет всей совокупности представлений, потребностей, интересов и опыта автора, лишь малая часть которых находит отражение в тексте Т. Соответственно, и М₂ образуется в процессе интерпретации текста Т за счет привлечения всей совокупности научного и человеческого багажа читателя. Таким образом, два инженера по знаниям извлекут из одного Т две различные модели М’₁и М’₂

Рис. 4. Схема извлечения знаний из специальных текстов

Встает задача: выяснить, за счет чего можно достичь максимальной адекватности М₁ и М₂, помня при этом, что понимание всегда относительно, поскольку это синтез двух смыслов «свое—чужое».

Рассмотрим подробнее, какие источники питают модель М₁ и создают текст Т. В работе указаны два компонента любого научного текста. Это первичный материал наблюдений α и система научных понятий β в момент создания текста. В дополнение к этому, на наш взгляд, помимо объективных данных экспериментов и наблюдений, в тексте обязательно присутствуют субъективные взгляды автора γ, результат его личного опыта, а также некоторые «общие места» или «вода» δ. Кроме этого, любой научный текст содержит заимствования из других источников (статей, монографий) и т. д. При этом все компоненты погружены в языковую среду L. Можно записать:

T = (α, β, γ, δ,θ)_L.

Таким образом, компоненты научного текста можно представить в виде следующей схемы (рис. 5). При этом компоненты β, γ, часть α входят и в модель М₁.

Рис. 5. Компоненты научного текста

При извлечении знаний аналитику, интерпретирующему текст, приходится решать задачу декомпозиции этого текста на перечисленные выше компоненты для выделения истинно значимых для реализации базы знаний фрагментов. Сложность интерпретации научных и специальных текстов заключается еще и в том, что любой текст приобретает смысл только в контексте, где под контекстом понимается окружение, в которое «погружен» текст.

Различают микро- и макроконтекст. Микроконтекст — это ближайшее окружение текста. Так, предложение получает смысл в контексте абзаца, абзац в контек-. сте главы и т. д. Макроконтекст — это вся система знаний, связанная с предметной областью (то есть знания об особенностях и свойствах, явно не указанных в тексте). Другими словами, любое знание обретает смысл в контексте некоторого метазнания.

Теперь несколько подробнее о центральном звене процедуры извлечения знания — о понимании текста. Классическим в текстологии является определение немецкого философа и языковеда В. фон Гумбольдта:

«...Люди понимают друг друга не потому, что передают собеседнику знаки предметов, и даже не потому, что взаимно настраивают друг друга на точное и полное воспроизведение идентичного понятия, а потому, что взаимно затрагивают друг в друге одно и то же звено цепи чувственных представлений и зачатков внутренних понятий, прикасаются к одним и тем же клавишам инструмента своего духа, благодаря чему у каждого вспыхивают в сознании соответствующие, но не тождественные смыслы.»

Говоря на языке современного языкознания, понимание — это формирование «второго текста», то есть семантической структуры (понятийной структуры). В нашей терминологии — это попытка воссоздания семантической структуры М₁ в процессе формирования модели М₂, то есть это первый шаг структурирования знаний[14].

Как происходит процесс понимания I? Одна из возможных схем изложена в работе. Мы внесли несколько изменений в эту схему в связи с тем, что в ней трактуется понимание текста на иностранном языке, а нас интересует понимание текста в новой для познающего субъекта предметной области. Кроме этого, дополним ее некоторыми положениями герменевтики. В целом полученная схема согласуется со стратегией изучения всего нового.

Основными моментами понимания текста являются:

· Выдвижение предварительной гипотезы о смысле всего текста (предугадывание).

· Определение значений непонятных слов (то есть специальной терминологии).

· Возникновение общей гипотезы о. содержании текста (о знаниях).

· Уточнение значения терминов и интерпретация отдельных фрагментов текста под влиянием общей гипотезы (от целого к частям).

· Формирование некоторой смысловой структуры текста за счет установления внутренних связей между отдельными важными (ключевыми) словами и фрагментами, а также за счет образования абстрактных понятий, обобщающих конкретные фрагменты знаний.

· Корректировка общей гипотезы относительно содержащихся в тексте фрагментов знаний (от частей к целому).

· Принятие основной гипотезы, то есть формирование M₂.

Следует отметить наличие как дедуктивной (от целого к частям), так и индуктивной (от частей к целому) составляющей процесса понимания. Такой двуединый подход позволяет охватывать текст как смысловое единство особого рода, с его основными признаками, такими как связность, цельность, законченность и др.

Центральными моментами процесса I являются шаги 5 и 7, то есть формирование смысловой структуры или выделение «опорных», ключевых, слов или «смысловых вех», а также заключительное связывание «смысловых вех» в единую семантическую структуру.

При анализе текста важно выявление внутренних связей между отдельными элементами текста и понятиями. Традиционно выделяют два вида связей в тексте — эксплицитные (или явные связи), которые выражаются во внешнем дроблении текста, и имплицитные (скрытые связи). Эксплицитные связи делят текст на параграфы с помощью перечисления компонентов, вводных слов (или коннекторов) типа «во-первых..., во-вторых..., однако и т. д.». Имплицитные, или внутренние, связи между отдельными «смысловыми вехами» вызывают основное затруднение при понимании.

Итак, семантическая структура текста образуется в сознании познающего субъекта с помощью знаний о языке, знаний о мире, а также общих (фоновых) знаний в той предметной области, которой посвящен текст. «Тексту»! пишут для посвященных». Другими словами, если текст не является научно-популярным, то для его адекватного прочтения требуется некоторая подготовка.

Таким образом, путь к знаниям удлиняется еще на одно звено. Если мы раньше говорили, что сами текстологические методы редко употребляются как самостоятельный метод извлечения, а обычно используются как некоторая подготовка к коммуникативному взаимодействию, то теперь утверждаем, что и для прочтения текстов нужна подготовка. Какая же?

Подготовкой к прочтению специальных текстов является выбор совместно с экспертами некоторого «базового» списка литературы, который постепенно введет аналитика в предметную область. В этом списке могут быть учебники для начинающих, главы и фрагменты из монографий, популярные издания. Только после ознакомления с «базовым» списком целесообразно приступать к чтению специальных текстов[15].

Таким образом, на процесс понимания (или интерпретации) I и модель М₂ влияют следующие компоненты (рис. 6):

· экстракт компонентов (α, β, γ, θ))', почерпнутый из текста Т;

· предварительные знания аналитика о предметной области ω;

· общенаучная эрудиция аналитика ε;

· его личный опыт φ.

М₂= [(α, β, γ, θ)', ω, ε, φ].

Процесс I — это сложный, не поддающийся формализации процесс, на который существенным образом влияют такие чисто индивидуальные компоненты, как когнитивный стиль познания, интеллектуальные характеристики и др.

Рис. 6. Компбненты формирования смысла текста

Но процедура разбивки текста на части («смысловые группы»), а затем сгущение, сжатие содержимого каждого смыслового куска в «смысловую веху» является, видимо, основой для любого индивидуального процесса понимания. Такая компрессия (сжатие) текста в виде набора ключевых слов, передающих основное содержание текста, может служить удобной методологической основой для проведения текстологических процедур извлечения знаний.

В качестве ключевого слова может служить любая часть речи (существительное, прилагательное, глагол и т. д.) или их сочетание. Набор ключевых слов (НКС) — это набор опорных точек, по которым развертывается текст при кодировании» в память и осознается при декодировании, это семантическое ядро цельности.

В качестве примера приведем результаты эксперимента по формированию НКС. Знания извлекались из следующего текста.

«Теория фреймов относится к психологическим понятиям, касающимся понимания того, что мы видим и слышим. Эти способы восприятия трактуются с последовательной точки зрения, на их основании осуществляется концептуальное моделирование, целесообразность полученных моделей исследуется вместе с различными проблемами, возникающими в этих двух областях.

Для осознания того факта, что заданная информация в этих областях имеет единственный смысл, человеческая память прежде всего должна быть способна увязывать эту информацию со специальными концептуальными объектами. В противном случае не удается систематизировать информацию, которая выглядит разрозненной. В основе теории фреймов лежит восприятие фактов посредством сопоставления полученной извне информации с конкретными элементами и значениями, а также с рамками, определенными для каждого концептуального объекта в нашей памяти. Структура, представляющая эти рамки, называется фреймом. Поскольку между различными концептуальными объектами имеются некоторые аналогии, то образуется иерархическая структура с классификационными и обобщающими свойствами. Собственно, она представляет собой иерархическую структуру отношений типа «абстрактное-конкретное». Сложные объекты представлены комбинацией нескольких фреймов, другими словами, они соответствуют фреймовой сети.. Кроме того, каждый фрейм дополняется связанными с ним фактами и процедурой, обеспечивающей выполнение запросов к другим фреймам[16].

Причиной, по которой представление знаний фреймами выглядит достаточно точным, является возможность более полного описания процесса мышления человека посредством определения крупной и структурированной основной единицы представления знаний и более тесной связи знаний, основанных на фактах, и процедурных знаний. Тем не менее, как было отмечено ее автором, теорию фреймов следует скорее отнести к теории постановки задач, чем к результативной теории. Можно считать, что она существенно повышает уровень и детализирует механизм памяти человека, выводов, понимания и обучения.»

.В группе из 34 испытуемых не было получено ни одного совпадающего НКС и, соответственно, все структуры существенно отличались. Для примера приведем две работы (рис. 7, а, б).

Интересно, что одна из гипотез лингвостатистики о том, что наиболее употребляемые слова являются наиболее важными с точки зрения содержания текста, то есть отражают его тематическую структуру, частично подтвердилась.

Следует сказать несколько слов о том, почему мы выделяем три вида текстологических методов:

• анализ специальной литературы;

• анализ учебников;

• анализ методик.

Перечисленные три метода существенно отличаются, во-вторых, по степени концентрированности специальных знаний, и, во-вторых, по соотношению специальных и фоновых знаний. Наиболее простым методом является анализ учебников, в которых логика изложения обычно соответствует логике предмета и поэтому макроструктура такого текста будет, наверное, более значима, чем структура текста какой-нибудь специальной статьи. Анализ методик затруднен как раз сжатостью изложения и практическим отсутствием комментариев, то есть фоновых знаний, облегчающих понимание для неспециалистов. Поэтому можно рекомендовать для практической работы комбинацию перечисленных методов.

В заключение предложим одну из возможных практических методик анализа текстов с целью извлечения и структурирования знаний.

Рис. 7. Примеры смысловых структур, извлеченных из текста

Алгоритм извлечения знаний из текста

1. Составление «базового» списка литературы для ознакомления с предметной областью и чтение по списку.

2. Выбор текста для извлечения знаний.

3. Первое знакомство с текстом (беглое прочтение). Для определения значения незнакомых слов — консультации со специалистами или привлечение справочной литературы.

4. Формирование первой гипотезы о макроструктуре текста.

5. Внимательное прочтение текста с выписыванием ключевых слов и выражений, то есть выделение «смысловых вех» (компрессия текста).

6. Определение связей между ключевыми словами, разработка макроструктуры текста в форме графа или «сжатого» текста (реферата).

7. Формирование поля знаний на основании макроструктуры текста.

Заключение

Текстологические методы предназначены для получения инженером по знаниям знаний из материализованных источников, в качестве которых выступают монографии, учебники, статьи. методики, инструкции и другие носители профессиональных знаний. Текстологические методы, несмотря на их простоту и тривиальность, являются наименее разработанными. Эти методы основываются не только на выявлении и понимании смысла текста, но и на выделении базовых понятий и отношений, т. е. формировании семантической (понятийной) структуры ПО.

Процесс понимания является сложным и неформализуемым, на него существенно влияют когнитивный стиль инженера по знаниям и его интеллектуальные характеристики. В инженерии знаний разработана методика анализа текстов в целях извлечения и структурирования знаний. Методика предусматривает овладение инженером по знаниям микроструктурой текста, вычленение им ключевых слов (компрессия или сжатие текста) и последующее формирование поля знаний.

Сжатие текста служит методологической основой для использования текстологических процедур извлечения знаний. Текстологические методы самые трудоемкие, они применяются, как правило, на начальном этапе создания информационной системы.

Список литературы

Гаврилова Т.А. Хорошевский В.Ф. Базы знаний интеллектуальных систем. - С.-Пб.: Питер, -2000, -С.125 ,133.

Гумбольдт В. фон. Избранные труды по языкознанию. - М., -1984.

Дорофеев В.Д. Инновационный менеджмент: Учеб. пособие – Пенза: Изд-во Пенз. гос. ун-та, -2003. -С.25, 27.

Моргоев В.К. Метод структурирования и извлечения экспертных знаний: имитация консультаций. М.: ВНИИСИ., -1988. –С. 44.

Обзоров И.И. Психологическая культура взаимных отношений. М.; Знамя, -1986.

Поспелов Д.А. Три шага на пути к официальному признанию // Новости искусственного интеллекта, -1997. -№1. –С.99.

Бабак В.Ф., Рыженко И.Н. Совершенствование методологии проектирования информационных систем // ГОУ ВПО "Ярославский гос. пед. ун-т им. К.Д. Ушинского", -2002. - http://citforum.yspu.yar.ru/cfin/articles/mpis.shtml.

Гаврилова Т. Извлечение знаний: "пассивные" методы // Бизнес Инжиниринг Групп (БИГ-СПб), - 20-24 апреля 2009г. - http://big.spb.ru/publications/bigspb/km/izvl_knowlg_passiv_metod.shtml

Гаврилова Т. Работа со знаниями: активные групповые методы // Бизнес Инжиниринг Групп (БИГ-СПб), - 20-24 апреля 2009г. - http://big.spb.ru/publications/bigspb/km/work_with_knowlg_active_grup_metod.shtml

[1] Гаврилова Т. Извлечение знаний: "пассивные" методы // Бизнес Инжиниринг Групп (БИГ-СПб), - 20-24 апреля 2009г. - http://big.spb.ru/publications/bigspb/km/izvl_knowlg_passiv_metod.shtml

[2] Поспелов Д.А. Три шага на пути к официальному признанию // Новости искусственного интеллекта, -1997. -№1. –С.99

[3] Гаврилова Т. Извлечение знаний: "пассивные" методы // Бизнес Инжиниринг Групп (БИГ-СПб), - 20-24 апреля 2009г. - http://big.spb.ru/publications/bigspb/km/izvl_knowlg_passiv_metod.shtml

[4] Бабак В.Ф., Рыженко И.Н. Совершенствование методологии проектирования информационных систем // ГОУ ВПО "Ярославский гос. пед. ун-т им. К.Д. Ушинского", -2002. - http://citforum.yspu.yar.ru/cfin/articles/mpis.shtml

[5] Гумбольдт В. фон. Избранные труды по языкознанию. - М., -1984

[6] Дорофеев В.Д. Инновационный менеджмент: Учеб. пособие – Пенза: Изд-во Пенз. гос. ун-та, -2003. -С.25, 27

[7] Моргоев В.К. Метод структурирования и извлечения экспертных знаний: имитация консультаций. М.: ВНИИСИ., -1988. –С. 44

[8] Гаврилова Т.А. Хорошевский В.Ф. Базы знаний интеллектуальных систем. - С.-Пб.: Питер, -2000, -С.125 ,133

[9] Гаврилова Т.А. Хорошевский В.Ф. Базы знаний интеллектуальных систем. - С.-Пб.: Питер, -2000, -С.125 ,133

[10] Обзоров И.И. Психологическая культура взаимных отношений. М.; Знамя, -1986

[11] Моргоев В.К. Метод структурирования и извлечения экспертных знаний: имитация консультаций. М.: ВНИИСИ., -1988. –С. 44

[12] Гаврилова Т. Работа со знаниями: активные групповые методы // Бизнес Инжиниринг Групп (БИГ-СПб), - 20-24 апреля 2009г. - http://big.spb.ru/publications/bigspb/km/work_with_knowlg_active_grup_metod.shtml

[13] Гаврилова Т.А. Хорошевский В.Ф. Базы знаний интеллектуальных систем. - С.-Пб.: Питер, -2000, -С.125 ,133

[14] Гумбольдт В. фон. Избранные труды по языкознанию. - М., -1984

[15] Моргоев В.К. Метод структурирования и извлечения экспертных знаний: имитация консультаций. М.: ВНИИСИ., -1988. –С. 44

[16] Гумбольдт В. фон. Избранные труды по языкознанию. - М., -1984

Дата добавления: 2018-05-02; просмотров: 842; Мы поможем в написании вашей работы!

Поделиться с друзьями:

Мы поможем в написании ваших работ!