Отбор лексики для входного и подходящие эквиваленты для выходного словаря



Создание машинной словарной статьи для каждой лексической единицы машинной словарной статьи лексическая единица вместе с набором ее всевозможных признаков

В словарной статье выделяют четыре зоны:

Зона морфологических сведений

Зона семантических сведений

А) принадлежность к определенному семантическому подклассу

Б) переводные эквиваленты

Зона синтаксических сведений (управление глагола или предлога)

Зона лексических сведений

А) стилистическое использование лексической единицы (общеупотребительное или принадлежит к какому-то языку)

Б) использование лексической единицы как части фразеологизма

Понимание и порождение письменной и устной речи с помощью ПК

Задачи автоматического понимания и порождения текста и речи очень сложны. Для их реализации в компьютерные системы нужно вложить огромный объем знаний об окружающем мире, естественных языках, а также очень сложные правила текста и речеобразования, лежащие в основе речемыслительной деятельности человека. В полном объеме это будет решено в будущем, а пока компы, обладающие возможностью обрабатывать письменные тексты и устную речь имеют в своей памяти ограниченные конкретной предметной областью базы знаний.

Базы знаний – это совокупность структурированных лингвистических и нелингвистических данных, а также правила их обработки.

Компьютерные системы понимания текста

Существуют разные точки зрения на проблему компьютерного понимания, выделяют различные уровни понимания текста, построены разные системы, способные понимать текст. Наиболее сложным для понимания являются тексты, описывающие взаимопонимание и поступки действующих лиц. Более простыми являются тексты, содержащие описание фрагментов статического мира, т.е. научные книги, статьи. Понимание в таких системах трактуется как извлечение из текста наиболее существенной с точки зрения ПК инфы. Полученная в результате понимания инфа может пополнять базу знаний компьютерной системы или может быть передана пользователю.

Под передачей понятого пользователю имеют в виду способность компа отвечать на вопросы пользователя относительно событий, фактов, описанных в исходном тексте в виде связного текста, а не в виде отдельных слов или предложений.

Согласно современным теориям автоматического понимания текста комп понял текст, если он может:

1. кратко изложить его содержание (аннотация, реферат)

Ответить на вопросы к этому тексту

На основе текста нарисовать картинку или схему

4. приведенные в тексте сведения представить в другой форме (таблица, график)

На основе анализа текста, написанного на одном языке, выдать адекватную информацию на другом

Сравнить содержание двух разных текстов и выдать инфу, что в них общего и в чем различия

Путем анализа одного или нескольких разных текстов извлечь такие знания, которые можно поместить в некоторую базу знаний

Соотнося уровни понимания текста компом с основными уровнями языка, можно выделить следующие уровни автоматического понимания:

Морфологический

Синтаксический

Семантический

Гиперсинтаксический или прагматический

Морфологическое понимание сводится к автоматическому приписыванию каждому слову текста его морфологических признаков. Суть синтаксического понимания текста заключается в автоматическом выделении в каждом предложении текста главных и второстепенных членов предложения и установления между ними различных типов связи. В процессе семантического понимания текста автоматически устанавливаются значения, выделенные на синтаксическом уровне, составляющих предложение (подлежащее – одушевленное/неодушевленное, сказуемое – глагол движения/чувствования, обстоятельство – места/времени/действия)

Связано с выяснением семантических отношений между предложениями текста и с выявлением соответствующей тексту ситуации реальной действительности.

Типы автоматического понимания

Компьютерная система, понимающая письменный текст, должна иметь в своей базе данных следующую инфу:


Дата добавления: 2022-01-22; просмотров: 81; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!