Этапы контент-анализа и интерпретация результатов



1 этапе - кроме опр-я темы т-та (с пом модуля "автоматич категоризация") следует опр-ть её действ-щих лиц и их отн-е к теме. Возможны след варианты опр-ия действ-щих лиц: по критерию "Центр внимания" с категориями "Я"-"Ты-Вы"-"Он-Она-Оно" и оценочная категория "Свой-Чужой". Т.е. действ-щим лицом т-та м явл-ся "Я" (автора или того, от лица кот ведется текст), "Ты-Вы" (чаще тексты, имеющие целью мотивировать адресата сообщения на к-л д-я или дающие оценку таким д-ям) и "Он-Она-Оно" (чаще описат т-ты о деят-ти третьих лиц по отн-ю к автору и адресату). Т.о., будут выделены действ-щие лица и оценка их деят-ти в рамках темы.

2 этап - определяется выраженность "потребности" в тексте и связь категории с темой текста и действующими лицами. Следует различать "внутр" и "внеш" потребность, т.е. формул-е побуждений как принадлежность непосредственно действующим лицам (собственно "хотеть") или побуждения как результат чужих желаний или обязательств перед другими лицами ("долг", "обязательство").

3 этап – опр-ся стр-ра "валентности" и её связь с темой. При выраженной связи с "положит" валентностью тема текста считается реализуемой (достижимой), при выраженной "отриц" валентности м говорить о фрустрирующем значении темы для действующих лиц.

4 этап – опр-ся стр-ра мотивов и инструмент деят-ти, связанной с темой. В стр-ре мотивов выдел-ся физиологические мотивы, мотивы достижения, власти и аффиляции, а инструментальная деятельность подразделяется на группу 'физических действий', включающая "манипуляцию", "движение" и "перемещение".

Физические действия происходят в определенном образе организованном "пространстве" (манипуляция) и имеют определенное "направление" (движение и перемещение) и временную привязку и протяженность.

Категории времени включают следующие категории: "До", "После", "Определенное время" и "Неопределенное время".

К инструментальной деятельности также относятся категории 'информационных действий', включающих категории "восприятие", "обработка", "трансляция" и "ретрансляцию".

Группа категорий 'информационных действий' тесно связана с категориями репрезентативных систем (каналов восприятия): "чувственный канал", "зрительный канал" и "слуховой канал" и "рациональный канал". Совр яз имеют, как правило, слова, описывающие восприятие, обработку, трансляцию и ретрансляцию в различных репрезентативных системах (каналах восприятия), что дает доп возм-ти для решения практических задач

5 этап – вкл-т поиск и оценку связей темы и действующих лиц с различными категориями ментальных операций, в том числе:

Операции с "Информацией": наличие "констатации" и "уточнения", исп-я слов "конкр"/"неконк" инфы; выраженность "преувеличения", "преуменьшения" или "отрицания".

Логические операции: "и", "или", "нет", "но".

Операции сравнения: "общность", "отличие" , "подобие" .

Организация событий: "причина", "следствие" и "нарушение".

Исп-е тех/иных ментальных операций явл-ся операциями мышления и/или риторическими приемами.

6 этап – опр-ся эмоциональные оценки темы и действующих лиц.

Оканчивается процедура КА опр-ем выраженности всех категорий во всем тексте. Интерпретация результатов контент-анализа выполняет следующую основную задачу:

Описание "ментальной карты" текста в целом, "карт" тем и действующих лиц, т.е. выявление наиб значимых "семантических примитивов" (категорий), кот б исп-ны для описания.

Обработка, презентация и интерпретация результатов.Кодирование данных при КА обычно осущ-ся с пом достаточно простых анкет или комп программ, в кот фиксир-ся каждое появл-е в анализируемом тексте искомой ед-цы. Эта элемент схема м б усложнена многими разн сп-бами. Прежде всего, наборы ед-ц с сопоставленными им количеств оценками, как правило, сопоставляются с другими количеств оценками тех же ед-ц. Это м б, напр, рез-ты подсчета частотности упоминания одних и тех же тем для разл выпусков одного и того же печатного издания или одной и той же регулярно выходящей в эфир новостной программы (временные ряды); рез-ты аналогичного подсчета для разл изданий/программ или, скажем, обобщенных категорий изданий. Очевидно, что такие данные могут быть предст-ны с пом разнообразных графич ср-тв – диаграмм, графиков и т.д., обеспечивающих наглядность.

Классификации зачастую бывают многомерными, и для представления это также могут использоваться различные форм средства. На практике рез-ты КА чаще всего предст-ся рядами диаграмм, столбчатых или круговых, хотя понятно, что в распоряжении КА имеется все разнообразие средств предст-я колич данных. А также и качеств-х: для отображения отн-ий м/у ед-цами КА и рез-тов их категоризации исп-ся такие стандартные ср-ва отображения стр-р, как различные графы.

Квантификация данных, естественно, создает необх предпосылки для применения к ним ср-в математич анализа. Помимо анализа частотного распределения, к ним относится анализ различного рода корреляций между переменными, ассоциаций, анализ сопряженности, кластерный анализ. Разумеется, весь этот инструментарий должен применяться корректно. Если при опр-и ед-ц КА и идентификации их в т-те добиться полной объективности возм-но лишь в нек случаях, то при экспликации и обработке данных обеспечить следование строгим стандартам вполне возможно.

Содержат-я интерпретация рез-тов зависит от целей анализа; она явл-ся прежде всего творческим актом, рез-ты кот во многом предопределены политологической квалификацией и интуицией аналитиков.

В ходе КА-тич-го исслед-я как для анализа т-та, так и для последующей обработки его рез-тов м исп-ся вычислит техника. После квантификации, т.е. перевода данных в числовую форму, их математич и, в частности, статистич обработка м осущ-ся разн программными средствами, в том числе стандартными статистич пакетами типа SPSS. При анализе т-та и последующем сохр рез-тов этого анализа в БД м исп-ся спец программы, предназначенные для целей лингвистич исслед-й. В частности, анализ метафорики в рус политич т-тах велся с пом разработанной в Институте рус яз РАН программы Dialex, способной осущ-ть состав-ие частотных словарей и конкордансов, а также поиск лексич ед-ц с их контекстами и сохр-ть его рез-ты в БД; в наст время завершается работа над более совершенной сис-мой, предназначенной для решения тех же задач. Имеется ряд заруб КА-тич-х комп сис-м, а также сис-м, потенциально применимых для целей КА – такова, в частности, система KEDS, разработанная Ф.Шродтом в Канзасском университете и исп-мая для анализа потока политич событий, отображаемых на ленте информационного агентства «Рейтер».

9Технология гипертекста и ее использ-е в информационных системах

Термин «гипертекст» б. введен Тедом Нельсоном в 1965г. для опис-я док-тов, кот. выраж-ют нелинейную стр-ру идей. Однако сама идея г-та связ-ся с Ванневаром Бушем (1945), кот. теоритически обосновал проект технич. сис-мы “Memex”, кот. позволяла связывать т-ты и их фрагменты по ассоциативным отн-ям. Но из-за отсут-я компов проект оказался оч. сложным для технич. воплощения. Проект воплотился в сис-ме «Ксанаду» Т. Нельсона, кот. уже предполагала исп-е компов.

С 1ой стор., г-т –это особая форма предст-я текстового мат-ла, его нелинейная организ-я. С др. стор., г-т – это нов. СП-б, инструмент, инф. технология, кот. делает возможным предст-е и освоение big объемов текст. мат-ла в нелинейной форме.

Технологические св-ва г-та:

· разнородность (гипермедия, т.е не т-ко т-т, но и звук и графика и видео)

· нелинейность (нет стандартной посл-ти чтения)

Компоненты г-та:

Структурно г-т предст. соб. граф, в узлах кот. нах-ся традиционные т-ты/их фрагменты, изображения, таблицы, видеоролики. Узлы связ. разнообр. отн-ми, кот. м.б. одно/-двунаправленными. Цепочка узлов, ч/з кот. проходит читатель при просмотре компонентов т-та, обр-ет путь (маршрут). Совок-ть смеж. узлов обр-ет окрестность дан узла. Окр-ть узла обр-ют те узлы, в кот. содержится инф-я, близкая по семантике к содерж-ю дан узла. Узлы сети, в кот. входит и выходит много стрелок-отношений, обр-ют центр. часть г-та, а те, кот. почти изолированы от др. узлов – его периферию.

Виды г-та:

I. структурно г-т м.б.:

· иерархическим – древовидным – существенно ограничивает возм-ти перехода м/у его компонентами. Отн-я напоминают стр-ру тезауруса, основанного на родо-видовых cвязях (Gohper).

· сетевым – позволяет исп-ть разл. типы отн-ий м/у компонентами, ен ограничиваясь отн-ми «род-вид».

II. по возмож-ти прогр. обеспечения

· простой (напр., электронное оглавление док-та, кот. позволяет перейти к-л части док-та, минуя просмотр всего док-та)

· сложный – богатая сис-ма переходов м/у компон-ми г-та, в них нет предст-я о базовом т-те, с кот. связаны второстепенные по знач-ти т-ты.

III. по способу существования:

· статистический (не меняется в процессе эксплуатации)

· динамический (изменение явл. нормал. формой существования). Обычно функц-ют там, где необх-мо постоянно анализир-ть поток инф-ии, т.е. в инф. службах разного рода

IV. по отношениям м/у элементами

· г-т жесткой стр-ры - отн-я м/у эл-ми изначально фиксируются создателями

· г-т мягкой стр-ры – отнош-я порождаются каждый раз, когда происх. обращение польз-ля к г-ту. Технология основывается на семантич. ан-зе близости док-тов/др. источ-ков инф-ии др. к др. В наст. вр. распр-но исп-е технологий мяг. стр-ры на ключевых словах. Переход от 1го узла к др. осущ-ся в рез-те поиска ключ. слов. Т.к. набор ключ. слов каждый раз м. различаться, то кажд. раз меняется и стр-ра г-та.

Чем больше узлов, тем предпочтительнее мягк. стр-ра, т.к. кодировка жестких связей отнимает слишком много вр. Стр-ра Интернет часто функц-ет как г-т мягкой стр-ры.

В архитектуре гиперт-вой сис-мы различается БДи система управления.Сис-ма управл-я г-том вкл-ет 2 инструментальных комплекса. Один исп-ся в кач-ве инструм-та интерактивного управл-я процессами браузинга (просмотр шаг за шагом по направлению к искомой инф-ии), а второй в процессах создания и ведения г-та. Первым броузером, получившим широкую известность стала программа Mosaic, разработтаня Марком Андриссеном в 1993г. В 1994г. на основе это программы б. создан 1 из самых популярных броузеров – Netscape Navigator. Позже – Internet Explorer.

Наиболее популярн. прогр. пакет для создания и ведения г-та сейчас - прогр. пакеты HyperCard компании Apple. Г-т в оболочке HyperCard представляется в виде каталожных карточек. польз-ль с помощью довольно простого интерфейса организует стр-ру карточки - связи м/у ними. Карточки м. содержать разл. виды инф-ии.

 

Сферы использования г-та

Бизнес и профессиональные коммуникации:

- Интерактивные гипермедиа презентации для маркетинга и сбыта
- Бизнес - отчеты
- Разработка планов и предложений
- Руководства по корпоративной политике и процедурам
- Руководства по эксплуатации
- Юридическая документация
- Медицинская информация

Обучение и научно-исследовательская деятельность(!)

- Учебные пособия
- Учебные задания
- Справочники, энциклопедии, словари, библиотеки, учебники и т.п.

- Составление рефератов, отчетов

 

Другие

- Имитация и моделирование
- Всемирная паутина (World Wide Web)
- Проектирование интерфейсов
- Организационное управление

- Искусство и культура

16ИПС: типы, организация поиска, примеры соврем. поиск. сис-м

Автоматизированная ИПС – это функционирующая на основе ЭВМ и др. техн. ср-в комплекс, обеспечивающий сбор, хранение, обновление и обработку иноф-ии в целях поддержки к-л вида деят-ти. Осн. достоинство ИПС закл. в обеспечении хранения больших объемов данных и быстрого поиска нужной инф-ии среди имеющихся данных.

Абонент обращается к ИПС с информационным запросом – т-том, отражающим информационную потребность дан. абонента, напр., его желание найти список аптек, в которых можно купить нужное лекарство. Поиск инф-ии ведется в поисковом массиве, кот. формируется (и по мере необходимости обновляется) разработчиками/ администраторами сис-мы. Эл-ты поискового массива вводятся в ИПС на ЕЯ (или близком к нему), а затем обычно подвергаются индексированию, т.е. переводу на формальный информационно-поисковый язык (ИПЯ).

Индексирование - выражение центральной темы или предмета к.-л. т-та или описание к-л. о-та на ИПЯ.

По характеру поискового массива и выдаваемой инф-ии ИПС подразделяют на документальные и фактографические.

Документальная ИПС предназначена для отыскания док-тов (статей, книг, отчетов, описаний к авторским свидетельствам и патентам), содержащих необходимую инф-ю. Поисковый массив такой ИПС сост. из поисковых образов документов (т.е. т-тов на ИПЯ, поставленных в однозначное соответствие док-ту и отражающих его признаки, необходимые для поиска его по запросу.) или из самих док-тов. В ответ на предъявляемый инф. запрос ИПС выдает некот. мн-во док-тов (или адреса их хранения), содержащих искомую инф-ю.

Фактографическая ИПС обеспечивает выдачу непосредственно фактических сведений, затребованных потребителем в инф. запросе. Поисковый массив сост. из фактографических записей, т.е. из описаний фактов, извлеченных из документов и представленных на некот. формальном яз.

Сущ-ют и смешанные ИПС, содерж., как док-ты, так и факты.

В наст. вр. фактографические ИПС (как специальный класс поисковых систем) практически не разрабатываются, выполняемые ими действия реализуются с помощью штатных СУБД. 

Наиболее популяр. моделью организации поискового образа док-та явл. «векторная модель» -каждому док-ту приписывается список терминов, наиболее адекватно, отражающих его смысл т.е док-ту приписывается «вектор» = числу терминов. При булевой векторной модели эл-т вектора =1 или 0 в зав-ти от наличия/отсутствия термина в док-те.

В более сложных моделях термины «взвешиваются», т.е. «вес термина» - соотв-е дан. термина док-ту

Присвоение док-ту набора ключ. слов или кодов, определяющих его содержание. наз индексированием.Длля пополнения списка ключ. слов служит робот-индексировщик, кот. просматривает сеть, находит нов. инф. рес-сы, приписывает им термины и помещает в БД индекса. Индексв б-ве сис-м – сис-ма связ. /у со. файлов, кот. нацелена на быстрый поиск данных по запросу. Возможны 2 способа индексир-я: свободное, когда непоср-но из т-та док-та извлекаются ключ. слова без учета всех их словоформ и отношений м/у ними; и контролируемое, когда в поисковый образ док-та вкл-ся только те слова, кот. зафиксированы в информационно-поисковом тезаурусе, где указаны их синонимические, морфологические и ассоциативные отношения.

Тезаурус -специально организованный нормативный словарь лекс. ед-ц ИПЯ и ЕЯ. Лекс. ед.ми ИПЯ явл. дескрипторы. Дескриптор ставится в однозначное соответствие группе ключ. слов ЕЯ, отобранных из т-та опр. предмет. обл-ти. Напр., в кач-ве дескриптора м. б. выбрано любое (предпочтительно наиболее часто используемое или короткое) ключ. слово/ словосоч-е / же цифровой код. Многозначному слову ЕЯ соответствует несколько дескрипторов, а нескольким синонимичным словам и выражениям - 1 дескриптор. Тезаурус учитывает семантич. связи м/у словами: антонимы, синонимы, гипонимы, гиперонимы, ассоциации. Тезаурус и грамматика составляют ИПЯ. Грамматика содержит правила образования производных ед-ц яз. (семантических кодов, синтагм, предложений) и регламентирует использование ср-в обозначения синтаксических отношений (напр., указателей связи).

В рассмотренной выше сказочной информационной службе знакомств тезаурус должен описывать всевозможные кач-ва и хар-ки, встречающиеся в письмах клиентов, правила их классификации. Грамматика и тезаурус д. б. составлены т.о., чтобы сис-ма м. понимать, что задает, скажем, число, указанное в запросе: рост, возраст или количество зубов (это м. опр-ся по ключ. слову - единице измерения), уметь отличить сведения, сообщаемые клиентом о себе, от его требований к партнеру (здесь помогут словосочетания хотел бы познакомиться, должен соответствовать).

На основании тезауруса и правил грамматики формируются поисковые образы док-та и запроса (поисковое предписание). Поисковое предписание – т-т на ИПЯ, содержащий признаки док-тов, затребованных польз-лем в запросе. Релевантность

Целью ИПС является выдача док-тов, релевантных (семантически соответствующих) запросу. Различают рел-ть содержательную и формальную. Рел-ть содержательная трактуется как соответствие док-та информ. запросу, определяемое неформальным путем (Василиса Премудрая сама прочитает письма всех добрых молодцев и выберет кандидатов в женихи, отвечающих ее требованиям), а рел-ть формальная - как соответствие, определяемое алгоритмически путем сравнения поискового предписания и поискового образа документа на основании применяемого в ИПС критерия выдачи.

Критерий выдачи - формальное правило, совокупность признаков, по кот. определяется степень формальной рел-ти поискового образа док-та и поискового предписания и принимается решение о выдаче/невыдаче некот. док-та в ответ на инф. запрос.

Недостатки:

 При поиске сущ. 2 проблемы: нерелевантность поиска (информац. шум) и неполнота поиска. Причиной инф. шума м.б. неправильное ключ. слово, многозначность слова, нечеткое формулирование комм. цели поиска. Неполнота поиска: сис-ма не м. найти нужную инф-ю, хотя она и имеется в БД. Одна из причин этого недостатка – синонимия.

 Компоненты ИПСclient – программа просмотра конкр. информ. рес-са (напр.,Netscape Navigator) обеспеч.просмотр док-тов WWW, Gopher user interface – интерфейс польз-ля, сп-б общения польз-ля с поиск. аппаратом сис-мы, т.е. с сис-мой формулировки запросов – просмотра рез-тов search engine – поисковая машина транслирует запрос польз-ля в формальн. запрос сис-мы, ищет ссылки на инф. рес-сы сети и выдает рез-ты польз-лю index database – индекс – осн. массив данных ИПС. Ищет адреса инф. рес-сов. Устроен чтобы поиск происходил max быстро и при этом м. б. бы оценить ценность рес-са. queries – запроса польз-ля, кот. сохр. в его личной БД index robot – робот-индексировщик служит для сканиров-я Интернет и поддержики индекса в актуальном сост-ии. Это осн. источ-к инф-ии о состоянии инф. рес-сов. WWW sites – инф. рес-сы сети.Примеры ИПСAltaVista: наиболее продвинутый яз. запроса. Кроме AND, OR, NOT есть NEAR – контекстный поиск. В запросе м. указать в какой части док-та польз-ль хочет видеть ключ. слово (в ссылке, заголовке…). Разрешает поис по ключ. фразам, имеет больш. сл-рь этих фраз. Это сис-ма с расширенным булевым поиском. Yahoo – ИПЯ прост – слова вводят ч/з пробел и они соед-ся AND, OR. Не выдается степень соотв-я док-та запросу, а т-ко подчеркиваются слова из запроса, кот. встретились в док-те. Не производит нормализации т-та. Она относ-ся к классу наиболее прстых традиц. сис-м с огранич. воз-ми поиска. Lycos – в простом запросе ввод. прдл-е на ЕЯ, сис-ма нормализует запрос. Почти сразу выдается инф-я о чиле док-тов, а потом - ссылки. указ. мера близости к запросу, число слов из запроса, кот. попали в док-т. В расшир поиске – булевый поиск. Wais – строит булевые запросы, считает формальн. релевант-ть по разл. мерам близости, взвешивает термины, корректирует запросы по релев-ти, усекает термины, разбивает док-ты на поля.

Компьютерная лексикография

В рамках КЛ разраб-ся комп технологии сост-я и эксплуатации сл-рей. Спец программы – БД, комп картотеки, ПО обраб-ки т-та – позволяют в автомат режиме форм-ть словар статьи, хранить словар инфу и обраб-ть ее.

Комп лгф программы:

1. программы поддержки лгф работ

Соврем комп технологии позволяют упростить процесс сбора и хранения лгф инфы, исп-я вместо обычн карточки (слово, пример уп-я, источник примера, автор + разл доп инфа) БД, записи кот. – аналог традиц картотеки. Записи БД дают возм-ть автом-ки сортировать массив по выбранным параметрам, отбирать нужные примера, объединять их в группы. (ej D-Base, ACCESS, Fox-Base, PARADOX – соврем БД)

Этапы создания:

1) фиксация первичного лгф мат-ла

2) построение конкорданса – поиск примеров и формирование картотеки примеров

3) составление словарной статьи в БД (+ редактирование)

4) формирование т-та сл-ря, создание оригинал-макета книги

Для сл-рей писателей м.б. предумотрен этап формирования корпуса т-тов пис-лей-современников, необх для выявления различий м/у особ-ми стиля и общ хар-ми языка соотв эпохи.

Издат с-мы, исп для создания оригинал-макета: издат пакет ПО Quark-X-Press, Page-Maker, WinWord. Наи> удобны с-мы со встроенными языками, кот. позволяют формировать макросы (операции обраб-ки): процедуры приписыв-я стилей, алфавитизации, созд-я указ-лей.

 

2. автоматические сл-ри разл типов + лгф БД

АС – сл-рь в спец машинном формате, предназн для исп-ия на ЭВМ польз-ля / комп ПО обраб-ки т-та.

а) АС конечного польз-ля – ч-ка по интерфейсу и строению сущ-но отлич-ся от АС, вкл-х в с-мы МП, авт реферирования, инф поиска… Чаще это комп версии хорошо изв-х обычн сл-рей (ej Webster, Collins, Ожегов) Они повторяют стр-ру словар статьи обычн сл-рей, но! обладают f-ми, недоступными св прототипам (ej, сортировка данных по полям словар статьи – отбор всех прилаг-х; автом поиск всех вокабул с опр сем комп-том)

б) АС для программ обраб-ки т-та – АС в точн смысле (не предназн для обычн польз-ля). Особ-ти их стр-ры, сфера охвата словар мат-ла задаются ПО, кот. с ними возд-ют (ej синт сл-рь, сем сл-рь, сл-рь морфем, псевдооснов, сл-рь устойчивых с/с-й)

- АС, исп-мые в с-мах инф поиска (имеют вид тезаурусов)

АС с-м МП (вкл-ют подроб инфу о морф, синт и сем особ-тях f-ния слова)

- с-мы проверки орфографии, распознавания письм т-та (осн-ны на обычн сл-рях, предусм морф анализ / синтез словоформ РЯ) ej Зализняк

- комплексные сл-ри с разл лекс и грам инфой

- АС конкордансов, кот содержат примеры на уп-е всех слов, представл в конкр произведении / творч наследии пис-ля.

3. WordNet – собств-но комп сл-рь

1) файлы с лгф инфой, кот. разраб-ны лгф-ми (содерж слф-мы брит и амер написания и их зн-я, кот. представлены синонимич группой SynSet – список слвф-м, взаимозаменяемых в неск синт констр-ях – чистые синонимы)

Учит-ся 2 типа отн-й: а. лекс (м/у относит прил и сущ, прил и нареч от него, антоним, синоним группы, SynSets); б. сем (гиперон, гипон, отн-я следования / вовлечения, мероним, голоним)

2) программы конвертации лгф инфы в БД – спец утилита, кот. преобр-ет инфу из 1 блока, проверяет синтаксис файла и преобр-ет маркеры отн-й и орг-и инфы во внутр яз БД

3) с-ма БД – структурированная инфа на машин яз (не предназн для чтения ч-ка) – осущ-ет хранение данных на внутр яз БД

4) программа манипуляции с инфой (обраб-ки инфы) – позволяет проводить исследования и выводить толкования и связи (лекс+сем) в удобочитаемой форме для польз-ля

 

Очередность появления зн-й зависит от частоты встречаемости зн-я.

4 POS: N -> Adj -> Adv -> V (легк -> сложн)

N – тематически иерарх стр-ры

V оторбраж отн-я наследования

Adj+Adv – абстр гиперполя

 

4. The linguist’s Shoebox

1) позволяет сост-ть АС (толкования + перевода)

2) интерлианизация т-та – вводится т-т на Я1, запускается интерлианиз-я и польз-ль подключает нужн сл-рь, ПО автом-ки расчленяет т-т на морфемы и присваивает каждому слову зн-е из сл-ря

3) позволяет хранить лингвострановедческую инфу, вводить конкр примеры словоуп-я в конт-те.

6Системы обработки ЕЯ: кл-ция, области прим-я.

Междисциплин прикладное направ-е "обработка ЕЯ" (пер англо термина Natural Language Processing) возникло в к.60-х гг. и разв-сь в рамках научно-технолог-й дисциплины "искус. интеллект".

Пр-ма автомат обработки (АО) ЕЯ привлекает ученых самых разл спец-тей: матем-в, спец-тов по искус интеллекту, линг-тов. Необх усл-е построения таких с-м -- наличие прост и надежн процедур перехода от предст-ия инфои в виде предл-ий на входе ЭВМ к предст-ию ее на внут я-ке с-мы.

Для с-м, обесп-их доступ к инфо в огр-ой области знаний, предложен шир спектр м-дов анализа: от предст-я запросов в виде наборов ключев слов до получ-я графов синт-х и семант-х стрр входных т-тов.

СОЕЯ , 4 группы: форматные, с текстовой основой, с огранич логикой и с общим выводом.

1) Форматные с-мы (ФС)-- наиб прост диалоговые с-мы, обычно исп-ют 2 жестких формата: 1 – д/предст-ия знаний, хранимых в с-ме, 2 – д/предст-ия входных и выходных сооб-й. Пример: модель общения, исп-щая табличн я. Вх сооб-е = таблица, заполняемая челом. Вых сооб-е = табличная формау. Таблица реглам-ет формат и порядок слов в предл-ях, что упрощает программы обработки и сп-бы хр-я данных в ЭВМ. ФС исп-ся д/созд-я простых инфо–справочных и учетных с-м. Они имеют узк целевую направ-сть и х-ся инфо-й жесткостью, не позвол-й перестраивать их д/др целей.

2) В с-мах с текстовой основой непоср-но хранится т-т на ЕЯ. Т-т снабжается схемами индексирования, на основе кот строятся запросы, и произв-ся поиск запраш-х предл-й или фрагментов т-та. Наиб распрост-ы с-мы, исп-щие дескрипторные я-ки. Дескрипторы – это лекс 1цы инфо-поискового я-ка, обл-щие смысловой однозн-тью. Они исп-ся д/индексирования текста. Дескрипторы и связи м/у ними устан-ся на основе анализа профес-го я-ка пользователя и формализуются в виде дескрипторного графа. При общении разреш-ся исп-ть слова только из словаря дескрипторов. Стра запроса строится в соотв-ии со стр-ой связей м/у дескрипторами. Недосток этих я-ов – невозм-ть организации процедур выбора более сложных, чем поиск по дескрипторному графу.

3) С-мы с ограниченной логикойисп-ют формальные модели предст-я знаний с упрощ-ми с-ми логического вывода. Наиб известные с-мы эт группы реализованы с исп-ем я-ов PLANNER и LISP.

4) С-мы с общим выводом исп-ют шир класс формальных моделей: семант модели, сети фреймов, нечеткие лингв-ие переменные, предикатные модели и др. В ряде работ с-мы общения реализованы с исп-ем универс процедуры доказ-ва теорем. Форма предст-я инфо в них не зависит от особ-тей самой с-мы общения. Это св-во дает возм-ть исп-ть такие с-мы в любой области, представимой в исчислении предикатов. Интеллектуальная в части яз общения с-ма д понимать т-т ЕЯ или ограниченного ЕЯ.

ЕЯ содержит все ср-ва д/выр-я алгоритмов и данных при их машин обработке, поэт он м служить прекрасным ср-вом комм-ции чел-а и ЭВМ. Любая Автоматизированная Инфо-ая С-ма, поэтому д им в своем составе набор ср-в АО ЕЯ-сообщений. ЕЯ сост из словаря и грамматики – любая с-ма АО ЕЯ-сообщений д им в составе «ср-ва грам обработки» и «ср-ва словарной (семант) обработки». С-мы подобн рода наз интеллектуальным интерфейсом.

Ср-ва грам обработки ЕЯ предст-ют собой формализованный набор правил грам-ки рус я. Но т.к. изм-е слов не всегда вклад-ся в рамки регулярности, то формализованной мб не вся грам-ка. Формализованный набор мб не полным и из–за недостаточной научности грам-ки. Т.о., все неучтенные правила м считать недопустимыми.

При формализации словаря наиб приемлема -- поуровневая обработка лекс 1иц. Д/каж предметной области дб определен словарь исходных (непроизводных) лекс 1иц (нижний уровень), посредством кот и с исп-ем инфо об имеющихся аффиксах м исчислять семантику любого производного слова, при этом средствами с-мы м получать нов производные слова, имея их семант отображение.

Итак, любой вид машин обработки ЕЯ-сообщений вкл-ет обработку отд-х лекс 1иц. Обработка отд-х слов – обработка сост-х слово частей: корня и аффиксальных частей. Стра подс-мы семантобработки ЕЯ-сообщений мб представлена в виде:

1. Модель текста

2. Модель фразы (группы слов)

3. Модель с/с-я (пары слов)

4. Модель слова

o модели аффиксов

o модель корня

Стра с-мы АО ЕЯ продиктована стр-рой смысла т-та, ибо любой т-т расчленяет на части именно смысл. Само слово нерасчленимо на части и именно смысл элем-х морфов позв-ет выд-ть в нем min-ые значимые 1цы. ЕЯ представлен, с т.з. морфологии, одноморфными и многоморфными словами. С т.з. слвобрзвния одноморфные слова это – непроизводные лекс 1цы, многоморфные – производные. Смысл произв слова исх из семантики морфов, вх-щих в состав произв слова, поэт естест часть модели я -- модель его слвобр-го уровня. Первонач-но исчис-ся смысл корня + работа подс-м моделей аффиксов = исчис-ся смысл производного слова. Такая орг-ция с-м семант анализа позволяет ускорить АО т-тов.

Области применения.

Матем модели семантики произв слов мб использованы в любых с- мах АО ЕЯ. Каж конкр вар-т с-мы необяз-но д содержать в себе ср-ва, спос-ые актуал-ть все возм-е семант реализации слова. В каж конкр случае с-ма м предст-ть собой некую редуцированную модель, ориент-ую на конкр предметную область. Неоднозначность я-ка (омонимия), устран-ся за счет соотв-х технологических мер: сочетание дан слова с др так, чт с/с-е в целом б однозначным.

Прим-е моделей возм-но в разл с-мах обработки т-тов рус я.:

- диалоговые с-мы;

- в с-мах авто редактирования,

- в с-мах авто корректирования д/обнаруж-я ошибок во входных текстах,

- в с-мах инфо поиска,

- в автоматиз обучающих с-мах.

- в с-мах машинного перевода.

- в с-мах анализа звучащей речи (коррекция ошибок, семант анализ вх-х сооб-й.

17Анализ и распознавание звучащей речи

Методы анализа реч сигнала

1. формантный анализ. Задача – опр-е частот формант в процессе их изм-я во времени, опис-е формант стр-ры речи. При произв-ве глух согл голосовые связки почти не принимают участия, шумовой источник нах-ся внутри реч тракта. Звонк согл явл-ся рез-том комбинации для ист-ка монотонных периодич колебаний и акуст шума (самый сложн для опис-я). В программе график – спектрограмма, кот. отраж след св-ва реч сигнала:

- изм-е спектрал стр-ры в координатах частота – время;

- изм-е энергетич насыщенности резонансных частот во времени;

- последоват-ть звуков с гармонической, шумовой и сложной стр-рой тон-шум

- наличие квазистационарных и переходных участков.

По источнику разл-ют 2 осн признака зв-в речи – вокалические В и консонантические К.

В. – особ стр-ра – ряд лежащих друг над другом темных полос, местополож-е кот-х обусловлено артикуляторн хар-кой данного гласного. Кажд полоса соот-вет разл формантн областям гласного снизу F1, F2, F3 диаграммы.

К. – незаметно следов F1, обл-ть спектрал хар-к выше гласных и форманты F3 и > появляются лишь в сегменте аспирации. Изм-е артикул-и при переходах к гласному отраж-ся в изгибах формант.

Реч сигнал – комбинация непрерывн (поперерыв формантн картина) и дискретн (включение / выключ-е голосовых связок, полн/частичн закрытие рта, смыкание мягкого неба) процессов.

Обычно число акуст сегментов превышает число фонет символов транскрипции. 1 взрывной смычный звук (п б м т) м. передаваться след сегментами: переход от предш звука, фаза смычки, фаза эксплодии, фрикация, аспирации, переход к послед звуку.

На спектрограмме реч поток м.б. также разделен на последов-ть сегментов, отраж признаки наличия – отс-я тона, сп-ба и места обр-я звука.

2. просодический анализ / ан-з вторичных акуст сигналов. Анализ-ся ЧОТ, длит-ть и интенсив-ть. Почти все виды интонац инфы м. передать с пом модификации ЧОТ – F0. попериодные изм-я ЧОТ наз-ся тонкой стр-рой осн тона. Она необх-ма при распознав-и индивид особ-тей голоса говорящего, при патологии речи и выр-и эмоций. А при изуч-и инт явл-й эта инфа сглаживается.

Анализ зв сигнала не включает понимание, это делает распознавание, кот. сост-т из след блоков: фонолог, морф, лекс, синт, сем (границы слов)

СРР (с-мы распознавания речи):

  1. изолированных слов
  2. для диктовки с исп-ем ограниченного сл-ря
  3. дикторонезависимые (слит речь) / с настройкой на речь опр диктора

Гл цель – распознавание слит речи. Пр-ма – акуст образы произносимых слов проявляют большую зависиомсть от конт-та (образ – параметры, кот. считываются при анализе), нет пауз, трудно опр-ть границы слов; схожесть слов. Реш-е – ограничить сл-рь используемых слов.

Ч-к для РР исп-ет мн-во факторов, но не сущ-ет такой СРР, кот. учитывала бы все эти параметры:

- хар-ки звуков речи

- произносит вариативность

- ударение

- интонац контур речи

- звук образы слов

- грам стр-ра яз

- зн-я слов и пр-й

- конт-т общения

Основа СРР – акустико-фонетический процессор. Его цель – дать дискретное описание реч волны + привести в соотв-е реч выск-ние с его акуст-фон признаками (ЧОТ, интенсивность, длительность) без идентификации слов и их границ.=> грам анализатор (п/е получения дискретн отображ-я). Его задачи – 1) построение, проверка и распр-е составляющих конструкций в процессе постеп интерпретации входн выск-ния; 2) предсказание / подтверждение мн-ва созм слов для кажд опр участка фон формы (поступление дальнейш инфы)Эти процессы координируются в процессе уяснения синт и сем комп-ми. Обмен инфой продолж-ся до полн понимания.При анализе реч волны (АРВ) происх обнаружение начала и конца фраз / пр-й (это м. опр-ся ч/з смену «сигнал-шум» больш-во децибел – оконч-е фразы), АРВ с опорой на слог (вычленение слогов, м.б. выделены псевдослоги – ЧОТ, интенсивность, длит-ть). Рез-т служит для работы алгоритма восстановления, кот. позволяет уточнить / адекватно идентифицировать те стр-ры, в отн-и кот-х не б. сделан окончат вывод при акуст анализе.Методы распознавания акуст сигнала

1. основан на акустико-фон инфе сегментного ур-ня (с пом интонографа и спектрографа)

I этап – анализ явл-й коартикуляции (с взаимн влиянием конт-та) на базе лингв закономерностей встречаемостей сочетаемости зв-в и взаимовлияний зв-в (аллофония)

II этап – анализ дифонов (от сер 1-го зв до сер 2-го) конт-но инвариантен и экономичен, осн-н на сопоставл-и со сл-рем эталонов дифонов, но исп-ся для РР, зависимой от диктора. В сл-ре содерж-ся стационарн эл-ты, коротк эл-ты (переходы м/у сосед фонемами СГ-ГС-СС-ГГ), длительн переходы эл-в м/у 3 фонемами (трифонами).2. с основой на визуал инфу (осущ-ся с помощью параметрографа)

Анализ-ся след зн-я:

- частотная составдяющая в 13 частотных диапазонах

- амплитуда тона (Г)

- амплитуда шума (С)

- наличие ударного звука

- наличие вибрирующего звука (+/-)

3. Маркоффские цепи

Комп-ты:

- выделение и анализ разл признаков, кот. обр-ют опр состояния, кажд из кот-х соотв-ет реализации конкр фонемы

- акуст-фон декодирование, где осущ-ся фонет транскрипция отрезка речи

- лекс анализ – сличение слова со сл-рем, не противоречащ полученной фон инфе

- синт анализ – отбир-ся тот вар-т, кот. наилучш образом соотв-ет рез-там грам анализа

18Синтез речи.

Преобразование текста в речь.

2 типа синтезаторов: с огр. и неогр. словарем. В устройствах с огр. словарем речь хранится в виде слов и предл., крые выводятся в опред. посл-ти при синтезе реч. сообщения. Реч. ед., исп-мые в синтезаторах подобного типа, произносятся диктором заранее, а затем преобразуются в цифровую форму, что достигается с помощью различных методов кодирования, позволяющих компрессировать реч. информацию и хранить ее в памяти синтезирующего устр-ва.

СР — построение автом. речевого ответа, порождение звуков машиной, связывание звуков с пом. спец. программ в требуемое высказывание.

Разные подходы к СР.1) модель «чкой головы» с артикул. аппаратом.

2) моделирование акуст. сигнала: а) форм. синтез по правилам, б) компилят. синтез (синх. наложение и добавление осн. тона либо синтез на основе линейного предсказания LP).

Форм. синтез по правилам. Исп-ет возбуждающий фильтр, крый проходит ч/з цифровой фильтр, построенный на неск. резонансах.

Компил. синтез. ОЭ-тся путем склейки нужных ед. компиляции из имеющегося инвентаря. Применяется алгоритм обработки сигнала для сглаживания разрывов в форм. стр-ре на границе сегментов.

Неск. методов записи и компоновки речи.

1. Волновой метод кодирования.

Самый легкий путь - просто записать материал на пленку и по необходимости проигрывать. Однако этот путь синтеза не позволяет реализовать построение новой фразы.

2. Параметрическое представление.

С целью уменьшения требуемой памяти для хран. и обесп. необходимой гибкости было ра-тано неск. сп-бов, крые абстрагируются от реч. волны как таковой, а представляют ее в виде набора параметров. Эти параметры отражают наиболее хар-ную инфо либо во временной, либо в частотной области. Например, реч. волна м. б. сформирована сложением отдельных гармоник заданной высоты и заданными спектр. выступами на данной частоте.

3. Синтез по правилам.

В синтезаторах с неогр. словарем эл-тами речи явл-ся фонемы или слоги, поэтому в них применяется метод синтеза по правилам, а не простая компоновка. Данный метод весьма перспективен, т.к. обеспечивает работу с любым необх. словарем, однако качество речи значительно ниже, чем при исп-нии метода компоновки.

При синтезе речи по правилам также используются волновой и параметр. методы кодирования, но уже на уровне слогов.

Метод параметрического представления требует компромисса между кач-вом речи и возм-тью изменять параметры. Исследователи обнаружили, что для синтеза речи выс. кач-ва необходимо иметь несколько разл. произношений ед. синтеза (например, слога), что ведет к увеличению словаря исх. ед. без каких бы то ни было сведений о контекстной ситуации, оправдывающей          тот или иной выбор. По этой причине процесс синтеза получает еще более абстр. хар-р и переходит от параметр. представления к ра-тке набора правил, по которым вычисляются необх. параметры на основе вводного фон. описания.Это вводное представление содержит само по себе мало инфо: имена фон. сегментов ( напр, гл. и согл.) со знаками ударения, обозначениями тона и временных хар-к. Таким образом, метод синтеза по правилам использует малоинформ. описание на входе ( менее 100 бит/сек). Этот метод дает полную свободу моделирования параметров, но необходимо подчеркнуть, что правила моделирования несовеншенны. Синтезированная речь хуже натуральной, тем не менее, она удовлетворяет тестам по разборчивости и понятности. На уровне предл. и параграфа правила предоставляют необходимую степень свободы для создания плавного речевого потока.

Стр-ра ССР. 1) определение яз. текста. 2) нормализация текста (удаление нечитаемых символов). 3) 5 ур. лингв. анализа. 4) формирование просодич. хар-к, на основе лингв. анализа (границы синтагм, ритм, акценты, ЧОТ…). 5) фонемный транскриптор. 6) формирование текста (компиляция). 7) выдача звук. сигнала.6Системы обработки ЕЯ: клас-ция, применение

Обработка ЕЯ – с англ. термина. Направл. в рамках науч-техн. дисциплины ИИ.

Там, где комп. исп-ся дл обработки ЕЯ. Узкий смысл – ра-тка методов и систем, крые позволят чку рбщаться с ЭВМ на ЕЯ.

С 70-х гг.

1) путь: адаптация яз. программирования к юзеру. Вместо Ассемблера – Виж. бейсик.

2) путь: Ра-тка систем, крые позволяют говорить с компом на ЕЯ или его огранич. вар-те.

В центре иссл-ния – опыт изучения диалога. Необх-ть учитывать все аспекты и ур. реального общения.

Дсп – нет общепринятой т. диалога на ЕЯ.Стр-ра взмдйствия чка и машины.: диалог, инициатор крого или чк, или комп, или оба.

Жесткая стр-ра – перехват инициативы только для уточнения запроса. Мягкая – допуск-ся смена ролей.

Компоненты системы:

1) блок анализа реч. сообщения (морф. анализ словоформ, синт. и сем. анализ предл. от поверх-ноо ур. к глуб. ур. концепт. стр-р)

2) блок интерпретации реч. сообщения

3) блок порождения смысла ответа.

4) блок синтеза пов-ной стр-ры выск-ния. ( из синтеза содержания в виде концепт. представления на метаяз. и оформления содержания в выск-ние)

5) диал. компонент – фиксация стратегий ведения диалога, условие их применений.

Типология СОЕЯ

1. вопросно-ответная. Как реакция на плохое кач-во запросов в ИПС. Ограничения – юзер м. выразиться только одним реч. актом. Проблема: сп-об орг-ции данных: «списочные» яз. (готовая стр-ра для хранения данных) Прим: «бейсбол» - инфо только об играх.

2. диалоговые системы. Задача – получить решение проблемы на основе имеющихся знаний + инфо от юзера. Содержит стр-ры знаний в виде сценариев. Если нек. компоненты сценария отсутствуют, система инициирует комм-цию.

3. системы обработки связных текстов. Шир. исп-ние технологий представления знаний ф-ния системы – в понимании текста и ответах на ? о его содержании. Понимание – не универс. кат, а процесс извлечения инфо из текста, определяемый комп. интенцией. Только то, что в данный момент нужно юзеру.

Области применения.Матем модели семантики произв слов мб использованы в любых с- мах АО ЕЯ. Каж конкр вар-т с-мы необяз-но д содержать в себе ср-ва, спос-ые актуал-ть все возм-е семант реализации слова. В каж конкр случае с-ма м предст-ть собой некую редуцированную модель, ориент-ую на конкр предметную область. Неоднозначность я-ка (омонимия), устран-ся за счет соотв-х технологических мер: сочетание дан слова с др так, чт с/с-е в целом б однозначным.

Прим-е моделей возм-но в разл с-мах обработки т-тов рус я.: диалоговые с-мы; в с-мах авто редактирования, в с-мах авто корректирования д/обнаруж-я ошибок во входных текстах, в ИПС, в АОС, в с-мах маш. перевода, в с-мах анализа звучащей речи (коррекция ошибок, семант анализ вх-х сооб-й.

Машинная морфология: модели и методы.В данном разделе мы рассм ?? автоматич морфологич анализа ЕЯ т-та.

Сразу же следует сделать одно существенное замечание. Если в традиционном яз-зн «для чел-а» под морфологией сло­ва справедливо понимается то, что относится к его форме - окончания, суффиксы, аффиксы, флексии и пр., деление на корень и другие части словоформы - то в автоматич обработке т-та на ЕЯ морфологич анализ означает про­цедуру, в рез-те кот из формы, внеш оформления слова в т-те м получить сведения о самых разл уровнях яз стр-ры. Понятие «морфологич анализ» в таком смысле роди­лось в машинном переводе. В кач-ве приме­ра рассм-м раннюю работу Р.Пальма о морфологич анализе рус текста при МП на эстонский (Пальм 1962).Морфологический анализ

Морфологический анализ русской фразы, как первый этап МП с рус на эстон яз, состоит из 4 частей:

1) лексич обработка фразы - сюда входит исп-е сло­варя основ путем выделения исходных слов, распр-ие их на статьи (лексемы) по морфологич и семантич прин­ципам (например, сущ на -ние входят в одну ста­тью с формами соотв глагола), выделение основ лексем, мн-во кот и образ-т словарь;

2) идентификация окончания. Морфологич инфа к основе вкл-т тип основы (частицы, сущ, прилаг, глаг), номер табл окончаний, морфологич «сеть» - пе­речисление форм, имеющихся у дан основы, морфологич признаки - дается перечень признаков у разн типов основ. Вво­дится понятие «шкалы слова» - перечня возм-х грам интерпретаций для каждой переводимой словоформы. В рез-те предварит анализа стр-ры фразы пос­ледняя делится на части. Дается классификация предл-й на 6 типов в завис-ти от их места во фразе и встречаемости в них опр типов слов. Особым этапом производится обработка эквивалентных форм, а именно преобразование неоднозначных шкал слов в однозначные = разрешение дизъюнкций инфы, т.е. снятие грам омонимии.Из этого видно, что на самом деле в этап морфологич анализа входит большое количество операций, с пом кот получается инфа, не всегда относящаяся к собственно морфологич-й. Вследствие этого целесообразно утверждать, что в комп лингвистике понятие морфологич анализа явл-ся понятием операционным. В вычис­лит (прикладной) лингвистике важно не «что», а «как» полу­чается та или иная инфа, т.е. из формы слова в тексте.В первые годы работ по МП было предложе­но большое кол-во разнообразного рода алгоритмов автома­тич морфологич анализа для яз самого разнообразного строения, отлич-ся друг от друга «морфоло­гией». На сегодняшний день задача морфологич анализа - наиб сложная процедура на уровне слов - может считаться прак­тически решенной, поскольку есть достаточное кол-во удовлет­ворительно работающих алгоритмов. Авторы монографии «Лингвистич ?? алгоритмической обработки сообще­ний» (Лингвистические вопросы 1983) считают, что за два десятилетия создано по крайней мере несколько десятков алгоритмов мор­фологич анализа для разн яз, в том числе 10-12 для рус.В разработке морфологич анализа выделилось неск нап­р-й. Одно из них моделир-т классич схему анализа путем разделения словоформы на основу и предположит-е окончание с послед проверкой на совместимость окончания с остающейся основой. Другое направление исп-т инфу, содержащуюся в конечных буквосочетаниях. Эта инфа получ-ся в рез-те предварит статистич обработки словаря. Третье напр-ние развив-ся в последние годы. На этом напр-нии создаются уни­версальные математич модели морфологии в форме открытых сис-м уравнений, позв-щих путем вычисления осущ-ть нор­мализацию словоформ, получение грам инфы и син­тез словоформ.В основу построения алгоритмов морфологич анализа поло­жено разбиение всех слов на классы, опр-щие хар-р изм-я буквенного состава форм слова. Эти классы м б назв-ы морфологическими. Изм-я форм слов м носить различн хар-р. Они м б связаны как с изм-ем основы слова, так и с изм-ями его окончания. Изм-ие букв состава основ имеет место, напр, в след парах: сижу - сидишь, шел — шли, тренировка - тренировок, нес - несли, кто — кого, судно - суда, человек-люди. Изм-е окончаний явл-ся ос­н способом образ-я различн форм слов. В рус яз, напр, оно исп-ся как самостоятельно, так и в сочетании с изм-ем основ слов.Морфологич классы слов делятся на два вида:1) основоизменительные классы, характеризующие систему измене­ния основ, 2) флективные классы слов. Они выделялись для рус яз в сис-ме МП АМПАР, напр, на основе анализа их синтаксич f-ций и сис-м падежных, личных и родовых окончаний. Классы неизменяемых слов выделялись только по синтаксич принципу. По своей синтаксич f-ции из­меняемые слова объединены в следующие группы: 1) сущ, 2) прилаг, 3) глаг в личн форме, 4) глаг пр вр, кр прилаг и прич, 5) количе­ственные числит. Флективный класс м б охаракт-н либо нек сис-мой признаков, либо словом-представителем, кот явл-ся носителем этих признаков. Признаками, по кот изменяемое слово м б отнесено к опр классу, явл-ся: 1) принадлежность к одной из синтакси­ч групп (или подгрупп), 2) сис-ма окончаний (тип словоизменения).Виды морфологического анализа

• морф анализ со словарем основ;

• морф анализ со словарем словоформ;

• морф анализ м-дом логич умножения;

• морф анализ без словаря, с пом табл.

Наиб распр видом автоматич морф анализа явл-ся анализ со словарем основ, исп-мый для большинства европ языков. В этом виде анализа исп-ся словарь основ слов и ряд вспомогательных табл. В словарь вкл-ны основы прост и сложн слов без внутр флексии. Если слово имеет неск форм основ, то в словарь, как правило, вкл-ны все формы основ слов. Каждой основе словаря ставится в соотв-ие со­четание кода основоизменит класса и кода флективного класса, а омонимичной основе - серия сочетаний таких кодов. Так устроен сло­варь в системе, описываемой Г.Г. Белоноговым.

Морф анализ слова нач-ся с его флективного анализа. Последний производится с целью правильного выделения еro основы, замены букв состава основы ее порядковым номером по словарю и опр-я грам инф-ции слова.

Алгоритм морфологич анализа состоит из 32 блоков и учитывает все шаги морфологич анализа с пом словаря основ, возможные варианты анализа при отклонении процесса от однозначных правил, переход к следующим ступеням анализа.Морфологический анализ со словарем словоформ также довольно распространен. Из общих соображений он применяется тогда, когда морфология дан яз достаточно бедна. Кроме того, на пер­вый взгляд предст-ся, что алгоритм анализа со словарем слово­форм проще, чем алгоритм работы со словарем основ: не надо осущ-ть членение входной словоформы на морфемы с после­довательным поиском по словарю и пр. Но на самом деле при анализе со словарем словоформ остаются след проблемы: анализ не найденных в словаре слов. Опр-е нек ин­фы для слова, не обнаруженного в словаре, явл-ся необх-м для послед анализа: напр, если мы не нашли дан слова, то по крайней мере д опр-ть его ч. р., чтобы не искл-ть возм-ти дальнейшего грам (синтаксич) анализа; отождествление разн словоформ одного и того же слова. Если каждая словоформа будет выступать как самост лексич ед-ца, то это существенно зат­руднит весь послед анализ и синтез. Словоформы одного сло­ва д б обозначены как таковые. Это означает, что сис-ма морф анализа со словарем словоформ д иметь список аффиксов, корней (основ) слов и др необх-е атри­буты для идентификации разн словоформ одной и той же лекси­ч единицы.Эти требования фактич-и сводят на нет преимущества анализа со словарем словоформ и поэтому анализ со словарем основ применяется значительно чаще.

Особое положение занимает сп-б автоматич морф анализа м-дом логич умножения. С.Я. Фитиаловым положены начала формал морфологии (Фитиалов 1961). F-ция, определенная на словоформах и сопоставляющая каждой словоформе нек инфу, наз-ся словар­ной f-цией. Всегда имеется возм-ть задать значения сло­варной f-ции в виде табл - словаря словоформ. Однако сущ-т более экономичные сп-бы задания этой f-ции. Так, ее можно представить в виде след последоват-ти 4 операций:

1) словоформа как цепочка букв членится на морфемные сегменты;

2) словоформа как цепочка морфемных сегментов заменяется не­упорядоченным мн-вом нов эл-тов - морфем;

3) словоформе как мн-ву морфем приписывается нек инфа;

4) эта инфа преобраз-ся в требуемую окончательную ин­фу о словоформе.

Каждой морфеме м сопоставить инфу, получаемую в рез-те объединения инфы о словоформах, в кот вхо­дит дан морфема. Такого рода объединение инфы соотв-т дизъюнкции в логич интерпретации. Инфа о словоформе получается как пересечение, или логич конъюнкция, инфа о морфемах, входящих в дан словоформу. Тем самым f-ция, опр-ная на морфемах-множествах, заменяется f-ци­ей, определенной на морфемах-элементах.

Морф анализ м-дом логич умножения при­меняется к флективным языкам и предусм-т наличие словаря основ. Сущность м-да и применение его к конкр яз м видеть на примере алгоритма анализа рус словоформ, предложенного венгерским специалистом Д. Варгой (Варга 1964). Сначала производится поиск слова в словаре основ. Если слова, имеющие окончания, не находятся в словаре, тогда от каждого та­кого слова отбрасывается по одной букве справа и поиск повторя­ется. При отриц ответе отбрасывается след буква и т.д. Отброшенные буквы образ-т окончание и фиксир-ся. Каж­дая отброшенная буква считается элементарной ед-цей морф анализа. Ей приписывается булевый вектор – совокуп-ть нулей и единиц, компонентов этого вектора. Число компонентов этого вектора равно числу грам категорий, кот м б выражены окончанием, частью кот явл-ся дан буква. Поскольку предварительно был произведен по­иск по словарю основ и установлена часть речи анализируемого слова, имеется возм-сть одинаковым буквам, входящим в окон­чания разных ч. р. (напр, буква -м в окончании суще­ствительного и прилагательного) приписывать разн векторы.

Пусть, напр, треб-ся опр-ть, в каком числе и падеже стоит сущ «столом». После поиска в словаре устанав­-ся, что основа стол - сущ, буквы, входящие в состав окончания, о и м. Буква м встречается среди букв окончаний сущ в Тв. п. ед. ч. м. и ср. р., а также в Д. п. и Тв. п. мн. ч. всех 3 родов. Приписываем букве м такой булевый вектор, в кот на месте компонентов, соотв-щих падежам, в кот-х она встречается, стоят ед-цы, а на месте др компонентов -нули. Таким же образом поступаем и с др буквой окончания. Произведя логич умножение векторов букв о и м, получим в результирующем векторе ед-цу на месте разряда той грам категории, в окончании кот встречается одновременно и буква о, и буква м, а именно в разряде, соответствующем Тв. п. ед. ч.Морф анализ без словаря, или так называемый «не­зависимый» анализ, производится без обращения к словарю, толь­ко за счет исп-я таблиц аффиксов и особого списка не имеющих грам значения слов. Такой сп-б исп-ся достаточно редко.Современное состояние морфологического анализахарактеризуется тем, что сильно уве­личились требования к качеств показателям сис-м автома­тич переработки т-та. Теперь задача создания быстродействующего алгоритма морф анализа ставит­ся след образом:

• основу сис-мы д сост-ть мощный политематич сло­варь, обеспечивающий покрытие т-тов по любой тематике не менее чем на 98-99%;

• алгоритм анализа д б словоизменительным, что позволит при одном и том же объеме распознавать примерно в 8 раз больше словоформ (для рус яз), чем кол-во лексич еди­ниц в словаре;

• «новые» слова д обрабат-ся наряду со словами, содержа­щимися в словаре. При этом объем инфы для новых слов д б таким же, как и для словарных единиц, а вероятность их правильного определения не менее 90-95 %;

• скорость обработки т-тов д б, при прочих равных усл-ях, по крайней мере на порядок выше, чем у существующих про­цедур;

• на объем исходного т-та не должно накладываться никаких огра­ничений;

• сис-ма д сохр-ть свою работоспособность в усл-х де­фицита ресурсов ЭВМ;

• сис-ма д б обучаемой, т.е. д иметь ср-ва для пополнения имеющихся словарей и настройки их на различн предметные обл-ти;

• процедурная часть сис-мы д достаточно легко приспосабливаться к меняющимся ресурсам ЭВМ с целью их наиб оптимального исп-я, а также иметь возм-ть работы с различными входными и выходными формата­ми;

• следует иметь синтаксич ср-ва контроля и корректиров­ки грам инфы к «новым словам» с учетом микроконтекста;

• д б разработаны спец инфо стр-­ры для представления данных и м-ды доступа к ним более эф­фективные, чем стр-ры и м-ды, входящие в состав операционных сис-м ЭВМ.

Массивы т.о. подобранных данных имеют по состо­янию на сегодняшний день след измерения: политематич словарь словоизменительных основ слов содержит более 100 000 лексич ед-ц и обеспечивает оч высокое покрытие науч­но-технич лексики практич-ки любой тематики. Этот словарь был создан в рез-те обработки т-тов обьемом свыше 30 млн слов. Словарь словоформ, составленный по т-там, вкл-т 46 тыс. лексич ед-ц, он составлен по т-там объемом более 3 млн слов. Два этих словаря имеют тщательно выверенные наборы грам инфы, дающие детальное предст-е о морфологич стр-ре слов и их синтаксич св-вах (Зеленков 1988).

Эл-ты морф анализа довольно сильно выражены даже в яз с грам строем, существенно отличающимися от строя европ яз-в. МП с китайского яз, напр, предусм-т процедуру анализа односложных и двуслож­ных кит. слов на ур-не, близком к ур-ню морфем (Зелко 1991).Автоматич морф анализ вызвал к жизни спец тип словарей. Лексич ед-цы яз упорядочиваются в соотв-вии с формой и правилами порождения и образ-я слово­форм, по словоизменительным и словообразовательным классам. Од­ним из видов словарей такого типа, т.е. специально учитывающих требования морф анализа, явл-ся обратные словари, применение кот началось от спец требований лингвисти­ч дешифровки и кот в наст время широко прим-ся в МП для опр-я грам хар-к не найденных в словаре слов, при анализе словоформ флективных язы­ков. (Штиндлова 1966, Белоногов 1971, Козьмина 1988 и пр.)Особенностью обратных словарей явл-ся предст-ие слов словника: сначала идут слова, оканчивающиеся на первую букву алфавита, затем на вторую и т.д. При совпадении послед букв учит-ся предпослед буквы, далее - третьи от конца и т.д. Т.о. слова расположены в алфавитном порядке, начиная от конца слова. При этом, естественно, объединяются слова, относя­щиеся к единому словобразовательному или словоизменительному типу, сложн слова с одинаковой последней составляющей.

Обратные словари м решать достаточно широкий круг задач. Они наглядно предст-т морфологич характ-ки дан яз. Если грам описания часто содержат утверждения о том, что слова с такими-то окончаниями обладают опр св-вом, то обратный словарь, в кот содержатся списки оди­наково оканчивающихся слов, позв-т установить все слова, ко­т обладают тем или иным св-вом, а также те, кот этим св-вом не обладают. На основе обратного словаря м б получены списки слов, относящиеся к одному словоизменительно­му типу. М также выявить все слова, имеющие одинак стро­ение концов, но разн грам характ-ки, и получить данные о соотношении между окончанием слова и его принадлеж­ностью к опр словоизменительному типу. Возникает воз­м-ть опр-ть синонимию и омонимию формантов, их сочетаемость, количеств хар-тики отд форман­тов и их сис-мы.Морф анализ в своем удельном весе в сис-ме автоматич обработки т-тов существенно зависит от типа анализируемого яз. Ясно, что флективные яз несут больше инфы в морфологич формантах, чем яз аналити­ч типа, выр-щие синтаксич отн-я главным образом с пом порядка слов.

Попытки классифицировать яз по их отн-ю к нек единому общему алгоритму морфологич анализа оказались не плодотворными, поскольку такой алгоритм обладал бы нулевой универсальностью. Сис-ма морфологич призна­ков (декларативные знания) тесно связана с сис-мой знаний процедур­ных - самим алгоритмом.

19Перевод как прикладная лингвистическая дисциплина.

Виды пер-да (синхрон-й, послед-ный, 1осторон-й, 2сторон-й, буквальный, филол-й, реферативный, с-мы прямого пер-да, ч/з яз-посредник), типология и области исп-ния с-м машин-го пер-да, действующие с-мы машин-го пер-да.Термин перевод многозначен: с 1й стороны, он обозн-т де­ят-ть, заключ-ся в передаче содерж-я т-та (в шир понимании) на одном яз ср-ми др-го яз, а с другой — сами рез-ты этой деят-ти. Наука о пер-де включ не­ск-ко напр-ний, среди кот-х выд-тся теория пер-да, анализ пер-да, методика обучения пер-ду. Особое место занимает машинный пер-д — научная и одновременно технол-кая дисц-на, связ-я и с наукой о пер-де и с комп-й лингв-кой. Пер-д междисциплинарен, т.к. связан не т-ко с лингв-кой, но и с ли­тературовед-м, когнит-ми науками и культ-й антропологией Междисципл-ть теории пер-да и ее практ-ких при­ложений указ-т на то, что пер-д явл-ся не чисто яз-м, а довольно сложным когнит-м феноменом. Переводя с 1го яз на др, ч-к исп-т как свои яз-е знания и спос-ти, так и самые разн экстралинг-кие знания (о физ-кой природе мира, об общ-ве и его культуре, о ситуациях, в кот-х был порожден переводимый т-т и будет восприн-ся его пер-д и т. д.), причем этапы понимания и синтеза т-та принц-но различ-ся.. Виды перевода.По хар-ру перев-кой деят-ти традиц-но выд-­ся устный и письменныйпер-д. В рамках устного пер-да выдел-ся синхронный и послед-ныйпер-д. При синхр пер-де звуча­щий т-т перев-ся практ-ки одновр-но с его произнесением (maxно допустимое запаздывание-10 сек). При после­д-ном пер-де перев-к прослуш-т довольно значит-й фрагмент т-та - до 15 мин - фиксирует его в той или иной форме и пер-дит на соотв-щий яз.+ пер-д разд-ют на 1сторонний (унилатеральный) и 2сторонний (билатеральный).1сторонний пер-д осущ-ся т-ко с яз-источника (l1) на язык-цель (L2), в отличие от 2стор-го, предпол-го пер-д с L1 на L2 и наоборот. Обычно 2сторонний пер-д явл-ся послед-ным (переговоры).

Все рассм-мые типы пер-да выдел-ся на основе формально-организац-х хар-тиккоммун-и - устная vs. письм-ая ком-ция, быстрота пер-да (синхронность vs. послед-ть), направление пер-да (т-ко с L1 на L2 или + наоборот). Содержат-я сторона пер-да вкл-т мн-во др-х параметров, по кот-м м-т проводится класс-ция. Так, по цели выдел-ся и др типы пер-да: (а) «по­словный» пер-д, в рез-те кот-го создается подстрочник,(б) бук­вальныйпер-д (в англ традиции - grammar transla­tion), (в) филологическийпер-д (документальным), и (г) адаптивный(и как частный случай реферативный)пер-д.

В подстрочникет-т – послед-ть слов, " из кот-х имеет самост-ю ценность. =>Слова в пер-де сохр-ся в той же послед-ти и в тех же формах, что и в ориг-ле. То, что на выходе получ-ся некорректные, часто совер-но непонятные выск-ния, не расм-ся как недостаток. Такой пер-д широко исп-ся как инструмент лингв-го описания и пер-да поэзии. Буквальныйпер-д предл-т рассм-ть т-т не как послед-ть отд-х слов, а как послед-ть предл-й. Обеспечение связности т-та, сохр-ние его воздейс-щего эффекта не входит в задачи буквального пер-да. Этот тип пер-да исп-ся в 1ю оч-дь как инструмент овладения ино­стр-м яз-м (на опред-м этапе изуч-я яз от учащегося треб-ся умение порождать грам-ки корректные и содерж-но адекв-е предл-я - упражнений на буквальный пер-д). Цель филол-когопер-да в том, чтобы maxно «приблизить читателя к автору». Много чуждых реалий, непривыч-х образов и даже с опред-ми нарушени­ями узуальных конвенций яз-цели рассм-ся как достоинство, т.к. утв-ся, что выс­шим критерием кач-ва пер-да явл-ся верность автор-му стилю и сохр-е худож-ных особ-тей ориг-ла (сфера применения филол-го пер-да –иск-но худ. т-ты, в особ-ти ли­т-ные памятники) (ex, передача патронимов). Адаптивныйпер-д предпол-т приспособле­ние текста-рез-та к потреб-стям польз-ля. Чаще всего он связан с сокр-нием т-та ориг-ла, извлечением из него важнейшей инфо, т.е. созд-м реферата (др название этого типа пер-да — реферативный),аннотации на др яз. В последнее t этот тип пер-да получает все >ее распр-­ние, что связано с повыш-м удельного веса де­ловых, научных, техн-х и т.п. пер-дов.

Отдельные типы перевода могут выступать как в чистом виде, так и в комбинации.

20Машинный перевод(МП), или автоматический перевод (АП),— интенсивно развив-ся область науч-х иссл-й, эксперим-ных разработок и уже f-щих с-тем (СМП), в кот-х к процессу пер-да с 1го ест-го яз (ЕЯ) на др-й привлекается ЭВМ.

СМП открывают быстрый и систематич-й доступ к инфо на иностр-м яз, обеспечивают оперативность и единообразие в пер-де больших потоков т-­тов, в основном научно-технических.

Работающие в промышленном масштабе СМП опираются на большие терминол-кие банки данных и, как правило, требуют привлечения ч-ка в кач-ве пред-, интер- или постредактора. Совр-ные СМП, в особ-ти те, кот-е опираются при пер-де на базы знаний в опред-ной предметной области, относят к классу систем искус-го интеллекта (ИИ).

Истор-ки МП является 1й попыткой испол-ния компьютеров для решения невычислит-х задач (знаменитый Джорджтаунский эксперимент в США в 1954 г.; работы по машинному переводу в СССР, начавшиеся в 1954 г.). Развитие электронной техники, рост объема памяти и производительности компьютеров созд-ли иллюзию быстрого решения этой задачи. Практ-я цель была простой: загрузить в память компьютера maxно возможный словарь и с его помощью из иноязычных т-тов получать т-т на родном яз в удобочитаемом виде. Но! 1начальная эйфория сменилась разочар-нием в связи с абсолютной непригодностью получ-х т-тов.  

1947 - дата рождения МП, как научного напр-я. Уоррен Уивер, директор отделения ест-ных наук Рокфел-кого фонда, написал меморандум, в кот-м рассм-л задачу пер-да т-тов с 1х яз на др, как еще 1у область применения техники дешифрования. 1947 - Бут и Бриттен разраб-ли подробный "код" для пословного МП. 1952 - первая конференция по МП в в Массачусетском технологическом институте. 1954 - представлена первая система МП - IBM Mark II - русско-английская, имела словарь в 250 единиц и 6 грамматических правил. Последовавшее за этим десятилетие было временем бурного развития МП. 1967 - специально созданная в США Комиссия Национальной АН, исходя из реальной ситуации с пер-дами в США и показателей стоимости разл-х сп-бов пер-да, пришла к выводу, что машинный перевод нерентабелен. 70-е годы - новый подъем работ в области МП. С развитием вычислительной техники появились новые возможности машинной реализации лигвистических алгоритмов. 80-е годы - время работы персональных компьютеров значительно подешевело, машинный перевод наконец-то стал экономически выгодным. 90-е годы - отмечается очередной рост интереса к машинному переводу, что связано с появлением и бурным развитием Internet.

Сейчас 2 основных направления МП: 1) перевод смысла безотносительно формы (т-т – смысл – т-т); 2) перевод на ур-не переводных яз-х соответствий.

1ые системы МП характеризуются стратегией «прямого перевода»: сущность этого подхода к построению МП заключ-ся в том, что исходный т-т на L1 постепенно ч/з ряд этапов преобразует­ся в т-т на L2 - слово (словосочетание) на входном яз заменяется на его словар­ный эквивалент на выходном яз. Для работы таких с-тем оказ-ся вполне достаточно правил словарных соответствий. В редких случаях проводится анализ контекста для пере­вода неоднословных выражений, опять-таки представленных в словаре системы. Стратегия прямого перевода не дела­ет различий между пониманием (анализом) и синтезом (порождением), поск-ку они факт-ки исключены из преобр-ний по правилам словарных соотв-вий. Прямой пер-д всегда привязан к конкретной паре яз-в. По tным рамкам с-емы 1го поколения в основном созда­вались в период с конца 40-х до середины 60-х гг. Один из типичных примеров с-мы такого типа —программа GAT.

Существенная модификация стратегии «прямого перевода» обнар-ся в с-мах с «трансфером» — этапом межъязыковых операций, не сводимых только к замене лексем L1 на словарные со­ответствия L2. Наличие этапа трансфера предполагает по­строение «промежуточного» или «внутреннего» представления, которое далее «приспосабливается» к стр-ре предл-я L2. В отличие от 1й стратегии, в архитектуре с-тем МП с трансфером анализ и синтез существуют как особые процедуры и обслуживаются различными алгоритмами. В некотором смысле системы с трансфером оказываются промежуточным звеном между стратегией прямого перевода и последующей стратегией языка-посредника.

«стратегия языка-посредника»: главная особ-ть этой стратегии в том, что м/у стр-ми L1 и стр-ми L2 находится 1 или несколько промежуточных яз-в, на кот-е по соотв-щим правилам послед-но «переписываются». Анализ и синтез при использовании языка-посредника принципиально разделяются. Анализ ведется в категориях L1, а синтез - в категориях L2. В кач-ве яз (яз-в)- посредников м-т выступать яз-ки представления синт-кой и сем-ко-синт-кой стр-ры, чисто сем-кие яз-ки, языки глубинной сем-ки, приближ-ся к концептуальному представлению в категориях теории знаний (фреймов, сценариев, планов). Системы МП, основанные на знаниях (knowledge-based systems), возникшие в 80-х гг., рассм-ся как часть с-тем искус-го интеллекта. Достаточно условно эта стратегия соотв-т 2му поколению с-тем МП с тем уточнением, что с-мы 2го поколения исп-ют почти исключ-но синт-кие и сем-ко-синт-кие языки-посредники.- с-ма СЕТА.

Послед-ное проведение идеи языка-посредника привело к возникновению стратегии "универсального семантического языка", независимого от конкр-го L1 и L2. Но! Совр-ное сост-ние сем-кой теории не оставляет надежд на успешную реализацию этой стратегии в ближайшем будущем.

Как компенсация проблем, возникших со стратегией универс-го сем-го языка, развив-ся неск-ко промежуточных стратегий, позв-щих сущ-но улучшить параметры промышленных систем МП. Стратегия "сужения проблемной области" предлагает ориент-ся на узкие тематич-е сферы т-тов. Это позволяет суще-но облегчить словарь системы МП и огран-ся т-ко теми особ-ми устройства яз-й с-мы, кот-е реально представлены в данном подъязыке. Эта стратегия универс-на для многих сфер прикладной лингв-ки - от лексикографии до лингв-го обеспечения ИПС и с-тем AI.

Стратегия "ограниченного машинного перевода" позволяет вкл-ть в технол-ю цепочку автом-го пер-да ч-ка - на этапе пред-, пост-редактирования или в режиме обработки текста (например, для разрешения синонимии и омонимии).

В 1990 г. Ларри Чаилдс, специалист по машинному переводу, предложил следующую классификацию систем машинного перевода: FAMT (Fully-automated machine translation) - полностью автоматизированный машинный перевод; HAMT (Human-assisted machine translation) - машинный перевод при участии человека; MAHT (Machine-assisted human translation) - перевод, осуществляемый человеком с использованием компьютера.

На смену прежнее концепции, связ-ной с эйфорией 1х рез-тов - "качественный МП", пришла новая - "качественный черновой МП".

Классификация систем АП

1. Системы МП: - программы, осущ-щие полностью автоматиз-ный пер-д. Главным критерием программы явл-ся кач-во пер-да. + для польз-ля важными моментами явл-ся удобство интерфейса, лёгкость интеграции программы с другими ср-вами обработки док-тов, выбор тематики, утилита пополнения словаря. С появлением Internet основные поставщики с-тем МП включили в свои продукты Web-интерфейсы, обеспечив при этом их интеграцию с остальным прогр-ным обеспечением и Эл-ной почтой => примененение мех-мы МП для пер-да Web-страниц, Эл-ных писем и онлайновых разговорных сеансов.

2. Системы с функцией Translation Memory (TM): предоставляют средства для так наз-го Machine Assisted Human Translation (MAHT) – пер-да, выполн-го ч-ком с помощью машины. 1начальное предназначение с-тем ТМ - облегчение работы переводчиков при локализации программных продуктов и создании терминол-ких БД, в дальнейшем с-мы стали развиваться как вспомог-ный инструментарий перев-ка.

3. Контролир-мый яз и МП на основе базы знаний: в с-мах на основе контролир-мого яз реализован переход от свободного входного яз к контролир-му входному яз. Контроль входного яз предусм-ет опред-ные ограничения лексики, грам-ки, сем-ки. Контролир-мый входной яз используется для упрощения выражений исходного т-та, чтобы повысить кач-во пер-да. – с-ма KANT.

4. On-line перев-ки: службы онлайнового пер-да выполняют перевод прямо в окне браузера, не требуя установки программы на компьютер польз-ля. Достаточно большое кол-во ссылок на бесплатные сервисы МП с указаниями направлений пер-дов.

5. Словари on-line - LOGOS ONLINE DICTIONARY (англ, фран, нем, исп, итал, чешский), TRADOS MultiTerm…


Дата добавления: 2018-04-04; просмотров: 539; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!