Глава 2. Достоинства и недостатки устройств речевого ввода



Северо-Западный государственный университет им. И.И.Мечникова

Кафедра медицинской информатики и физики

 

Дисциплина: медицинская информатика

 

Доклад

 

Тема: «Достоинства и недостатки, перспективы развития устройств речевого ввода»

 

                                                            

 

                                                          Студентка группы 133 А ЛФ 

                                                          Коскова Анна Сергеевна

                                                          Преподаватель:

                                                          Доц. Дрожжин Ю.Б.

 

 

Санкт-Петербург,

2019

Оглавление

Глава 1. Устройства речевого ввода………………………………………3

Глава 2. Достоинства и недостатки устройств речевого ввода ………... 8

Глава 3.  Перспективы развития устройств речевого ввода..…………...16

Список литературы ………………………………………………………. 19

 

Глава 1. Устройства речевого ввода

Устройства ввода – вывода (УВв) речевой информации относятся к совмещенным периферийным устройствам. Существуют несколько методов анализа речи. Первым был применен метод предварительной визуализации речи. При этом анализируются оптические изображения губ оператора. Этот метод построен на опыте языка общения глухонемых и тяготеет к бионике. Второй метод - метод анализа колебаний голосовых связок, снимаемых с помощью лорингофона. Он, как и первый метод, тяготеет к бионике и пригоден к работе в условиях сильных звуковых помех, например, в кабине летательного аппарата, вблизи прокатного стана. Третий метод анализа - анализ спектральных характеристик речи - энергетических, частотных, временных и амплитудных спектров. Этот метод рассмотрим подробнее в применении к распознаванию отдельных слов, например, команд управления. Структурная схема анализатора речи. Анализаторы подразделяются на два основных класса: анализаторы сигналов и анализаторы сообщений. В анализаторах сигналов достигается сжатие (компрессия) информационного потока сигналов с микрофона (105 бит/c) за счет учета акустических и статистических характеристик речевого сигнала без обращения к его смысловой функции.

  Cистемы речевого общения строятся на базе специализированных речевых процессоров. Анализатор реализуется аппаратно и представляет собой специализированное устройство, включающее в себя электронные схемы, называемые предпроцессором. Предпроцессор - программно-управляемое аналогово-цифровое устройство, которое осуществляет спектральный анализ речевого сигнала с последующим преобразованием данных в цифровую форму. Для получения значений шести спектральных параметров звука (при анализе по методу спектральных характеристик речи) электрический сигнал, полученный с микрофона, пропускается через три полосовых фильтра (рисунок 1.66) с полосами пропускания, равными поддиапазонам речевого спектра. В каждом канале трех поддиапазонов пиковый детектор выделяет максимальное значение амплитуд сигналов за время кванта; аналого-цифровой преобразователь выдает в двоичном коде значение величины выделенной амплитуды. Для обеспечения стабильной работы в схему анализатора введены усилители, охваченные обратной связью, которые осуществляют автоматическую регулировку усиления амплитуды сигнала. На выходе порогового устройства получаются полуволны гармонических составляющих спектра сигнала в данном поддиапазоне. Затем программно производится объединение или разбиение квантов речи в зависимости от того, установившийся сегмент речи или переходной, параметры соседних квантов которого резко меняются.

Для этого необходимо измерять сходство между параметрами двух соседних квантов, а затем и сегментов. При большом сходстве кванты объединяются, если же изменение параметров слишком велико, сегменты разбиваются. Таким образом определяются границы фонем.

Рисунок 1.66 - Структурная схема анализатора речи по методу спектральных характеристик

Структура устройств ввода речи. Процесс ввода речи, как процесс распознавания слуховых образов, состоит из трех этапов: анализа, идентификации и ввода в ЭВМ (рисунок 1.67). Основные трудности представляет индивидуальность голоса и слитность речи, что усложняет анализ и идентификацию единиц речи - звуков, фонем, слов. Рисунок 1.67 - 3 этапа процесса ввода речевого сообщения

 

В основе лежит принцип распознавания образов. Система выделяет из поступающего речевого сигнала набор некоторых признаков, составляющий его описание, затем сравнивает полученное описание с эталонными описаниями, хранящимися в библиотеке.

  Все системы ввода речи делятся по следующим критериям: − способности распознавать слитную речь или отдельно произносимые слова; − объему словаря распознаваемых слов; − ориентированности на одного говорящего или на произвольное число говорящих. Если набор слов ограничен, то распознавать слова и границы между ними довольно просто (рисунок 1.68, а). В этом случае алгоритм распознавания речевых команд основан на принципе перцептрона. Лучшие из современных программ после предварительной настройки на голос пользователя распознают дискретную речь с ошибкой, не превышающей 5%.

 При распознавании слитной речи (рисунок 1.68, б) число ошибок примерно в 5 раз больше. При спонтанном диалоге ошибок распознавания примерно вдвое больше, чем при чтении текста. С увеличением объема словаря разбиение на слова становится сложнее, качество распознавания падает

Задача вывода речевой информации сводится к преобразованию машинных кодов, в колебания звуковых частот, составляющих речевой сигнал. Устройства вывода речевых сообщений при любой реализации аппаратно и программно проще, чем устройства ввода. Синтезаторы речевых сообщений делятся на две группы: синтезаторы ограниченного словаря – компиляторы и универсальные. Рисунок 1.69 - Структурная схема компилятора Системы ввода-вывода речевой информации Способы формирования речевого сигнала делятся на 2 группы: - формирование по образцам (компилятивный синтез); - синтез по правилам. Формирование речевого сообщения по образцам. Представляет собой восстановление аналогового сигнала, где выходные речевые сообщения (аналоговые сигналы) находятся в библиотеках-словарях. При необходимости вывести сообщение – производится поиск нужного сообщения в библиотеке и выводится через канал воспроизведения. Системы формирования речевых сигналов по образцам различаются возможностями библиотек, качеством звучания восстановленной речи и сложностью аппаратной реализации. Недостаток – медленный поиск нужного сообщения. Достоинство – обеспечивает сравнительно хорошее качество речи. Синтез речевых сообщения по правилам Основано на расчленении речевого сигнала на отдельные фонетические составляющие. Что бы вывести речевые сообщения, необходимо иметь фонетическое описание произносимого слова, Фонетическое описание представляет собой последовательность элементов фонетического алфавита, включая паузы.


Глава 2. Достоинства и недостатки устройств речевого ввода

Достоинства

· Проектирование

Пользователи ожидают, что можно естественным образом выражать свои желания, а система будет их понимать. Система должна подстраиваться под человека, а не наоборот.

· Доверие

Одна девушка трижды участвовала в тестировании. Во второй раз, когда система уже работала достаточно хорошо, её реакция была «О боже мой, эта штука живёт в моём телефоне, теперь моя жизнь изменится». На третьем тестировании спустя месяц она сказала, что ни разу не использовала систему и не собирается.

Хоть система и работала в большинстве случаев, девушка ей просто не доверяла. Доверие — не технический вопрос, но если его не решить, вся остальная работа будет проделана зря.

· Невидимый интерфейс

Уникальность голосового интерфейса в том, что он невидимый. В графическом интерфейсе мы видим элементы управления: есть ли они, как выглядят, современный ли дизайн, есть ли кнопки «Назад» и «Вперёд», на каком шаге мы сейчас находимся — промежуточном или конечном.

Умственная модель отвечает на вопрос о возможностях системы. Причём эта модель всегда неправильная. Если мы только что общались с голосовым меню «Нажмите один, чтобы что-то», ожидания будут занижены. Если мы недавно смотрели фильм «Она», ожидания будут завышены.

· Корректировка умственной модели

Из формата вопроса пользователь может сделать вывод, что в первом случае система довольно глупая. Он скажет «Нет, не сохранять» и последующие команды будет давать с такой же гранулярностью: «Новое событие. Когда хотите сделать? В 12:30. Что хотите сделать? Встретить родителей. Где? В аэропорту».

Во втором случае он может решить, что система «умная» и понимает развёрнутые ответы. Для корректировки введённой информации он скажет: «Вместо этого я хочу сделать новое событие на завтра, на 12:30, чтобы встретить родителей в аэропорту».

· Человечность

Чтобы сделать ГИ, который естественен для человека, нужно понять, почему наш разговор с другим человеком считается естественным. За счёт каких характеристик? Мы поняли, что не знаем этого.

Есть умные люди, с которыми приятно общаться и с которыми нет. Есть люди с достаточно зрелыми реакциями: они иначе реагируют на наши ошибки и вопросы. 50 лет назад не было такого понятия, как эмоциональный интеллект. Наверняка мы не знаем многих других характеристик, благодаря которым мы можем комфортно общаться с другими людьми.

Не зная этих характеристик, нельзя внести их в систему и сделать общение с системой естественным. Один из возможных выходов — система не обязательно должна быть готовой. Можно выпустить полуфабрикат, который будет получать обратную связь от людей и узнавать, что он сделал правильно и неправильно.

Несмотря на то, что мы не знаем, какими эти характеристики должны быть, в какой-то момент система сама их выяснит и будет поддерживать.

· Персоналити

Один из самых популярных вопросов — характер личности голосового ассистента. Сейчас технологии позволяют только имитировать дружелюбность, интеллектуальность, чувство юмора и так далее. Особенность человека в том, что это очень многоплановые характеристики. Подходы компаний разнятся и зависят от цели создания голосовой системы и философии компании.

Алиса от «Яндекса».

Siri — проект компании, которая создаёт магический пользовательский опыт. Всё должно просто работать. И если пользователь угадывает с грамматикой и словарём, всё замечательно. Но если не угадывает, система перестаёт работать без малейшего указания на то, что не так и как скорректировать поведение, чтобы в следующий раз она работала лучше.

При этом огромное внимание уделено персоналити. Программисты работали над качеством голоса и человечным взаимодействием: Siri может пошутить, добавить забавный комментарий при выполнении стандартной задачи. Иногда это выглядит естественно, но мы быстро достигаем uncanny valley («зловещей долины»).

Эффект такой: чем больше система похожа на человека, тем больше она ему нравится. Но когда она становится очень похожей, приязнь резко снижается и восстанавливается только для полной имитации. Этот спад и называется «зловещей долиной».

«Зловещая долина»

С персоналити мы быстро в неё сваливаемся: система удачно шутит, человек расслабляется, использует другой набор слов и грамматику, и система начинает реагировать не так, как он ожидает. Пользователь может посчитать, что система над ним смеётся или не одобряет. Это намного хуже, чем если бы он просто думал, что перед ним глупый робот.

Одно из основных отличий ассистента Google в том, что у него даже нет имени (OK, Google). У Siri (Apple) и Alexa (Amazon) есть имена, и они пытаются вести себя как человек.

В Google мы пришли к выводу, что безопаснее всего не имитировать персоналити и показать пользователю, что это просто технологии без какого-либо человеческого общения.

Недостатки

· Безопасность

Интересные решения есть у Alexa: она может контактировать с устройствами, которые есть дома, например, с «умным» замком. Можно подойти к двери и сказать: «Алекса, открой дверь, код такой-то».

Есть куча нюансов. Когда мы используем голос, нас слышат все, кто находится поблизости — это небезопасно и иногда неуместно. Люди используют ГИ у себя в машине для создания события, но не делают этого в автобусе, так как окружающие услышат, где, когда и с кем они планируют быть.

Мы решили не использовать ГИ, когда важна безопасность. В этом случае требования к системе выше. Если мы ставим будильник, и он срабатывает в 99 случаях из 100, это нормально. Если закрываем машину или сейф, срабатывание в 99 случаях из 100 неприемлемо.

Появляется вопрос обратной связи. Если мы ставим будильник, достаточно ответа, что он поставлен. Мы не уточняем все записанные системой параметры. При повышенных требованиях к безопасности мы должны полностью доверять системе, что невозможно в текущем состоянии.

Либо должны получать обратную связь: включена сигнализация такого-то плана, будет работать до такого-то момента, выключить её может этот человек и так далее. Если система сообщает это голосом, кто-то другой может это услышать. А если система сообщает конфиденциальную информацию?

Поэтому в своей работе мы решили не связываться с ситуациями, когда важны безопасность и приватность.

· Ближайшее будущее

Крупные компании будут пытаться имитировать возможность ассистента ответить на любой вопрос, и это всё ещё не будет работать.

Применение будет возможно в узких сферах, где ожидания пользователя ограничивают его словарь и динамику взаимодействия. Например, билетному аппарату можно сказать, что нужен билет от Москвы до Калуги на завтрашний вечер. Если человек затем спросит, сколько лет Бараку Обаме, совершенно нормально, когда система не ответит на такой вопрос.

Будущее за фокусом на определённом пользовательском кейсе, поддержке всей связанной с ним грамматики и игнорировании всего, что за его пределами.

· Использование в платежах

Голос используется для подтверждения платежей, но это лишь часть всего взаимодействия. Нет примеров, когда весь процесс можно пройти голосом. Отчасти это связано с юридическими особенностями и возвратом платежей.

В Европе есть cooldown period, когда в течение определённого времени (в разных странах оно разное) покупатель может вернуть товар, даже если с ним всё в порядке. Человек может поменять своё мнение без причины, и это поддерживается законом.

Платёжной системе также необходима гарантия, что человек оплатил продукт, зная, что он покупает, и это не ошибка. Если это ошибочная покупка, при возврате платежа действует совсем другое правило. Были случаи, когда ребёнок брал телефон (Amazon Fire), что-то говорил и запускал процесс покупки. В этом случае невозможно доказать, кто её инициировал.

· Когда необходим

Принято считать, что новая технология просто заменит предыдущую, но это не всегда так. Сейчас говорят о голосификации приложений, когда для существующего приложения экран просто заменяется голосом. Очевидно, это так не работает. В основном потому, что голос используется в других условиях. Если человек может держать телефон и нажимать на экран, он, скорее всего, не будет использовать голос. Тачскрин чаще всего удобнее ГИ.

Голос удобен тогда, когда сложно использовать телефон: за рулём, в дороге с сумками или дома на диване, когда телефон лежит на столе и просто лень вставать, чтобы взять его в руки. Включить музыку голосом оказывается проще, даже если нажать на кнопку — быстрее.

ГИ необходим тогда, когда использование телефона обычным способом невозможно, например, в автомобиле. Но если компания говорит, что продукт можно использовать во время вождения, ей надо доказывать специальным органам, что все законодательные ограничения, связанные с вождением, приняты во внимание.

ГИ необходимо использовать, когда соблюдается два условия:

1. Человек занимается чем-то многозадачным и не может сконцентрировать внимание на одном устройстве.

2. То, что он делает с помощью ГИ, не является основной задачей.

· Связь с визуальным интерфейсом

Огромное преимущество визуальных интерфейсов в том, что варианты взаимодействия видны. С ГИ мы не знаем, что нам доступно.

Взаимодействие с экранами — очень хорошо проработанная тема. Экран останется даже тогда, когда ГИ будет работать хорошо, хотя бы потому, что у нас есть глаза. Визуальное восприятие — основное. Голосовое — вспомогательное.

Голос может взаимодействовать с экранным представлением данных и при этом не быть подчинённой структурой. Например, в Alexa основной компонент — голос. Можно поставить приложение, чтобы видеть ответы системы на экране (некоторые ответы сложно воспринимать на слух). Правда, сейчас концепция меняется — следующая версия Amazon Echo будет со своим экраном.

· Применение в критических процессах

Хирург — хороший пример многозадачности. Он фокусируется на одном виде деятельности, но ему может требоваться дополнительная информация. Здесь ГИ применяется уже сейчас.

IBM с проектом Watson пошла по другому пути. Компания начала работать над искусственным интеллектом. Сначала он выиграл у людей в викторину, а четыре года назад его внедрили в нескольких американских клиниках. Сейчас его используют для диагностики рака в 1000 клиниках. Система используются для критических процессов, но в очень узких юзкейсах. При этом персонал проходит специальную подготовку.


Дата добавления: 2023-01-08; просмотров: 58; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!