АКТУАЛЬНОСТЬ ИСПОЛЬЗОВАНИЯ ОБЛАЧНЫХ ТЕХНОЛОГИЙ В РАСПОЗНАНИИ РЕЧИ



Алексанян А. С.

Научный руководитель: А.В. Резер, д.э.н.,

профессор кафедры «Финансы и кредит»

ИЭФ РУТ (МИИТ)

 

Аннотация: Рассматривается актуальность и особенности применения облачных интернет-технологий в задачах автоматического распознавания речи. Кратко описываются положительные особенности и основные модели построения современных облачных интернет-технологий. Рассматриваются существующие методы, технологии и архитектура систем автоматического распознавания речи, а также особенности облачной технологии распознавания речи, предоставляемой компанией Google. Рассмотрим также терминпаралингвистика в распознании лжи в речи человека.

Ключевые слова: информационное общество, облачные технологии, речевые запросы, интернет-технологии, интернет ресурс, паралингвистика.

 

В двадцать первом веке, в силу невероятно быстрого темпа жизни, людям необходимо искать информацию в считанные минуты и даже секунды. Человеку необходимо адаптироваться под новые условия выживания в «информационном» обществе. Для наиболее удобного и быстрого поиска информации в наше время в большей степенипопулярны в использование мобильные устройства, которые позволяют вводить незамедлительно запросы в поисковую строку и получать почти мгновенно ответы. Интернет-технологии стремительно идут вперед, разрабатываются все новые способы мгновенного доступа к интернет ресурсам и извлечения нужной информации. Один из методов, стремительно развивающийся в последние несколько лет – это распознавание речи. Такие технологии берут начало своей историю развития еще в прошлом века. В наше время одни из самых известных компаний которым удалось вывести технологию «speechrecognition» на новый уровень, являются Яндекс, Google, Apple. Одну из главных задач по сокращению времени на обработку речевого запроса, которую удалось решить посредством облачных технологий, на данный момент времени все еще доводят до совершенства. Конечно, одним из необходимых факторов для успешного процесса является стабильный и быстрый интернет, другой фактор - мощные сервера, позволяющие обрабатывать входящие запросы и возвращать пакеты данных обратно пользователю. И перспектива использования облачные технологии для оптимизации речевых запросов в будущем видна невооруженным глазом.

Облачные технологии – это парадигма, предполагающая распределенную и удаленную обработку и хранение данных. Использование облачных технологий позволяет организовать постоянный и удобный удаленный доступ к общему пулу вычислительных ресурсов, таких как устройства хранения данных, сети передачи данных, а также различные сервисы и приложения [1]. Главным преимуществом данного подхода является снижение требований к вычислительным мощностям на стороне клиента при реализации сложных вычислительных задач. Это позволяет интегрировать различные ресурсоемкие сервисы, например, распознавание устной речи, в устройства с ограниченными ресурсами (мобильные телефоны, планшеты и др.). Облачные технологии обладают положительнымиособенностями [2]: 1. Самообслуживание по требованию (on-demandself-service) – дает пользователю возможность самому настраивать вычислительные мощности нужного облака. 2. Универсальный сетевой доступ (broadnetworkaccess) – имеет возможность организовывать постоянный доступ к облаку вне зависимости от задействованного терминала. 3. Объединение ресурсов в пулы (resourcepooling) – разрешает динамически изменять вычислительные мощности облака исходя от получаемой нагрузки. 4. Эластичность (rapidelasticity) позволяет предоставлять, расширять, сужать и убирать услуги в любой момент времени без дополнительных издержек взаимодействия с поставщиком. 5. Непрерывный учет потребления (measuredservice) – предоставляет возможность высчитывать объем услуг, предоставленный пользователю, в потребленных ресурсах по факту (объеме памяти, пропускной способности, количестве транзакций и пр.).

Перечисленные особенности делают облачные технологии особенно удобными для использования в развивающихся проектах, когда требования к вычислительным мощностям и базам данных постоянно изменяются. Облачные сервисы могут предоставляться пользователю по трем основным моделям [2]: программное обеспечение как услуга (softwareas a service) – готовая платформа с уже установленным программным обеспечением. В этом случае пользователю нет необходимости покупать программное обеспечение самому, а достаточно лишь использовать то, которое предоставляет облачный сервис; платформа как услуга (platformas a service) – облачная платформа, а также возможность разворачивать на ней любые приложения; инфраструктура как услуга (infrastructureas a service) – некоторая облачная инфраструктура (виртуальные серверы), а также возможность конфигурировать ее под нужды пользователя. Данные модели сервисов позволяют использовать облачные технологии в широком спектре проектов, начиная от небольших интернет-порталов до корпоративных сетей с множеством сервисов и клиентов с широкой географией. Один из наиболее развитых сервисов технологии облачных вычислений предоставляется компанией Google [3]. Компания Google развивала технологию облачных вычислений более 10 лет. Многопользовательская инфраструктура Google позволяет сократить время развертывания приложений и их обновлений для всех пользователей. Быстрое внедрение программных решений с использованием облачных технологий Google обладает преимуществом по сравнению с другими системами. Веб-приложения на базе облачных технологий Google предоставляют пользователям доступ к облачным приложениям и хранимой информации с различных устройств, что повышает удобство и мобильность пользователя. Хранение данных в облаке, а не на компьютерах пользователей позволяет нескольким пользователям обращаться к информации и работать с нею одновременно, не беспокоясь о совместимости операционных систем, программного обеспечения и браузеров. Синхронная репликация позволяет синхронизировать данные и действия пользователя в режиме реального времени между несколькими центрами обработки данных. Если один из них по какой-либо причине становится недоступен, то система мгновенно обращается к резервному центру, при этом пользователь не испытывает никаких перебоев в обслуживании.

Стремительное развитие мобильных устройств и интернет технологий поспособствовало разработки различных интернет-сервисов. Постепенно в нашу жизнь проникает один из перспективных сервисов по обработки и распознавании речи человека. В настоящее время системы автоматического распознавания речи (АРР) представлены в виде двух технологий, реализующими распознавание голосовых команд (VoiceCommandRecognition, VCR) и распознавание слитной речи (Speech-to-Text, STT). Исторически VCR-технология появилась раньше STT-технологии. В основании VCR-технологии служит принцип сравнения распознаваемой речевой команды с набором эталонов методами решения сложных задач путем разбиения их на более простые подзадачи. При количестве до 1 000 слов VCR-технология может достичь высокой достоверности распознавания и в настоящее время широко применяется в мобильных гаджетах при голосовом наборе и навигации по сайтам. STT-технология использует теорию скрытых Марковских моделей, с помощью которой реализуется метод статистического сравнения распознаваемой фразы с эталонами. Поэтому используются акустические модели слов, а также грамматические модели фраз и предложений. Задача высокоэффективного распознавания слитной речи в рамках STT-технологии пока что не доведена до ума, хотя точность распознавания речи вполне уже высока для ее применения в ряде практических приложений. Будущее увеличение точности распознавания зависит от качества применяемых акустических и языковых моделей. Для обучения моделей необходимо большое количество исходного речевого материала. Для эффективного получения акустических моделей потребуются несколько сотен часов записей речи от тысячи разных людей. Обязательно для улучшения устойчивости распознавания к помехам и искажениям нужно применять записи, созданные в различных каналах и условиях. К разработке языковых моделей предъявляются более жесткие требования. Для обучения языковых моделей нужно применять блоки текстов размером от сотен миллионов словоформ до нескольких миллиардов. Подготовка и обработка соответствующего объема обучающего материала – это непосильная, кропотливая и финансово затратная работа [4]. Архитектура системы АРР определяется местом обработки речевого сигнала: на клиентском компьютере или на сервере. Первая – является распространенной архитектурой – называется встроенной. При исполнении обработки речевого сигнала по распознанию осуществляется на техническом устройстве клиента. Такая система имеет ряд существенных недостатков. В первую очередь проблемой является большое разнообразие возможных архитектур технических устройств. При использовании мобильных технологий возникает ряд дополнительных ограничений в разрезе вычислительных мощностей и объема встроенной памяти. Другой способ построения систем АРР – более мощная и более гибкая альтернатива встроенной системе. Данные системы сконструированы на основе клиент-серверной архитектуры с помощью технологий облачных вычислений. Техническое устройство клиента, такие как мобильный телефон, смартфон, планшет или нетбук, в такой архитектуре используются только для ввода и передачи речевого сигнала по цифровому каналу связи на удаленный сервер, а сервер выполняет главную работу – распознавание полученной последовательности данных. Помимо этого, у этой архитектуры нет явных ограничений на вычислительные ресурсы технического устройства клиента, что предоставляет возможность применять новые более сложные алгоритмы распознавания, а также централизовано осуществлять поддержку и обновлять серверную часть программы системы АРР [5]. С учетом современных реалий компания Google является лидером по предоставлению облачных технологий по распознаванию речи [6]. В течение последних лет стремительно совершенствовалась облачная технология распознавания речи GoogleVoice, и к настоящему времени существуют технологии распознавания речи для большей части европейских языков, а также русскийязык, японский и китайский. Одним из многих составляющих системы распознавания речи GoogleVoice является обучающая выборка звукозаписей человеческого голоса. Для системы GoogleVoice источником таких записей являются различные сервисы, предоставляемые Google и использующие речевые технологии. К ним относятся система распознавания речи и команд в системе Android, сервис диктовки писем GoogleMail, и др [7]. Из-за этого, обучающая выборка безостановочно пополняется новыми примерами голосов как с особенностями произношения, так и эффектами, от которых зависят технические характеристики записи и передачи голоса на различных устройствах.

Паралингвистика – область науки, которая изучает невербальный аспекты человеческой коммуникации и речи: естественные эмоции, интонации, акценты, психофизиологические состояния, особенности произношения, параметры голоса диктора, ложность и истинность речевых сообщений. Главной задачей современной паралингвистики является понимание как произносится речь, а не смысл содержания. Один из известных фактов, что физиологическое состояние человека очень тесно связано с эмоциональными переживаниями. Основная идея детекции лжи по речевому сигналу заключается в гипотезе о том, что ложь вызывается у человека из-за стрессового состояния, которое влияет на изменение параметров речи. Существует эффект Липпольда, который заключается в том, что все мышцы человека подвержены микроколебаниям с определенной частотой 8-12 гц. Когда человек находится в спокойном состоянии данная частота колебаний не превышает значения равное 10 гц, но в стрессовом состояние — это значение может достигать 12 гц. Из-за развития технологи, а в частности облачных технологий, процесс определения речевой лжи в будущем будет возможен посредством мобильных технологий. На данный момент одним из более эффективных методов распознания лжи является полиграф, но данный метод имеет ряд недостатков. Главными недостатками данного метода являются ограничения по состоянию здоровья проверяемого, а также объект проходящий проверку добровольно должен дать согласие на прохождение психологического тестирования [8]. Тема распознавания ложных речевых сообщений становиться очень актуальной, так как на данный момент большее количество исследований на тему лжи опираются на визуальном ее проявлении: мимики, жестах, биометрических параметрах. На данный момент времени задача распознавания лжи в речи человека с помощью облачных технологий имеет, как технические, так и методологические недоработки. В будущем с помощью технологии автоматического распознавания лжи речи человека посредством облачных технологий повлияет на ход повседневной жизни, где каждый человек сможет себя максимально обезопасить от пагубного влияния.

 

Список использованной литературы

1. Public Cloud Service Definition. Public Version 1.5 // WMWare, Inc. [Electronic resource]. – 2010. – Mode of access: http://www.vmware.com/files/pdf/VMware-Public-Cloud-Service-Definition.pdf. – Date of access: 01.08.2012.

2. Mell, P. The NIST Definition of Cloud Computing. Recommendations of the National Institute of Standards and Technology / P. Mell, T. Grance // U.S. Department of Commerce [Electronic resource]. – NIST Special Publication, 2011. – Mode of access: http://csrc.nist.gov/ publications/nistpubs/800-145/SP800-145.pdf. – Date of access: 01.08.2012.

3. Schalk, C. Google Cloud Technologies Overview / C. Schalk // Cloud Computing Expo, 2010 [Electronic resource]. – Mode of access: http://www.slideshare.net/cschalk/google-cloudtechnologies-overview. – Dateofaccess: 01.08.2012.

4. Распознавание речи // Центр речевых технологий [Электронный ресурс]. – 2001–2012. – Режим доступа: http://www.speechpro.ru/technologies/recognition. – Дата доступа: 01.08.2012.

5. Маковкин, К.А. Удаленная система автоматического распознавания речи / К.А. Маковкин // Речевыетехнологии. – № 4. – 2009. – С. 70–96.

6. Manjoo, F. Now you are Talking / FarhadManjoo // The Slate Group. – Washington Post Company [Electronic resource]. – 2012. – Mode of access: http://www.slate.com/articles/technology/technology/2011/04/now_youre_talking.single.html. – Date of access: 01.08.2012.

7. Singhal, A. Knocking down barriers to knowledge / Amit Singhal // Google Official Blog [Electronic resource]. – 2011. – Mode of access: http://googleblog.blogspot.com/2011/06/knockingdown-Barriers-to-knowledge.html. – Date of access: 01.08.2012.

8. Паралингвистика. Википедия свободная библиотека: https://ru.wikipedia.org/wiki/%D0%9F%D0%B0%D1%80%D0%B0%D0%BB%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0


 


Дата добавления: 2019-07-15; просмотров: 269; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!