Системы анализа речи. Системы. Описание процесса.
Распознавание речи — процесс преобразования речевого сигнала в цифровую информацию (напр., текстовые данные). Обратной задачей является синтез речи.
Классификация систем распознавания речи.
Системы распознавания речи:
· по размеру словаря (ограниченный набор слов, словарь большого размера);
· по зависимости от диктора (дикторозависимые и дикторонезависимые системы);
· по типу речи (слитная или раздельная речь);
· по назначению (системы диктовки, командные системы);
· по используемому алгоритму (нейронные сети, скрытые Марковские модели, динамическое программирование);
· по типу структурной единицы (фразы, слова, фонемы, дифоны, аллофоны);
· по принципу выделения структурных единиц (распознавание по шаблону, выделение лексических элементов).
Для систем автоматического распознавания речи, помехозащищённость обеспечивается, прежде всего, использованием двух механизмов:
· Использование нескольких, параллельно работающих, способов выделения одних и тех же элементов речевого сигнала на базе анализа акустического сигнала;
· Параллельное независимое использование сегментного (фонемного) и целостного восприятия слов в потоке речи.
Классификация методов распознавания речи на основе сравнения с эталоном.
· Динамическое программирование — временные динамические алгоритмы (Dynamic Time Warping).
Контекстно-зависимая классификация. При её реализации из потока речи выделяются отдельные лексические элементы — фонемы и аллофоны, которые затем объединяются в слоги и морфемы.
|
|
· Методы дискриминантного анализа, основанные на Байесовской дискриминации (Bayesian discrimination);
· Скрытые Марковские модели (Hidden Markov Model);
· Нейронные сети (Neural networks)
Этапы распознавания
· 1. Обработка речи начинается с оценки качества речевого сигнала. На этом этапе определяется уровень помех и искажений.
· 2. Результат оценки поступает в модуль акустической адаптации, который управляет модулем расчета параметров речи, необходимых для распознавания.
· 3. В сигнале выделяются участки, содержащие речь, и происходит оценка параметров речи. Происходит выделение фонетических и просодических вероятностных характеристик для синтаксического, семантического и прагматического анализа. (Оценка информации о части речи, форме слова и статистические связи между словами.)
· 4. Далее параметры речи поступают в основной блок системы распознавания — декодер. Это компонент, который сопоставляет входной речевой поток с информацией, хранящейся в акустических и языковых моделях, и определяет наиболее вероятную последовательность слов, которая и является конечным результатом распознавания.
|
|
Типичная архитектура статистических систем автоматической обработки речи.
· Модуль шумоочистки и отделение полезного сигнала.
· Акустическая модель — позволяет оценить распознавание речевого сегмента с точки зрения схожести на звуковом уровне. Для каждого звука изначально строится сложная статистическая модель, которая описывает произнесение этого звука в речи.
· Языковая модель — позволяют определить наиболее вероятные словные последовательности. Сложность построения языковой модели во многом зависит от конкретного языка. Так, для английского языка, достаточно использовать статистические модели (так называемые N-граммы). Для высокофлективных языков (языков, в которых существует много форм одного и того же слова), к которым относится и русский, языковые модели, построенные только с использованием статистики, уже не дают такого эффекта — слишком много нужно данных, чтобы достоверно оценить статистические связи между словами. Поэтому применяют гибридные языковые модели, использующие правила русского языка, информацию о части речи и форме слова и классическую статистическую модель.
· Декодер — программный компонент системы распознавания, который совмещает данные, получаемые в ходе распознавания от акустических и языковых моделей, и на основании их объединения, определяет наиболее вероятную последовательность слов, которая и является конечным результатом распознавания слитной речи.
|
|
Параметры качества речи по цифровым каналам: [4]
· Слоговая разборчивость речи;
· Фразовая разборчивость речи;
· Качество речи по сравнению с качеством речи эталонного тракта;
· Качество речи в реальных условиях работы.
ТЕРМИНЫ, ОПРЕДЕЛЕНИЯ
· Разборчивость речи — относительное количество правильно принятых элементов речи (звуков, слогов, слов, фраз), выраженное в процентах от общего числа переданных элементов.
· Качество речи — параметр, характеризующий субъективную оценку звучания речи в испытуемой системе передачи речи.
· Нормальный темп речи — произнесение речи со скоростью, при которой средняя длительность контрольной фразы равна 2,4 с.
· Ускоренный темп речи — произнесение речи со скоростью, при которой средняя длительность контрольной фразы равна 1,5-1,6 с.
· Узнаваемость голоса говорящего — возможность слушателей отождествлять звучание голоса, с конкретным лицом, известным слушателю ранее.
|
|
· Смысловая разборчивость — показатель степени правильного воспроизведения информационного содержания речи.
· Интегральное качество — показатель, характеризующий общее впечатление слушателя от принимаемой речи.
Перпетуум М.
Сочетает в себе возможности независимого от интернета распознавания речи с гибкостью встроенного языка программирования, допускающего кроме прочего управление внешними устройствами — от самодельных до промышленных. Стоимость программы 1970 рублей, пробная версия установилась без проблем, но программ имеет ограниченные возможности. Не очень хорошо разбирает длинные слова. Работает только с русским языком.
Диктограф 5.
Программа распознавания речи "Диктограф" предназначена для управления некоторыми функциями компьютера с помощью голосовых команд и диктовки текста в любой текстовый редактор. Программа использует оригинальное ядро, полностью основанное на российских разработках. Работает с русским и английским языком.
Горыныч 3.0.
Программа для вывода распознанных слов в любые текстовые редакторы под управлением MS Windows. Разработанная российской компанией VoiceLock, эта программа объединила в себе последние достижения в области обработки звучащей речи и успешно справляется с задачей перевода устной речи в текстовые редакторы. Работает с русским и английским языком.
Дата добавления: 2018-02-15; просмотров: 2089; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!