100
ИСПОЛЬЗОВАНИЕ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ В
РАСПОЗНАВАНИИ РЕЧИ
А.Ш. Азирбаева (магистрантка, НФ ТУИТ им. Мухаммада аль-Хорезми)
Создание естественных для человека средств общения с компьютером
является в настоящее время важнейшей задачей современной науки, при этом
речевой ввод информации осуществляется наиболее удобным для пользователя
способом. В большинстве случаев под распознаванием речи подразумевают
преобразование аудио последовательности записи голоса человека в текстовые
данные. Однако, в некоторых случаях использование не только звуковой, но и
видеоинформации позволяет улучшить качество
распознавания или даже
заменить аудио-модели.
Распознавание речи или Speech-to-Text (STT) - технология преобразования
речи в текст. Это многоуровневый процесс анализа акустических сигналов, их
структурирования в слова, фразы, предложения и преобразования в текстовый
формат. Технологию распознавания речи можно также называть технологией
распознавания голоса.
Системы распознавания речи условно можно
разделить на несколько
классов, которые могут анализировать однословную, связную речь, типы
непрерывной речи, группы слов.
Системы распознавания речи можно условно разделить на несколько
классов по тому, какие типы последовательностей слов они способны
анализировать: отдельные слова, связная речь, слитная речь.
Большинство подходов к распознаванию речи можно разбить на
следующие последовательные шаги:
1)
Пре процессинг. Включает выделение отрезков речи / не речи
2)
Извлечение признаков
3)
Декодирование. Собственно, расшифровка сказанной информации.
Происходит с использованием:
•
Акустической модели
. Описывает зависимость между аудио сигналом и
единицами речи(почти всегда фонемами)
•
Словаря
. Множество произносимых слов вместе с их транскрипциями.
•
Языковой модели
. Распределение вероятностей
над множествами всех
предложений или отдельных слов.
4)
Пост процессинг. На выходе предыдущего пункта может
получиться набор возможных последовательностей слов вместе с их оценками
(например, вероятностями). При выборе окончательного ответа можно
использовать какие-либо высокоуровневые требования,
которые не было
возможности принять во внимание на описанных ранее этапах. [1]
Схематически процесс можно представить следующим образом:
101
Рис. 1: Общий вид процесса распознавания речи
Существуют следующие подходы к выделению информативных
признаков, описывающих речевой сигнал:
•
метод линейного предсказания;
•
спектральный анализ.
Спектральный анализ отличается от линейного предсказания тем, что
оценки среднего значения усредненного шума вычитаются из спектра,
вычисленного по зашумленным данным.
Наиболее часто употребляются два подхода к классификации и
распознаванию:
•
мера близости параметров (такая функция называется метрикой);
•
нейронные сети.
Второй подход не использует
вспомогательных функций, но моделирует
процесс распознавания в биологических системах. Этот подход представляется
более перспективным в настоящее время.
В
системах распознавания речи выделяются две основные подсистемы:
•
подсистема предварительной обработки речевых сигналов;
Рис. 2: Схема предварительной обработки речевых сигналов
•
подсистема классификации речевых сигналов. На рис. 2 показана схема
предварительной обработки речевых сигналов. В настоящей работе
представлены модель распознавания речи на основе искусственных нейронных
сетей.
Модель распознавания речи на основе искусственных нейронных сетей
Пусть речевой сигнал как входные данные нейронной сети. После
обработки звуковых данных получен массив сегментов сигналов.
Каждый
сегмент соответствует набору чисел, характеризующих амплитудные спектры
сигнала. Для подготовки к вычислению для сигнала выхода нейронной сети
необходимо записать все наборы чисел в таблицу, строка которой – это набор
чисел каждого кадра.
102
Количество входных и выходных нейронов известно. Каждый из входных
нейронов соответствует одному набору чисел. А на выходном слое только один
нейрон, выход которого соответствует желаемому
значению распознавания
сигнала.
Где
Do'stlaringiz bilan baham: