Лекция №11.
Методы и программы синтеза речи
План:
Модели синтеза речи
Синтез речи с помощью нейронной сети
Программные реализации синтезаторов речи
Ключевые слова: Модели синтеза речи, модели компилятивного синтеза, формантно-голосовой модели, синтезатор, синтезатор речи.
В то время как задача распознавания речи очень сложна и решена лишь отчасти, задача синтеза речи намного проще (хотя и там есть немало проблем, ждущих своего решения).
Технологии синтеза речи применяются в метро при объявлении остановок.
Владельцы мобильных телефонов могут общаться с автоматической сервисной службой для определения остатка средств на счету, переключения тарифных планов, подключения или отключения услуг и пр. Сервисная служба общается голосом с применением технологий синтеза речи.
Выпущено немало детских игрушек, «говорящих» человеческим голосом. В этих игрушках также применяются простейшие синтезаторы речи или цифровые магнитофоны.
Синтезаторы речи применяются в различных голосовых системах предупреждения, устанавливаемых в автомобилях и самолетах. Такие системы позволяют привлечь внимание человека к возникновению той или иной критической ситуации, не отвлекая его от процесса управления автомобилем, самолетом или другим аналогичным средством.
Также разработано немало компьютерных программ, способных читать голосом содержимое текстовых файлов или текст, расположенный в окнах приложений. Эти системы могут оказаться полезными тем, у кого ослаблено или полностью отсутствует зрение.
1. Модели синтеза речи
Все существующие в настоящее время методы синтеза человеческой речи основаны на использовании двух моделей — модели компилятивного синтеза и формантно-голосовой модели.
Рассмотрим вкратце особенности этих моделей.
Модель компилятивного синтеза
Модель компилятивного синтеза предполагает синтез речи путем конкатенации (составления) записанных образцов отдельных звуков, произнесенных диктором.
При использовании этой модели составляется база данных звуковых фрагментов, из которых в дальнейшем будет синтезироваться речь.
На первый взгляд этот подход не должен вызывать особых затруднений.
Действительно, пользуясь микрофоном и звуковым редактором, например, редактором GoldWave, можно создать набор файлов различных звуковых фрагментов, а затем сохранить их содержимое в базе данных.
Создавая звуковые WAV-файлы с текстовыми сообщениями, можно озвучить операционную систему Microsoft Windows и многие ее приложения, такие как почтовые программы, инструментальные средства разработки и пр.
Модель компилятивного синтеза подходит, главным образом, только в простейших случаях, когда синтезатор должен произносить относительно небольшой и заранее известный набор фраз. При этом обеспечивается довольно высокое качество речи. Впрочем, этот факт не слишком удивителен, если вспомнить, что для синтеза используется естественная человеческая речь.
Тем не менее, на стыке составляемых звуковых фрагментов возможны интонационные искажения и разрывы, заметные на слух. Кроме того, создание крупной базы данных звуковых фрагментов, учитывающей все особенности произношения фонем и аллофонов с разными интонациями, представляет собой сложную и кропотливую работу.
Do'stlaringiz bilan baham: |