Ограничения использованного алгоритма
В этом алгоритме узким местом является размер окна дискретного преобразования Фурье ДПФ. В данной модели синтезируются статичные звуки, при этом не происходит изменение параметров в процессе синтеза.
В реальной же речи параметры звука меняются при переходе от одного звука к другому, причем меняются непрерывно. Очевидно, при использовании окон ДПФ такой результат получить невозможно — в пределах окна параметры звука меняться не будут. Теоретически благодаря полной обратимости дискретного преобразования Фурье возможно получить спектр для любого сигнала, в том числе и с динамически меняющимися параметрами.
Поэтому для генерации звука с изменяющимися параметрами нужно сокращать размер окна ДПФ или брать не весь сгенерированный кадр, а только его часть (не забывая при этом синхронизировать фазу сигнала). В идеале размер кадра можно свести к одному отсчету дискретизации по времени. Этот способ генерации речи дает лучшие результаты по сравнению с ДПФ, но работает гораздо медленнее ДПФ. В системе SAS можно выбрать используемый способ генерации.
3. Программные реализации синтезаторов речи
Далее в этой главе мы расскажем о нескольких программных реализациях синтезаторов речи. Большинство таких синтезаторов разработано для платформы Microsoft Windows и пользуется речевым программным интерфейсом Speech API, разработанным компанией Microsoft.
В комплекте с операционной системой Microsoft Windows не поставляются средства распознавания или синтеза речи. Однако разработчики могут создавать такие средства, используя при этом упомянутый выше программный интерфейс Speech API.
Что же касается пользователей, то для того чтобы снабдить компьютер речевым интерфейсом, необходимо установить на него речевые программные модули (speech engine). Как Вы знаете, в составе пакета офисных программ Microsoft Office XP поставляются такие модули, но не для русского языка.
Синтезатор речи Govorilka
В этом разделе мы рассмотрим одну из бесплатных программ синтезаторов речи с назавнием Govorilka (рис.6).
В зависимости от установленных речевых модулей, программа Govorilka может читать текст разными голосами и на разных языках, в том числе и на русском языке.
Рис. 6. Синтезатор речи Govorilka
Исходный текст для чтения может быть загружен из текстового файла, файла RTF и универсальный буфер обмена операционной системы Clipboard. Для загрузки текста можно также перетащить значок текстового файла на значок программы Govorilka или в окно этой программы.
Программа способна читать файлы с символами кириллицы в кодировке операционной системы Microsoft Windows.
Размер читаемого текста практически не ограничен. Загруженный однажды текст, а также текущая позиция при чтении запоминается программой. Таким образом, если текст большой, Вы можете слушать его по частям, даже выключая на время компьютер.
Для запуска текста, загруженного в окно программы, достаточно щелкнуть кнопку Читать текст (с изображением треугольника зеленого цвета) или нажать клавишу F5. прочитанный текст выделяется синим цветом.
С помощью кнопок Стоп (клавиша F6) и Пауза/Продолжить (клавиша F8) можно остановить, временно приостановить или продолжит чтение текста.
Можно читать как весь загруженный текст, так и любой его фрагмент. Для чтения фрагмента текста этот фрагмент нужно выделить мышью или при помощи клавиатуры, а затем щелкнуть кнопку Читать текст.
Программа позволяет сохранить результаты синтеза речи, записав синтезированную речь в файл формата WAV или MP3. Заметим, что запись речи в файл происходит не в реальном времени, а ускоренно. В самом деле, для выполнения операции записи речи в файл не требуется проговаривать текст, что необходимо делать со скоростью, привычной для человека.
Для коррекции произношения отдельных слов в программе Govorilka предусмотрен легко пополняемый словарь произношений.
Do'stlaringiz bilan baham: |