Р а з д е л 7
Для параметрического описания речи определяют параметры,
описывающие передаточную функцию речевого тракта человека и
функцию возбуждения. Этими параметрами, например, могут явля-
ться коэффициенты линейного предсказания [21].
Обычно для кодирования речи используют 8–10 параметров, вы-
числяемых на интервалах порядка 5...40 мс, кроме того, вычисля-
ются параметр, характеризующий изменение амплитуды либо мощ-
ности сигнала, период основного тона речи, а также признак типа
тон/шум/пауза, характеризующий способ возбуждения речевого сиг-
нала.
Полученный набор параметров, оптимизированный по критерию
точности и минимальной разрядности представления, передается в
цифровом виде по каналу связи в реальном времени, а на приемном
конце осуществляется синтез речевого сигнала по полученным дан-
ным.
Îñîáåííîñòè âîêîäåðîâ ñ ëèíåéíûì ïðåäñêàçàíèåì.
С на-
чала 90 годов активно развивается подход на основе парадигмы «ана-
лиз методом синтеза» (linear prediction analysis by synthesis, LPAS).
Суть этого метода состоит в том, что на передающем конце, поми-
мо вычисления параметров кодируемой речи, осуществляются синтез
этого же речевого сигнала с целью сравнения полученного при приеме
декодированного сигнала с исходным, а затем оптимизация парамет-
ров описания речевого сигнала с целью минимизации сигнала воз-
можной ошибки. При таком подходе в качестве сигнала используется
последовательность импульсов возбуждения, генерируемая по специ-
альному закону, либо сигналы из заранее подготовленного множес-
тва сигналов — кодовой книги (code-excited linear predictive, CELP).
В результате оптимизации выбирается наилучшая последовательнос-
ть импульсов возбуждения, обеспечивающая минимальную ошибку
разности исходного и синтезированного сигналов.
Описание такой последовательности импульсов возбуждения (в
виде амплитуды импульсов и длительности интервалов между ними
либо номера набора сигналов из заранее известной кодовой книги)
передается вместе с другими параметрами на приемный конец с целью
декодирования-синтеза. При этом объем информации об особенностях
сигнала может сократить общий объем передаваемого кода до 50 %.
Качество некоторых систем параметрического кодирования приб-
лижается к качеству сигнала с использованием АДИКМ. По мере раз-
вития такой подход позволил снизить информационную емкость рече-
вого сигнала до 2400 бит/с, при сохранении не только разборчивости
речи, но и дикторских особенностей.
Сокращение информационной избыточности
135
Следует отметить, что для реализации эффективных алгоритмов
кодирования речевых сигналов в реальном масштабе времени требу-
ются специальные процессоры с производительностью в 15...20 мил-
лионов операций в секунду.
Îñîáåííîñòè ñîâðåìåííûõ ìíîãîïîëîñíûõ âîêîäåðîâ.
На-
ряду с моделями кодеров с линейным предсказанием в последнее вре-
мя для устранения избыточности нашли применение вокодеры с мно-
гополосным возбуждением (Multi Band Excitation, MBE) различных
модификаций.
Среди наиболее распространенных алгоритмов, базирующихся на
модели MBE, следует назвать:
•
IMBE (Improved Multi Band Excitation) 6,4 кбит/с, разработанный
DVSI (Digital Voice System Inc.) и принятый в качестве стандарта
для Inmarsat-M в 1990 г.;
•
AMBE (Advanced Multi Band Excitation) 4,8 кбит/с, принятый в
качестве стандарта для Inmarsat-mini-M в 1994 г.
MBE-модель появилась сравнительно недавно (разработана Mas-
sachusetts Institute of Technology, USA) и имеет гораздо меньшее расп-
ространение, чем ее «конкуренты» — модели линейного предсказания
со всевозможными видами возбуждения.
Основное отличие MBE-речевой модели от других — в подходе
к формированию сигнала возбуждения. Спектр возбуждающего сиг-
нала делится на неперекрывающиеся отдельные частотные полосы,
и окончательное решение «вокализованность/невокализованность»
принимается в каждой такой полосе отдельно.
Таким образом, сигнал возбуждения состоит одновременно и из
невокализованных частотных компонент, и из вокализованных. Это
позволяет увеличить степень свободы в моделировании возбуждения
и получить более высокое качество синтезированной речи. Одновре-
менно это обеспечивает лучшую устойчивость (стойкость) по отноше-
нию к воздействию фоновых шумов. Кодеки MBE нашли применение
и хорошо зарекомендовали себя в системах мобильной спутниковой
связи.
7.2.3. Параметры цифровых потоков современных систем
кодирования речи
В подавляющем большинстве современных вокодеров обработка
речи проводится по сегментам длительностью 10...30 мс. После вы-
числения требуемых параметров определяются коэффициенты, осо-
бо важные для речеобразования, которые кодируются помехоустойчи-
вым кодом с добавлением синхронизирующей информации. В резуль-
тате этого сегмент речи отображается как составное кодовое слово из
136
Do'stlaringiz bilan baham: |