84
ВЛИЯНИЕ ПОМЕХ НА ИДЕНТИФИКАЦИЮ ЛИЧНОСТИ ПО
ГОЛОСУ
Ф.Кадыров (ст.преподаватель ТУИТ им. Мухаммада аль-Хоразмий)
Д.Ибрагимов (ассистент, ТУИТ им. Мухаммада аль-Хоразмий)
Идентификация
личности по голосу, проводимая в реальных условиях,
встречается с рядом серьезных затруднений. Во-первых, возможны
искажения, связанные непосредственно с диктором и обусловленные
особенностями его психофизического состояния, заболеванием и т. п. Эти
искажения с помощью любой автоматизированной
системы обработки и
классификации исключить невозможно, можно лишь уменьшить их влияние.
Во-вторых, возникают аппаратные искажения на различных участках
прохождения речевого сигнала при его записи, обработке и хранении. В-
третьих, на голосовой сигнал неизбежно накладываются внешние
механические шумы, которые могут существенно его искажать. Важнейшей
задачей систем голосовой идентификации является уменьшение негативного
влияния второго и третьего факторов.
На рис.1 схематично изображены места воздействия внешнего шума и
помех на разные участки прохождения речевого сигнала.
Рис.1. Воздействие шума и помех на различные участки прохождения речевого
сигнала
Обычно выделяют: искажения сигнала,
связанные с самим диктором, с
шумом окружающей среды, с искажением микрофонной системы (в том
числе электромагнитные помехи), искажения, возникающие в канале записи
при передаче сигнала, и искажения при программной обработке сигнала в
компьютере.
Помехи, возникающие в аппаратной части системы идентификации, в
конечном счете, сводятся к частотным и амплитудным искажениям
исходного спектра и сигнала. Это может
быть вызвано недостатком
микрофонных
устройств,
обладающих
нелинейными
амплитудно-
частотными характеристиками, применением различных фильтров при
записи
сигналов,
а
также
искажениями
при
аналого-цифровом
преобразовании.
Для математического моделирования искажения голосовых сигналов
был применен алгоритм передискретизации, основанный на использовании
дискретного преобразования Фурье и позволявший
повышать частоту
дискретизации сигнала в задаваемое целое или дробное число раз.
Моделирование конкретного искажения осуществлялось следующим
образом. Пусть исходный сигнал характеризовался конечным числом
85
отсчетов
a(n). На первом шаге алгоритма проводилось вычисление
коэффициентов
A(k) прямого преобразования Фурье:
N
,
2,...
1,
k
,
e
)
n
(
a
)
k
(
A
n
N
k
2
j
N
1
n
На втором шаге в область возле отсчета с номером
N/2 спектра
вставлялись
нулевые компоненты, количество которых задавалось
значениями начального числа отсчетов
N и числа отсчетов в
передискретизованном
сигнале
M.
Коэффициенты
H(i)
передискретизованного спектра в случае нечетных чисел N определялись
формулами:
,
M
i
N
M
2
1
N
),
N
M
i
(
A
)
i
(
H
,
N
M
2
1
N
i
1
2
1
N
0.
H(i)
,
2
1
N
i
1
),
i
(
A
)
i
(
H
в случае четных
N – формулами:
.
M
i
2
N
M
2
N
),
N
M
i
(
A
)
i
(
H
,
1
N
M
2
N
i
,
2
1)
A(N/2
H(i)
,
N
M
2
N
i
2
2
N
0,
H(i)
1,
2
N
i
,
2
1)
A(N/2
H(i)
,
2
N
i
1
A(i),
H(i)
На заключительном шаге алгоритма вычислялись отсчеты
h(m)
обратного дискретного преобразования Фурье с нормировкой:
M.
,
...
2,
1,
m
,
e
)
k
(
H
M
1
)
m
(
h
m
M
k
2
j
M
1
k
На этом формирование искаженного сигнала заканчивалось.
В качестве величины, количественно характеризующей искажения, был
использован коэффициент
нелинейных искажений K, который вводился как
отношение
среднеквадратичной
суммы
спектральных
компонентов
выходного сигнала, отсутствующих в спектре входного сигнала, к
среднеквадратичной сумме спектральных компонентов входного сигнала:
N
1
k
2
L
1
l
2
)
k
(
A
N
1
)
l
(
H
L
1
K
где
H(l) – спектральные компоненты выходного сигнала, отсутствующие в
спектре входного сигнала
A(k),
L – количество спектральных компонент
H(l).
Искажения генерировались таким образом, что частота дискретизации:
86
t
M
F
(здесь
t – длительность исходного сигнала) увеличивалась за счет изменения
количества отсчетов от
N до
M, при этом для каждого искаженного сигнала
рассчитывался коэффициент нелинейных искажений
K.
Рис.2. Участки частотных спектров.
а – спектр исходного сигнала, б – частотный спектр искаженного сигнала.
На рис.2 для иллюстрации приведен участок частотного спектра
исходного сигнала и соответствующий частотный
спектр искаженного
сигнала (K=0,3) для интервала частот от f=150 Гц до f=250 Гц, для которого
искажения оказались наиболее заметными (здесь A - амплитуда звуковых
колебаний).
Таким
образом,
проведенное
математическое
моделирования
искажений голосового сигнала дало возможность провести количественную
оценку величины этих искажений, при которых возможна правильная
идентификация личности. Это показывает, что
предложенный в настоящем
cтатьи подход к оценке влияний искажений может использоваться для
анализа надежности методов голосовой идентификации.
Do'stlaringiz bilan baham: