.
84
ВЛИЯНИЕ ПОМЕХ НА ИДЕНТИФИКАЦИЮ ЛИЧНОСТИ ПО
ГОЛОСУ
Ф.Кадыров (ст.преподаватель ТУИТ им. Мухаммада аль-Хоразмий)
Д.Ибрагимов (ассистент, ТУИТ им. Мухаммада аль-Хоразмий)
Идентификация личности по голосу, проводимая в реальных условиях,
встречается с рядом серьезных затруднений. Во-первых, возможны
искажения, связанные непосредственно с диктором и обусловленные
особенностями его психофизического состояния, заболеванием и т. п. Эти
искажения с помощью любой автоматизированной системы обработки и
классификации исключить невозможно, можно лишь уменьшить их влияние.
Во-вторых, возникают аппаратные искажения на различных участках
прохождения речевого сигнала при его записи, обработке и хранении. В-
третьих, на голосовой сигнал неизбежно накладываются внешние
механические шумы, которые могут существенно его искажать. Важнейшей
задачей систем голосовой идентификации является уменьшение негативного
влияния второго и третьего факторов.
На рис.1 схематично изображены места воздействия внешнего шума и
помех на разные участки прохождения речевого сигнала.
Рис.1. Воздействие шума и помех на различные участки прохождения речевого
сигнала
Обычно выделяют: искажения сигнала, связанные с самим диктором, с
шумом окружающей среды, с искажением микрофонной системы (в том
числе электромагнитные помехи), искажения, возникающие в канале записи
при передаче сигнала, и искажения при программной обработке сигнала в
компьютере.
Помехи, возникающие в аппаратной части системы идентификации, в
конечном счете, сводятся к частотным и амплитудным искажениям
исходного спектра и сигнала. Это может быть вызвано недостатком
микрофонных
устройств,
обладающих
нелинейными
амплитудно-
частотными характеристиками, применением различных фильтров при
записи
сигналов,
а
также
искажениями
при
аналого-цифровом
преобразовании.
Для математического моделирования искажения голосовых сигналов
был применен алгоритм передискретизации, основанный на использовании
дискретного преобразования Фурье и позволявший повышать частоту
дискретизации сигнала в задаваемое целое или дробное число раз.
Моделирование конкретного искажения осуществлялось следующим
образом. Пусть исходный сигнал характеризовался конечным числом
85
отсчетов
a(n)
. На первом шаге алгоритма проводилось вычисление
коэффициентов
A(k)
прямого преобразования Фурье:
N
,
2,...
1,
k
,
e
)
n
(
a
)
k
(
A
n
N
k
2
j
N
1
n
На втором шаге в область возле отсчета с номером
N/2
спектра
вставлялись нулевые компоненты, количество которых задавалось
значениями начального числа отсчетов
N
и числа отсчетов в
передискретизованном
сигнале
M
.
Коэффициенты
H(i)
передискретизованного спектра в случае нечетных чисел N определялись
формулами:
,
M
i
N
M
2
1
N
),
N
M
i
(
A
)
i
(
H
,
N
M
2
1
N
i
1
2
1
N
0.
H(i)
,
2
1
N
i
1
),
i
(
A
)
i
(
H
в случае четных
N
– формулами:
.
M
i
2
N
M
2
N
),
N
M
i
(
A
)
i
(
H
,
1
N
M
2
N
i
,
2
1)
A(N/2
H(i)
,
N
M
2
N
i
2
2
N
0,
H(i)
1,
2
N
i
,
2
1)
A(N/2
H(i)
,
2
N
i
1
A(i),
H(i)
На заключительном шаге алгоритма вычислялись отсчеты
h(m)
обратного дискретного преобразования Фурье с нормировкой:
M.
,
...
2,
1,
m
,
e
)
k
(
H
M
1
)
m
(
h
m
M
k
2
j
M
1
k
На этом формирование искаженного сигнала заканчивалось.
В качестве величины, количественно характеризующей искажения, был
использован коэффициент нелинейных искажений K, который вводился как
отношение
среднеквадратичной
суммы
спектральных
компонентов
выходного сигнала, отсутствующих в спектре входного сигнала, к
среднеквадратичной сумме спектральных компонентов входного сигнала:
N
1
k
2
L
1
l
2
)
k
(
A
N
1
)
l
(
H
L
1
K
где
H(l)
– спектральные компоненты выходного сигнала, отсутствующие в
спектре входного сигнала
A(k)
,
L
– количество спектральных компонент
H(l).
Искажения генерировались таким образом, что частота дискретизации:
86
t
M
F
(здесь
t
– длительность исходного сигнала) увеличивалась за счет изменения
количества отсчетов от
N
до
M
, при этом для каждого искаженного сигнала
рассчитывался коэффициент нелинейных искажений
K
.
Рис.2. Участки частотных спектров.
а – спектр исходного сигнала, б – частотный спектр искаженного сигнала.
На рис.2 для иллюстрации приведен участок частотного спектра
исходного сигнала и соответствующий частотный спектр искаженного
сигнала (K=0,3) для интервала частот от f=150 Гц до f=250 Гц, для которого
искажения оказались наиболее заметными (здесь A - амплитуда звуковых
колебаний).
Таким
образом,
проведенное
математическое
моделирования
искажений голосового сигнала дало возможность провести количественную
оценку величины этих искажений, при которых возможна правильная
идентификация личности. Это показывает, что предложенный в настоящем
cтатьи подход к оценке влияний искажений может использоваться для
анализа надежности методов голосовой идентификации.
Do'stlaringiz bilan baham: |