Manuscript dvi



Download 0,65 Mb.
Pdf ko'rish
bet6/9
Sana24.06.2023
Hajmi0,65 Mb.
#953211
1   2   3   4   5   6   7   8   9
Bog'liq
Robust speaker recognition in noisy conditions IEE

B. Identification Results
Table I presents the identification accuracy obtained by the three models in all the tested conditions.
The accuracy of 98.41% for the clean test data by the clean baseline BSLN-Cln represents one of the best
identification results we have ever obtained on the TIMIT database. This may indicate that the distortion
on the speech signal imposed by our play/recording procedure for data collection (Fig. 1) is negligible,
and that the acoustic features and models used to characterize the speakers are adequate.
For the UC model, given a noise/SNR condition, the accuracy improved as the number of mixtures
increased because of a higher noise-level resolution. We only experienced exceptions for the engine noise
in the 10/15 dB SNR cases, which showed a small fluctuation in accuracy when the number of mixtures
increased from 64 to 128. With 128 mixtures (on average, about
128
/
7
'
18
mixtures per SNR condition),
the UC model was able to outperform the baseline model BSLN-Cln in all tested noisy conditions, with
a small loss of accuracy for the noise-free condition. Compared to the baseline multi-condition model
BSLN-Mul, the UC model obtained improved accuracy in the majority of test conditions. As expected,
the improvement is more significant for those noise types that are significantly different from the wide-
band white noise used to train UC and BSLN-Mul. In our experiments, for example, these noises include
the mobile phone ring, pop song and broadcast news, all showing very different spectral structures from
the white noise spectral structure (Fig. 2). For these noises, UC improved over BSLN-Mul by focusing
less on the mismatched noise characteristics. However, for those noises that are close to wide-band white
noise and thus can be well modeled by BSLN-Mul, the UC model offered less significant improvement
or no improvement. In our experiments, these noises include the engine noise, restaurant noise and street
November 10, 2005
DRAFT


12
noise
3
. For these noises, UC and BSLN-Mul achieved similar performances, and, because of being
trained in the well-matched wide-band noise, BSLN-Mul performed significantly better than BSLN-Cln
trained only using clean data. The improvement of BSLN-Mul over BSLN-Cln was much less significant
for the other three mismatched noises – mobile phone ring, pop song and broadcast news. Fig. 3 shows
the average performance by the three systems across all the tested clean/noisy conditions. All the three
UC models, with 32, 64 and 128 mixtures respectively, showed better average performance than the other
two systems, indicating the potential of the UC system for dealing with a wider range of test conditions.
The relative processing time for the BSLN-Mul with 128 mixtures compared to the UC also with 128
mixtures was about 1:6. This ratio dropped almost linearly to about 1:3 for the UC with 64 mixtures and
to about 1:1.5 for the UC with 32 mixtures.
C. Acoustic Noise Addition versus Electronic Noise Addition
In the above experiments the multi-condition training data for the UC model were created using the
system shown in Fig. 1, in which the wide-band noise was acoustically mixed into the clean training data;
the noisy test data were also created in the same way, i.e., acoustic noise addition (ANA). This model is
different from the commonly used additive-noise model, which assumes, among other assumptions, that
the coupling of speech and background noise is a linear sum of the clean speech signal and the noise
signal. The additive-noise model allows the simulation of noisy speech by electronically adding noise
to clean speech, i.e., electronic noise addition (ENA). In the following we describe an experiment to
compare ENA and ANA for being used to generate the multi-condition training data for the UC model.
Specifically, in the experiment we assumed that the test data were generated in the same way as above
using ANA, but the multi-condition training data were generated using ANA and ENA, respectively. This
comparison is of interest because it could offer an idea about how accurate the additive-noise model is
for characterizing acoustically coupled noisy speech signals, in terms of the recognition performance. To
keep the other conditions exactly the same in the comparison, the noise data associated with each training
utterance in ANA were saved and later played/recorded alone without presence of speech; the recorded
3
We have conducted an extra experiment that is not included in the paper. In the experiment, we trained a baseline multi-
condition model by replacing the wide-band noise in Fig. 1 with each of the three test noises – engine, restaurant and street
– at 20, 15 and 10 dB, and thereby created a model that almost exactly matches the test conditions with the three noises. The
identification accuracy produced by this “matching” model for the matched noise conditions is very similar to the accuracy
obtained by the BSLN-Mul. This indicates the similarity in characteristics between the three noises and the simulated wide-band
noise.
November 10, 2005
DRAFT


13
pure noise was then added electronically to the previously recorded clean speech to form a noisy training
utterance. This procedure minimized the SNR difference between the data generated by the two methods
and introduced the same transducer effect on the resulting noisy training data.
Fig. 4 shows the absolute improvement in identification accuracy obtained by ANA-based training
over ENA-based training, for the noisy test signals generated with an ANA model. Small, positive
improvements were observed in all tested conditions except for the 20 dB street noise case. The results in
Fig. 4 indicate little degradation from ANA to ENA, appearing to suggest that given the speech and noise
signals, ENA is a reasonably accurate model for their physical coupling. Research should thus focus on
the factors that directly modify the signal sources (e.g. the Lombard effect) and alter the characteristics of
the observed signals (e.g. the handset/channel effect). In Section V we will discuss an possible extension
of the UC principle and the training data collection system for modeling new forms of signal distortion.
IV. S
PEAKER
V
ERIFICATION
E
XPERIMENTS

Download 0,65 Mb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish