1 Uvod
Zadnjih nekaj let so opazna velika prizadevanja tako
izdelovalcev telekomunikacijskih naprav kot tudi širše
strokovne javnosti za izboljšanje uspešnosti
avtomatskega razpoznavanja govora (ARG) v različnih
šumnih okoljih. Da bi spodbudili razvoj in dosegli
standardizacijo čim  uspešnejšega algoritma, je skupina
Aurora, ki deluje v okviru evropskega inštituta za
standardizacijo v telekomunikacijah (ang.: “European
Telecommunications Standard Institute - ETSI”), izdala
eksperimentalna okolja Aurora 2, 3 in 4. Kljub
dolgotrajnim prizadevanjem na tem področju trenutna
uspešnost razpoznavanja govora v šumnem okolju še
vedno ne zadovoljuje vseh vidikov, potrebnih za
uspešno komercialno rabo.
V naslednjem prispevku predstavljamo metodo
zmanjševanja nivoja šuma na podlagi teorije signalnega
podprostora s sprotno oceno šuma. Različne metode na
podlagi teorije signalnega podprostora so predstavljene
v [1, 2, 3, 4]. V osnovi temeljijo na izračunu lastnih
vrednosti Toeplitzove avtokorelacijske matrike signala
šumnega govora in obravnavajo primere, ko je signalu
govora dodan beli šum. Njihova uspešnost v sistemih
ARG ni znana. V našem prispevku bomo predstavili
metodo na podlagi teorije signalnega podprostora,
primerno za poljubne šume okolja, ter podali njeno
uspešnost v sistemu ARG.
Prispevek je organiziran kot sledi. V drugem
poglavju  je opisana teorija signalnega podprostora in v
tretjem postopek ocenjevanja lastnih vrednost za
poljubne šume. Metoda detekcije intervalov aktivnosti
govora je predstavljena v četrtem poglavju, v petem pa
so predstavljeni rezultati.
2 Teorija signalnega podprostora
V tem poglavju je na kratko povzeta teorija signalnega
podprostora predstavljena v [1]. Govorni signal je
predstavljen z linearnim modelom. Predpostavljeno je,
da sta signala govora in šuma nekorelirana in aditivna.
Zaporedje otipkov signala šumnega govora v
vektorski obliki zapišemo z enačbo:
dsy += . (1)
Pri tem so y, s in d vektorji dimenzij K, in sicer:
šumnega govornega signala, signala govora in signala
šuma. Vektor y je v prostoru K.
Glede na predpostavljeni, linearni model je v [1]
vektor s definiran z enačbo:
Vxs = . (2)
Pri tem je V = [v, ..., vM]K×M matrika linearnih
neodvisnih baznih vektorjev, x = (x[1], ..., x[M])T pa
vektor naključnih spremenljivk s srednjo vrednostjo nič.
Rang matrike V je M in velja, da je M ≤ K. Kadar je M
< K, leži poljubna množica vektorjev {s} v podprostoru
prostora K. Podprostor imenujemo signalni podprostor.
Avtorja v [1] predvidevata, da je srednja vrednost
vektorja s enaka nič (µs =  0) oz. da je kovariančna
matrika enaka avtokorelacijski matriki:
T
x
T
s E VVRssR == }{ . (3)
Pri tem je “T” operator transponiranje, E{.} matematič-
no upanje in Rx kovariančna oz. avtokorelacijska
matrika vektorja x. Ker je rang matrike rang(Rs) = M,
ima matrika K-M ničelnih lastnih vrednosti.
Za vektor signala šuma d sta avtorja v [1] predvidela
Gaussovo porazdelitev s srednjo vrednostjo µd = 0 in
varianco λd. Kovariančna matrika šuma, izračunana z
avtokorelacijsko, je naslednja:
IddR d
T
d E λ== }{ . (4)
Pri tem je I enotina matrika in λd varianca šuma. Rang
matrike Rd je K, kar pomeni, da se šum nahaja v
celotnem prostoru K. Iz enačbe (1) ob upoštevanju
enačbe (2) sledi, da je:
dVxy += . (5)
Kovariančno matriko vektorja y lahko zapišemo tudi v
naslednji obliki:
d
T
x
T
y E RVVRyyR +== }{ . (6)
Matrika Ry je Hermitna. Upoštevajoč spektralni teorem
[6] obstaja dekompozicija matrike Ry na lastne
vrednosti in lastne vektorje. Dekompozicijo zapišemo z
enačbo:
T
yy UUΛR = . (7)
Pri tem je U = [u1, ..., uK]K×K ortonormalna matrika
lastnih vektorjev in ΛΛΛΛy diagonalna matrika lastnih
vrednosti ΛΛΛΛy = diag(λy[1], ..., λy[K]). Ker je šum beli oz.
Rd diagonalna matrika, so lastni vektorji matrike Ry
hkrati tudi lastni vektorji matrik Rs in Rd, lastne
Metoda signalnega podprostora s sprotno oceno šuma in njena uspešnost pri robustnem razpoznavanju govora 231
vrednosti pa so vsota lastnih vrednosti matrik Rs in Rd
[1]. Zato velja, da je:
.
oz.
T
d
T
y
T
s
T
d
T
y
T
x
UUUUΛUUΛ
UUUUΛVVR
λ
λ
−=
−=
(8)
Lastne vrednosti matrike Rs sedaj zapišemo z:



+=
=−
=
.1 za0
1 za][
][
, ..., K Mk
M, ..., kk
k dys
λλ
λ  (9)
Zmanjševanje nivoja šuma realiziramo z modifikacijo
λy[k]. V [1] je podanih več optimalnih linearnih cenilk.
Mi smo se osredotočili na cenilko SDC, ki je optimalna
v smislu minimalizacije energije popačenj govornega
signala glede na omejeno energijo preostalega šuma
posamezne spektralne komponente. Takrat posamezno
lastno vrednost λy[k] modificiramo s pomočjo faktorja:
Mk
k
k
kg
ds
s
SDC ...,,1,
][
][
][ =






+
=
γ
λλ
λ
. (10)
Pri tem je γ ≥ 0,5 eksperimentalno določena konstanta, s
katero spreminjamo nivo preostalega šuma in popačenja
govornega signala. Z naraščanjem konstante γ  se
energija preostalega šuma zmanjšuje, povečujejo pa se
popačenja govornega signala.
Nekorelirane lastne vrednosti λy izračunamo s
transformacijo Karhunen-Loève (KLT) oz. z analizo
glavnih komponent (PCA). Dimenziji prostora K in
podprostora M na splošno nista znani, zato ju izberemo
sami. Glede na izbrano dimenzijo K dobimo s
transformacijo KLT optimalno rešitev, v smislu
minimalne srednje kvadratne napake, iz M<K lastnih
vrednosti rekonstruiranega signala [5].
2.1 Uporaba hitre transformacije DCT
Računska zahtevnost transformacije KLT narašča s
četrto potenco dolžine transformiranega vektorja y.
Velika računska zahtevnost metod zmanjševanja nivoja
šuma je nezaželena, saj slabo vpliva na odzivni čas
sistemov ARG.
Znano je, da lahko tvorjenje govornega signala v
govornem traktu modeliramo z avtoregresivnim
procesom [7]. Tak model imenujemo vir-filter model
[7]. Prav tako je  dokazano [4], da lahko lastne vrednosti
kovariančne matrike avtoregresivnega procesa
aproksimiramo s pomočjo transformacije DCT. Pri tem
ne gre za direktno uporabo transformacije DCT, pač pa
je s koeficienti transformacije DCT, definirana nova
transformacijska matrika. Ker obstaja možnost izračuna
približnih lastnih vrednosti in zaradi bistveno manjše
računske zahtevnosti smo se odločili za uporabo
transformacije DCT oz. v [4] predlaganega postopka s
hitro transformacijo DCT (metoda FDCT). Z metodo
FDCT vektor približnih lastnih vrednosti izračunamo po
enačbi:
yy Brλ =ˆ , (11)
pri tem je Tyyyy K ])[ˆ...,],2[ˆ],1[ˆ(ˆ λλλ=λ  vektor pribli-
žnih lastnih vrednosti, ry = (ry[0], ry[1], …, ry[K-1])
T
avtokorelacijski vektor in KKijb ×= ][B  matrika, katere
elementi so:






≤≤
=
=
∑
∑
+−
=
−+
=
.2,2
1,
1
1
1,,
1
2
,
Kjcc
jc
b jK
k
jkiki
K
k
ki
ij  (12)
Pri tem je bij j-ti element i-te vrstice matrike B in ci,j j-ti
element i-te vrstice matrike DCT. Računska
kompleksnost metode FDCT narašča z drugo potenco
števila lastnih vrednosti K [4].
3 Ocenjevanje lastnih vrednosti
V naslednjem poglavju predstavljamo predlagan
postopek ocenjevanja lastnih vrednosti poljubnih
signalov šuma in govora brez neposredne detekcije
intervalov aktivnosti govora.
V realnem okolju so situacije s stacionarnim šumom
izredno redke. Še redkeje imamo opravka z belim
šumom. Zato je smiselno poiskati rešitev, ki je primerna
za poljubne časovno spremenljive šume. Podobno kot za
signal govora tudi za signal šuma predpostavimo kvazi-
stacionarnost. To pomeni, da lahko avtokorelacijske
koeficiente šumnega signala ocenimo v dovolj kratkih
časovnih intervalih. Ob predpostavki nekoreliranosti
med signaloma govora in šuma lahko zapišemo enačbo:
dsy rrr += , (13)
pri čemer sta rs in rd avtokorelacijska vektorja signalov
govora in šuma. Iz enačbe (11) sedaj sledi:
.ˆˆ
)(ˆ
ds
dsy
λλ
rrBλ
+=
+=
(14)
sλ̂  in dλ̂  sta približna lastna vektorja matrik Rs in Rd.
Na voljo imamo samo šumni govorni signal, zato
določitev sλ̂  in dλ̂  ni trivialna.
3.1 Lastne vrednosti šumnega signala
Na podlagi opazovanja smo ugotovili, da ima spekter
približnih lastnih vrednosti yλ̂  značilno obliko lokalnih
minimumov in maksimumov (slika 1) in da lokalni
Jarc, Babič 232
minimumi sovpadajo z intervali aktivnosti govora. Zato
lahko s pomočjo sledenja minimumov )(ˆ wyλ  med sosed-
njimi časovnimi intervali ocenimo )(ˆ wdλ . Pri tem smo z
w označili indeks trenutnega časovnega intervala. V [8]
je predstavljena ocena močnostnega spektra šumnega
signala na podlagi statističnega minimuma. Tako je
močnostni spekter šumnega signala ocenjen z amplitudo
močnostnega spektra šumnega govornega signala v
območjih lokalnih minimumov. Za ocenjevanje lastnih
vrednosti )(ˆ wdλ  predlagamo izboljšan pristop.
Slika 1: Ocena dλ̂  na podlagi sledenja minimumov yλ̂ (k=40,
β=0,94, časovni interval iskanja minimuma je 0,5s)
Figure 1. Minimum tracking-based estimation of dλ̂  from yλ̂
(k=40 β=0,94, interval for minimum searching is 0,5s).
Ker obstaja koreliranost med posameznimi
komponentami časovno sosednjih lastnih vektorjev,
predlagamo iskanje minimuma k-te lastne vrednosti tudi
v prihodnjih in ne le v predhodnih časovnih intervalih
ter glajenje časovno zaporednih lastnih vrednosti z
rekurzivno enačbo prvega reda. Posamezno komponento
vektorja )(ˆ wdλ  tako ocenimo z enačbo:
....,,
),ˆmin()1(ˆˆ )()1()(
WwWwn
λλλ
n
y
w
d
w
d
+−=
−+= − ββ
(15)
Pri tem je β  rekurzivni koeficient v mejah β ∈ [0, 1), w
je indeks časovnega intervala, )ˆmin( )(nyλ  je minimalna
vrednost )(ˆ nyλ  in 2W+1 je število sosednjih časovnih
intervalov, uporabljenih pri iskanju minimalne
vrednosti. Zaradi preglednosti smo v enačbi (15)
izpustili indeks komponent vektorja k.
Koeficient β določa časovno konstanto oz. stopnjo
pomnjenja predhodne lastne vrednosti. Ker smo na
začetku prispevka predpostavili, da imamo opravka s
poljubnim šumom, analitična določitev β ni mogoča.
Koeficient β smo določili eksperimentalno s
poslušanjem ocenjenega govornega signala. Najboljše
rezultate smo dosegali z vrednostmi v območju β = 0,9
÷ 0,95. Izbira števila intervalov 2W+1 oz. ustreznega
časovnega intervala iskanja minimuma je kompromis
med primernostjo metode za zelo spremenljive šumne
signale in verjetnostjo, da bomo izbrali lastne vrednosti
šumnega signala brez govora. Slednje je močno odvisno
od narave govornega signala. Testi nad zaporedji števk
v različnih šumnih okoljih so pokazali dobre rezultate,
pri iskanju minimuma v intervalih dolžine od 0,3s ÷ 1s.
Primer ocene dλ̂  iz yλ̂  po enačbi (15) prikazuje slika 1.
Izbrali smo časovni interval iskanja minimuma 0,5s in
rekurzivni faktor β = 0,94. Predlagan postopek
ocenjevanja dλ̂  vnaša v proces ARG končno zakasnitev
(0,25s) odziva  razpoznavalnika in je slabost našega
postopka.
Uspešnost predlaganega postopka ocenjevanja dλ̂
smo primerjali s postopkom, podanim v [8]. Podobno
kot v [8] smo generirali naključni časovno diskretni
signal z varianco σ 2 = 1 in primerjali varianco lastnih
vrednosti dλ̂ . Pri tem smo avtokorelacijske vektorje ry
dimenzije 50 ocenjevali v intervalih z 800 otipki in s
prekrivanjem med intervali 750 otipkov. )(ˆ wyλ  smo
izračunali z enačbo (14) in )(ˆ wdλ  z enačbo (15). Izbrali
smo rekurzivni faktor β = 0,94, število intervalov W, pa
smo spreminjali v mejah od 1 do 50. Iz rezultatov na
sliki 2 je razvidna manjša varianca s predlaganim
postopkom ocenjenih lastnih vrednosti za W > 5, kar
potrjuje večjo uspešnost predlaganega pristopa. To so
potrdili tudi rezultati ARG.
Slika 2: Varianca lastnih vrednosti dλ̂  ocenjenih s (15) (polna
črta) in po postopku, predlaganem v [8] (prekinjena črta)
Figure 2. Variance of eigenvalues dλ̂  estimated with (15)
(solid line) and using the approach proposed in [8] (dashed
line).
3.2 Lastne vrednosti govornega signala
Glede na enačbo (14) izračunamo sλ̂  z razliko yλ̂  in
dλ̂ . Komponente sλ̂  ne morejo biti negativne, zato tak
izračun kombiniramo s funkcijo polvalnega usmerjanja
oz. s funkcijo praga, s pragom pri vrednosti nič.
Eksperimentalni rezultati so pokazali, da opisan
subtraktivni izračun sλ̂ , povzroči nastanek motenj
podobnih tako imenovanemu “glasbenemu šumu”
(pojav tonalnih komponent zaradi variabilnosti yλ̂  in
odštevanja glajenega spektra dλ̂ , ang. musical noise).
Pojav je dobro poznan iz metod zmanjševanja nivoja
šuma na podlagi spektralnega odštevanja [7, 9] in je
najbolj moteč v področjih spektra z majhnim razmerjem
signal-šum (razmerje SNR). Klasičen pristop k
maskiranju glasbenega šuma je podan v [9]. Moteč
pojav naključnih spektralnih vrhov pri nizkih razmerjih
Metoda signalnega podprostora s sprotno oceno šuma in njena uspešnost pri robustnem razpoznavanju govora 233
SNR je zmanjšan z odštevanjem tudi do petkrat večje
amplitude šuma od ocenjene. Eksperimenti z ARG so
pokazali, da tak pristop k oceni sλ̂  ne zagotavlja
največjega števila pravilno razpoznanih besed.
K temu pripomore tudi omejena uspešnost postopka
ocenjevanja dλ̂ ,  opisanega v prejšnjem podpoglavju.
Zaradi zahteve, da je postopek primeren tudi za
spremenljive šume, smo izbrali kratek interval iskanja
minimuma (0,5s), ki ne zagotavlja detekcije lastnih
vrednosti šumnega signala izključno v intervalih brez
govora. Posledično lahko v energijsko šibkih intervalih
začetkov in koncev besed lastne vrednosti šumnega
govornega signala napačno opredelimo kot lastne
vrednosti šuma oz. precenimo komponente dλ̂ . Zato
predlagamo izračun sλ̂ , kjer z razmerjem SNR
zmanjšamo vpliv netočne ocene dλ̂  na vrednost sλ̂ .
Definirajmo razmerje SNR z enačbo:
,,...,1,][ˆ])[ˆ][ˆ(][ )()()()( KkkλkλkλkSNR wd
w
d
w
y
w =−=  (16)
pri čemer je k indeks komponent vektorja SNR in w je
indeks časovnega intervala. Zaradi precenjenosti dλ̂
lahko imajo komponente vektorja SNR vrednost nič
tudi, ko so dejanske lastne vrednosti govornega signala
od nič različne oz. je govor aktiven. Ker pri ničelnem
razmerju SNR informacije o dejanskih lastnih vredno-
stih govora nimamo, smo jih ocenili kar z lastnimi
vrednostmi šumnega govora. Z naraščanjem razmerja
SNR je vpliv netočne vrednosti dλ̂  na subtraktivno izra-
čunano vrednost sλ̂  manjši, zato smo delež odštevanca
dλ̂  z razmerjem SNR povečevali od vrednosti nič do
celotne vrednosti dλ̂ . Linearno povečevanje odštevanca
ni dalo želenih rezultatov. Zato smo izbrali eksponentno
povečevanje odštevanca, kot opisuje enačba:
....,,1),1]([ˆ][ˆ][ˆ ][)()()(
)(
Kkekλkλkλ kSNRwd
w
y
w
s
w
=−−= − (17)
Pri tako ocenjenem spektru sλ̂  ni bilo težav z
nastankom glasbenemu šumu podobnih motenj. Z
uporabo enačbe (17) dobimo iz enačbe (10) množitelj za
modifikacijo lastnih vrednosti yλ̂ .
4 Detekcija aktivnosti govora
Večina metod za detekcijo aktivnosti govora (VAD),
kot odločitveno funkcijo, govor je oz. ni prisoten,
uporablja funkcijo na podlagi razmerja SNR [7]. Takšne
so tudi statistične metode [10, 12]. V naslednjem
poglavju je predstavljena metoda VAD na podlagi
avtokorelacijskih koeficientov ry.
Na splošno lahko govor delimo na zvenečega in
nezvenečega. Njegovo tvorjenje opisujemo kot
filtriranje zračnega toka s prenosno funkcijo govornega
trakta. Pri zvenečem govoru moduliramo zračni tok z
nihanjem glasilk. Posledično sta zveneči in nezveneči
govor korelirana signala. Zato je smotrno stopnjo
koreliranosti uporabiti za detekcijo aktivnosti govora.
Stopnjo koreliranosti y bomo ovrednotili s prvo normo
vektorja ry, kar zapišemo z enačbo:
1
)()( |||| wy
w
y r=Γ . (18)
Predpostavimo, da je šumni signal šibkeje koreliran od
govornega signala in da je v točkah minimumov )(wyΓ
aktiven samo šum oz. da velja ry = rd. Stopnjo
koreliranosti šumnega signala )(wdΓ  lahko takrat
ocenimo s sledenjem minimumov funkcije )(wyΓ  oz. z
enačbo, analogno enačbi (15). Primer ocene )(wdΓ  iz
)(w
yΓ  prikazuje slika 3 b). Izbrali smo časovni interval
iskanja minimuma 0,5s in faktor β = 0,94.
Slika 3: Metoda VAD na podlagi avtokorelacije: a) Šumni
govor, b) Ocena dΓ  na podlagi sledenja minimumov yΓ ,
c) Funkcija ojačenja gVAD
Figure 3. Autocorrelation-based VAD method: a) Noisy
speech, b) Minimum tracking-based estimation of dΓ  from
yΓ , c) VAD gain function.
Definirajmo funkcijo za detekcijo aktivnosti govora
z enačbo:
)(
)(
)( 1
w
y
w
dw
VADg Γ
Γ
−=
µ
. (19)
Pri tem je µ empirično izbrano realno število v mejah
0 < µ ≤ 1, s katerim zmanjšamo vpliv precenitve )(wdΓ
oz. določimo spodnjo mejo funkcije )(wVADg . Če je µ = 1,
vpliv precenitve )(wdΓ  ni kompenziran oz. je spodnja
meja gVAD enaka nič. Časovni potek gVAD pri
µ = 1 prikazuje slika 3 c).
Jarc, Babič 234
5 Eksperimentalni rezultati
Uspešnost predlagane metode smo potrdili z rezultati
avtomatskega razpoznavanja govora v eksperimentalnih
okoljih Aurora 2 [13] in 3 [16]. Okolje Aurora 2
sestavljajo zaporedja angleških števk različnih
govorcev. Vsebuje čiste govorne signale, signale govora
z dodanimi različnimi šumnimi signali pri različnih
razmerjih SNR ter modele za učenje in testiranje.
Govorno gradivo je razdeljeno na tri dele: A, B in C.
Glede na učno gradivo so eksperimenti razdeljeni na
dve učno-testni skupini: učenje na čistem govoru (UČG)
ter učenje na čistem in šumnem govoru (UŠG).
Govorno gradivo Aurore 3 je del večje multijezikovne
baze SDC (ang.: “SpeechDat Car”). Zajema števke
štirih evropskih jezikov: nemški, španski, danski in
finski. Vsako zaporedje števk je posneto z bližnjim in
oddaljenim mikrofonom. Glede na ujemanje učnega in
testnega okolja so eksperimenti v okolju Aurora 3
razdeljeni na tri učno-testne skupine: dobro ujemanje
(DU), srednje neujemanje (SN) in veliko neujemanje
(VN). V obeh okoljih je izračun kepstralnih vektorjev
realiziran po standardni Aurora WI007 predlogi [15] in
razpoznavanje izvedeno z razpoznavalnikom HTK [14].
Predprocesiranje šumnega govornega signala smo
izvajali z metodo signalnega podprostora s pomočjo
transformacije FDCT. Avtokorelacijske vektorje ry
dimenzije 50 smo ocenjevali v intervalih z 800 otipki in
s prekrivanjem med intervali 750 otipkov. Glede na
podatek o frekvenci vzorčenja govornega gradiva
fs = 8kHz je bil čas trajanja intervalov 100ms in
prekrivanje med sosednjimi intervali 93,75ms. V
vsakem intervalu smo po enačbi (11) izračunali vektor
yλ̂  in z rekurzivno enačbo (15) komponente vektorja
dλ̂  pri K = 50. Pri tem smo izbrali rekurzivni koeficient
β = 0,94 in število sosednjih intervalov za iskanje
minimuma 2W+1 = 80. Komponente vektorja sλ̂  smo
izračunali z enačbo (17) in komponente vektorja gSDC z
enačbo (10) pri K=M=50. Aktivnost govora smo
upoštevali po enačbi (19). Koeficienta γ = 4 in µ = 0,5
smo določili empirično na podlagi rezultatov ARG.
Čisti govorni signal smo ocenili s cenilko:
)()()(1)( }{ wwSDC
w
VAD
w g ygBs −= T . (20)
Pri tem je w indeks časovnega intervala, B-1 inverzna
matrika B in T{.} Toeplitzov operator.
Absolutne vrednosti uspešnosti razpoznavanja besed
v eksperimentalnem okolju Aurora 2 prikazuje tabela 1.
Vrednosti so podane v odstotkih. Dosegli smo vrednosti
89,38% in 78,41% za primera učenja na šumnem (UŠG)
ter na čistem govoru (UČG) oz. relativno izboljšanje
rezultatov za 15,29% in 55,68% glede na referenco v
[13]. Predvsem za učenje na šumnem govoru smo tako
izboljšali rezultate, objavljene v [11] in [12], kjer je bilo
doseženo relativno izboljšanje 30,57% oz. 35,42%.
Učenje Del A Del B Del C Vsota a
UŠG b 90,94 88,76 87,51 89,38
UČG c 79,60 74,73 83,40 78,41
Povprečje 85,27 81,75 85,46 83,90
Tabela 1: Absolutna uspešnost razpoznavanja besed  v
eksperimentalnem okolju Aurora 2. a Utežna vsota z utežmi
0,4, 0,4 in 0,2. b Učenje na šumnem govoru. c Učenje na
čistem govoru.
Table 1. Absolute word accuracy results in Aurora 2
experimental framework. a Weighted sum with weights 0.4,
0.4 and 0.2. b Multicondition training. c Clean only training.
Absolutne vrednosti uspešnosti razpoznavanja besed v
okolju Aurora 3 prikazuje tabela 2. Dosegli smo skupno
absolutno uspešnost razpoznavanja besed 78,29% oz.
relativno izboljšanje 10,86% glede na [16].
Ujemanje učno-test. okolja Jezik
DUa SNb VNc
Vsota d
Finščina 90,53 72,50 30,35 69,17
Španščina 94,13 86,68 70,17 85,53
Nemščina 93,05 87,63 84,00 88,89
Danščina 85,89 64,41 50,59 69,55
Povprečje 90,90 77,81 58,78 78,29
Tabela 2: Absolutna uspešnost razpoznavanja besed v
eksperimentalnem okolju Aurora 3. a Dobro ujemanje.
b Srednje neujemanje. c Veliko neujemanje. d Utežna vsota z
utežmi 0,4, 0,35 in 0,25.
Table 2. Absolute word accuracy results in Aurora 3
experimental framework. a Well matched. b Medium
mismatch. c High mismatch. d Weighted sum with weights 0.4,
0.35 and 0.25.
Rezultati skupne absolutne uspešnosti razpoznavanja
besed v okoljih Aurora 2 in 3, ki so 83,90% in 78,29%,
ne presegajo rezultatov metode, podane v [17] (89,29%
in 90,77%). V [17] podana metoda je vrhunec skupnih
prizadevanj podjetij Motorola, Francoski telekom in
Alcatel ter je vključena v standardni algoritem robustne
parametrizacije govora [18].
Iz tabel 1 in 2 vidimo, da je predlagana metoda
uspešna v obeh eksperimentalnih okoljih. Zmerno
relativno izboljšanje v okolju Aurora 3 je posledica
rezultatov ARG finskih števk, kjer nismo dosegli
izboljšanja glede na rezultate v [16]. Predvidevamo, da
je vzrok v hitri zaporedni izgovarjavi števk, kjer daje
metoda ocene šuma s sledenjem minimumov slabše
rezultate. Drugi vzrok je različno šumno okolje. Velik
del števk finske baze je posnet z glasbo v ozadju.
Glasba je močno koreliran signal in jo posledično
predlagana metoda napačno opredeli kot govor. To
potrjujejo rezultati v okolju Aurora 2, kjer je bila
uspešnost metode odvisna od šumnega okolja in
najslabša pri govoru iz ozadja (ang.: babble).
Metoda signalnega podprostora s sprotno oceno šuma in njena uspešnost pri robustnem razpoznavanju govora 235
6 Sklep
V prispevku smo prestavili metodo zmanjševanja nivoja
šuma na podlagi teorije signalnega podprostora s
sprotno oceno šuma. Metodo, ki je primerna le za beli
šum, smo posplošili za primere poljubnega, časovno
spremenljivega šuma. Predlagali smo postopek
ocenjevanja lastnih vrednosti šumnega in govornega
signala na podlagi razmerja SNR ter postopek detekcije
intervalov aktivnosti govora z uporabo avtokorelacijskih
koeficientov. Uspešnost metode zmanjševanja nivoja
šuma smo potrdili z rezultati ARG v eksperimentalnih
okoljih Aurora 2 in Aurora 3. Dosegli smo skupno
relativno izboljšanje razpoznavanja besed 35,49% za
eksperimentalno okolje Aurora 2 in 10,86% za
eksperimentalno okolje Aurora 3 glede na referenčne
rezultate v [13, 16].
7 Literatura
[1] Y. Ephraim, H. L. Van Trees, “A signal subspace
approach for speech enhancement,” IEEE
Transactions on Speech and Audio Processing,
Volume: 3 Issue: 4 , July 1995, Page(s): 251 -266.
[2] S. H. Jensen, P. C. Hansen, S. D. Hansen, J. A.
Sörensen, “Reduction of broad-band noise in
speech by truncated QSVD,” IEEE Transactions
on Speech and Audio Processing, vol. 3, no. 6, pp.
439-448, Nov. 1995.
[3] P. S. K. Hansen, “Signal Subspace Methods for
Speech Enhancement”, Ph.D. Thesis, Technical
Univ. of Denmark, Lyngby, Denmark, Sept. 1997.
[4] J. Huang, Y. Zhao, “A DCT-Based Fast Signal
Subspace Technique for Robust Speech Recogniti-
on”, IEEE Transactions on Speech and Audio
Processing, Vol. 8, No. 6, pp. 747-751, Nov. 2000.
[5]  N. Pavešić, “Razpoznavanje vzorcev: Uvod v
analizo in razumevanje vidnih in slušnih signalov”,
Fakulteta za elektrotehniko, Ljubljana, 2000.
[6] M. H. Hayes, “Statistical digital signal processing
and modeling,” John Wiley & sons, inc., New
York, 1996.
[7] Deller, R. J., Proakis J. G. and Hansen, J. H. L.,
“Discrete-Time Processing of Speech Signal”,
Macmillan Publishing Company, 1993.
[8] R. Martin, “Spectral subtraction based on
minimum statistics,” Proc. of the 7th European
Signal Proc. Conf., pp. 1182-1185, Sept. 1994.
[9] M. Berouti, R. Schwartz, J. Makhoul, “Enhance-
ment of speech corrupted by acoustic noise,”
ICASSP '79, vol. 4, pp. 208–211, Apr. 1979.
[10] J. Sohn, N. S. Kim, W. Sung, “A Statistical Model-
Based Voice Activity Detection,” IEEE Signal
Processing Letters, vol. 6, no. 1, Jan. 1999.
[11] B. Jarc, R. Babič, “Second Order Statistics
Spectrum Estimation Method for Robust Speech
Recognition,” Eurospeech 2001, Proceedings, pp.
229-232, Sep. 2001.
[12] B. Jarc, R. Babič, “Izboljšanje natančnosti
razpoznavanja govora z določanjem njegove
aktivnosti na podlagi statističnega modela,”
Elektroteh. vestn., 2002, zvez. 69, št. 1, str. 75-81.
[13] H. G. Hirsch, D. Pearce, “The AURORA Experi-
mental Framework for the Performance Evaluati-
ons of Speech Recognition Systems under Noisy
Conditions”, ISCA ITRW ASR2000 “Automatic
Speech Recognition: Challenges for the Next
Millennium”; Paris, France, Sept. 18-20, 2000.
[14] S. Young, J. Odell, D. Ollason, V. Valtchev, P.
Woodland, “The HTK Book (for HTK Version
3.0)”, July 2000, Microsoft Corporation.
[15] ETSI standard document - ETSI ES 201 108
v1.1.1, “Speech Processing, Transmission and
Quality Aspects (STQ); Distributed speech
recognition; Front-end feature extraction
algorithm; Compression algorithm”, Feb. 2000.
[16] Aurora documents, AU/225/00, AU/271/00,
AU/273/00, AU/378/01, Finnish, Spanish, German,
Danish databases for ETSI STQ Aurora WI008
advanced DSR front-end evaluation: description
and baseline results, 2000.
[17] Aurora documents, “Motorola - France Télécom -
Alcatel Advanced Front End Proposal,” Adopted
by ETSI for DSR advanced front-end evaluation,
Jan 2002.
[18] ETSI standard document - ETSI ES 202 050 v1.1.5,
“Distributed Speech Recognition; Advanced Front-
end Feature Extraction Algorithm; Compression
Algorithm”, Jan. 2007.
Bojan Jarc je diplomiral leta 1992, magistriral leta 1999 in
doktoriral leta 2003 na Fakulteti za elektrotehniko,
računalništvo in informatiko v Mariboru. Zaposlen je na
Fakulteti za elektrotehniko, računalništvo in informatiko,
Inštitut za elektroniko, kot asistent. Njegovo raziskovalno
področje so robustno avtomatsko razpoznavanje govora,
obdelava signalov in digitalna sita.
Rudolf Babič je diplomiral leta 1970 in magistriral leta 1980
na Fakulteti za elektrotehniko v Ljubljani. Doktoriral je leta
1991 na Fakulteti za elektrotehniko, računalništvo in
informatiko v Mariboru. Zaposlen je na Fakulteti za
elektrotehniko, računalništvo in informatiko, Inštitut za
elektroniko, kot visokošolski predavatelj in je vodja
Laboratorija za elektronske sisteme. Njegovo raziskovalno
področje so obdelava signalov, načrtovanje in izdelava
elektronskih vezij, sistemov in naprav ter načrtovanje in
izvedba analognih in digitalnih sit.