1 Uvod Zadnjih nekaj let so opazna velika prizadevanja tako izdelovalcev telekomunikacijskih naprav kot tudi širše strokovne javnosti za izboljšanje uspešnosti avtomatskega razpoznavanja govora (ARG) v različnih šumnih okoljih. Da bi spodbudili razvoj in dosegli standardizacijo čim uspešnejšega algoritma, je skupina Aurora, ki deluje v okviru evropskega inštituta za standardizacijo v telekomunikacijah (ang.: “European Telecommunications Standard Institute - ETSI”), izdala eksperimentalna okolja Aurora 2, 3 in 4. Kljub dolgotrajnim prizadevanjem na tem področju trenutna uspešnost razpoznavanja govora v šumnem okolju še vedno ne zadovoljuje vseh vidikov, potrebnih za uspešno komercialno rabo. V naslednjem prispevku predstavljamo metodo zmanjševanja nivoja šuma na podlagi teorije signalnega podprostora s sprotno oceno šuma. Različne metode na podlagi teorije signalnega podprostora so predstavljene v [1, 2, 3, 4]. V osnovi temeljijo na izračunu lastnih vrednosti Toeplitzove avtokorelacijske matrike signala šumnega govora in obravnavajo primere, ko je signalu govora dodan beli šum. Njihova uspešnost v sistemih ARG ni znana. V našem prispevku bomo predstavili metodo na podlagi teorije signalnega podprostora, primerno za poljubne šume okolja, ter podali njeno uspešnost v sistemu ARG. Prispevek je organiziran kot sledi. V drugem poglavju je opisana teorija signalnega podprostora in v tretjem postopek ocenjevanja lastnih vrednost za poljubne šume. Metoda detekcije intervalov aktivnosti govora je predstavljena v četrtem poglavju, v petem pa so predstavljeni rezultati. 2 Teorija signalnega podprostora V tem poglavju je na kratko povzeta teorija signalnega podprostora predstavljena v [1]. Govorni signal je predstavljen z linearnim modelom. Predpostavljeno je, da sta signala govora in šuma nekorelirana in aditivna. Zaporedje otipkov signala šumnega govora v vektorski obliki zapišemo z enačbo: dsy += . (1) Pri tem so y, s in d vektorji dimenzij K, in sicer: šumnega govornega signala, signala govora in signala šuma. Vektor y je v prostoru K. Glede na predpostavljeni, linearni model je v [1] vektor s definiran z enačbo: Vxs = . (2) Pri tem je V = [v, ..., vM]K×M matrika linearnih neodvisnih baznih vektorjev, x = (x[1], ..., x[M])T pa vektor naključnih spremenljivk s srednjo vrednostjo nič. Rang matrike V je M in velja, da je M ≤ K. Kadar je M < K, leži poljubna množica vektorjev {s} v podprostoru prostora K. Podprostor imenujemo signalni podprostor. Avtorja v [1] predvidevata, da je srednja vrednost vektorja s enaka nič (µs = 0) oz. da je kovariančna matrika enaka avtokorelacijski matriki: T x T s E VVRssR == }{ . (3) Pri tem je “T” operator transponiranje, E{.} matematič- no upanje in Rx kovariančna oz. avtokorelacijska matrika vektorja x. Ker je rang matrike rang(Rs) = M, ima matrika K-M ničelnih lastnih vrednosti. Za vektor signala šuma d sta avtorja v [1] predvidela Gaussovo porazdelitev s srednjo vrednostjo µd = 0 in varianco λd. Kovariančna matrika šuma, izračunana z avtokorelacijsko, je naslednja: IddR d T d E λ== }{ . (4) Pri tem je I enotina matrika in λd varianca šuma. Rang matrike Rd je K, kar pomeni, da se šum nahaja v celotnem prostoru K. Iz enačbe (1) ob upoštevanju enačbe (2) sledi, da je: dVxy += . (5) Kovariančno matriko vektorja y lahko zapišemo tudi v naslednji obliki: d T x T y E RVVRyyR +== }{ . (6) Matrika Ry je Hermitna. Upoštevajoč spektralni teorem [6] obstaja dekompozicija matrike Ry na lastne vrednosti in lastne vektorje. Dekompozicijo zapišemo z enačbo: T yy UUΛR = . (7) Pri tem je U = [u1, ..., uK]K×K ortonormalna matrika lastnih vektorjev in ΛΛΛΛy diagonalna matrika lastnih vrednosti ΛΛΛΛy = diag(λy[1], ..., λy[K]). Ker je šum beli oz. Rd diagonalna matrika, so lastni vektorji matrike Ry hkrati tudi lastni vektorji matrik Rs in Rd, lastne Metoda signalnega podprostora s sprotno oceno šuma in njena uspešnost pri robustnem razpoznavanju govora 231 vrednosti pa so vsota lastnih vrednosti matrik Rs in Rd [1]. Zato velja, da je: . oz. T d T y T s T d T y T x UUUUΛUUΛ UUUUΛVVR λ λ −= −= (8) Lastne vrednosti matrike Rs sedaj zapišemo z:    += =− = .1 za0 1 za][ ][ , ..., K Mk M, ..., kk k dys λλ λ (9) Zmanjševanje nivoja šuma realiziramo z modifikacijo λy[k]. V [1] je podanih več optimalnih linearnih cenilk. Mi smo se osredotočili na cenilko SDC, ki je optimalna v smislu minimalizacije energije popačenj govornega signala glede na omejeno energijo preostalega šuma posamezne spektralne komponente. Takrat posamezno lastno vrednost λy[k] modificiramo s pomočjo faktorja: Mk k k kg ds s SDC ...,,1, ][ ][ ][ =       + = γ λλ λ . (10) Pri tem je γ ≥ 0,5 eksperimentalno določena konstanta, s katero spreminjamo nivo preostalega šuma in popačenja govornega signala. Z naraščanjem konstante γ se energija preostalega šuma zmanjšuje, povečujejo pa se popačenja govornega signala. Nekorelirane lastne vrednosti λy izračunamo s transformacijo Karhunen-Loève (KLT) oz. z analizo glavnih komponent (PCA). Dimenziji prostora K in podprostora M na splošno nista znani, zato ju izberemo sami. Glede na izbrano dimenzijo K dobimo s transformacijo KLT optimalno rešitev, v smislu minimalne srednje kvadratne napake, iz M 5, kar potrjuje večjo uspešnost predlaganega pristopa. To so potrdili tudi rezultati ARG. Slika 2: Varianca lastnih vrednosti dλ̂ ocenjenih s (15) (polna črta) in po postopku, predlaganem v [8] (prekinjena črta) Figure 2. Variance of eigenvalues dλ̂ estimated with (15) (solid line) and using the approach proposed in [8] (dashed line). 3.2 Lastne vrednosti govornega signala Glede na enačbo (14) izračunamo sλ̂ z razliko yλ̂ in dλ̂ . Komponente sλ̂ ne morejo biti negativne, zato tak izračun kombiniramo s funkcijo polvalnega usmerjanja oz. s funkcijo praga, s pragom pri vrednosti nič. Eksperimentalni rezultati so pokazali, da opisan subtraktivni izračun sλ̂ , povzroči nastanek motenj podobnih tako imenovanemu “glasbenemu šumu” (pojav tonalnih komponent zaradi variabilnosti yλ̂ in odštevanja glajenega spektra dλ̂ , ang. musical noise). Pojav je dobro poznan iz metod zmanjševanja nivoja šuma na podlagi spektralnega odštevanja [7, 9] in je najbolj moteč v področjih spektra z majhnim razmerjem signal-šum (razmerje SNR). Klasičen pristop k maskiranju glasbenega šuma je podan v [9]. Moteč pojav naključnih spektralnih vrhov pri nizkih razmerjih Metoda signalnega podprostora s sprotno oceno šuma in njena uspešnost pri robustnem razpoznavanju govora 233 SNR je zmanjšan z odštevanjem tudi do petkrat večje amplitude šuma od ocenjene. Eksperimenti z ARG so pokazali, da tak pristop k oceni sλ̂ ne zagotavlja največjega števila pravilno razpoznanih besed. K temu pripomore tudi omejena uspešnost postopka ocenjevanja dλ̂ , opisanega v prejšnjem podpoglavju. Zaradi zahteve, da je postopek primeren tudi za spremenljive šume, smo izbrali kratek interval iskanja minimuma (0,5s), ki ne zagotavlja detekcije lastnih vrednosti šumnega signala izključno v intervalih brez govora. Posledično lahko v energijsko šibkih intervalih začetkov in koncev besed lastne vrednosti šumnega govornega signala napačno opredelimo kot lastne vrednosti šuma oz. precenimo komponente dλ̂ . Zato predlagamo izračun sλ̂ , kjer z razmerjem SNR zmanjšamo vpliv netočne ocene dλ̂ na vrednost sλ̂ . Definirajmo razmerje SNR z enačbo: ,,...,1,][ˆ])[ˆ][ˆ(][ )()()()( KkkλkλkλkSNR wd w d w y w =−= (16) pri čemer je k indeks komponent vektorja SNR in w je indeks časovnega intervala. Zaradi precenjenosti dλ̂ lahko imajo komponente vektorja SNR vrednost nič tudi, ko so dejanske lastne vrednosti govornega signala od nič različne oz. je govor aktiven. Ker pri ničelnem razmerju SNR informacije o dejanskih lastnih vredno- stih govora nimamo, smo jih ocenili kar z lastnimi vrednostmi šumnega govora. Z naraščanjem razmerja SNR je vpliv netočne vrednosti dλ̂ na subtraktivno izra- čunano vrednost sλ̂ manjši, zato smo delež odštevanca dλ̂ z razmerjem SNR povečevali od vrednosti nič do celotne vrednosti dλ̂ . Linearno povečevanje odštevanca ni dalo želenih rezultatov. Zato smo izbrali eksponentno povečevanje odštevanca, kot opisuje enačba: ....,,1),1]([ˆ][ˆ][ˆ ][)()()( )( Kkekλkλkλ kSNRwd w y w s w =−−= − (17) Pri tako ocenjenem spektru sλ̂ ni bilo težav z nastankom glasbenemu šumu podobnih motenj. Z uporabo enačbe (17) dobimo iz enačbe (10) množitelj za modifikacijo lastnih vrednosti yλ̂ . 4 Detekcija aktivnosti govora Večina metod za detekcijo aktivnosti govora (VAD), kot odločitveno funkcijo, govor je oz. ni prisoten, uporablja funkcijo na podlagi razmerja SNR [7]. Takšne so tudi statistične metode [10, 12]. V naslednjem poglavju je predstavljena metoda VAD na podlagi avtokorelacijskih koeficientov ry. Na splošno lahko govor delimo na zvenečega in nezvenečega. Njegovo tvorjenje opisujemo kot filtriranje zračnega toka s prenosno funkcijo govornega trakta. Pri zvenečem govoru moduliramo zračni tok z nihanjem glasilk. Posledično sta zveneči in nezveneči govor korelirana signala. Zato je smotrno stopnjo koreliranosti uporabiti za detekcijo aktivnosti govora. Stopnjo koreliranosti y bomo ovrednotili s prvo normo vektorja ry, kar zapišemo z enačbo: 1 )()( |||| wy w y r=Γ . (18) Predpostavimo, da je šumni signal šibkeje koreliran od govornega signala in da je v točkah minimumov )(wyΓ aktiven samo šum oz. da velja ry = rd. Stopnjo koreliranosti šumnega signala )(wdΓ lahko takrat ocenimo s sledenjem minimumov funkcije )(wyΓ oz. z enačbo, analogno enačbi (15). Primer ocene )(wdΓ iz )(w yΓ prikazuje slika 3 b). Izbrali smo časovni interval iskanja minimuma 0,5s in faktor β = 0,94. Slika 3: Metoda VAD na podlagi avtokorelacije: a) Šumni govor, b) Ocena dΓ na podlagi sledenja minimumov yΓ , c) Funkcija ojačenja gVAD Figure 3. Autocorrelation-based VAD method: a) Noisy speech, b) Minimum tracking-based estimation of dΓ from yΓ , c) VAD gain function. Definirajmo funkcijo za detekcijo aktivnosti govora z enačbo: )( )( )( 1 w y w dw VADg Γ Γ −= µ . (19) Pri tem je µ empirično izbrano realno število v mejah 0 < µ ≤ 1, s katerim zmanjšamo vpliv precenitve )(wdΓ oz. določimo spodnjo mejo funkcije )(wVADg . Če je µ = 1, vpliv precenitve )(wdΓ ni kompenziran oz. je spodnja meja gVAD enaka nič. Časovni potek gVAD pri µ = 1 prikazuje slika 3 c). Jarc, Babič 234 5 Eksperimentalni rezultati Uspešnost predlagane metode smo potrdili z rezultati avtomatskega razpoznavanja govora v eksperimentalnih okoljih Aurora 2 [13] in 3 [16]. Okolje Aurora 2 sestavljajo zaporedja angleških števk različnih govorcev. Vsebuje čiste govorne signale, signale govora z dodanimi različnimi šumnimi signali pri različnih razmerjih SNR ter modele za učenje in testiranje. Govorno gradivo je razdeljeno na tri dele: A, B in C. Glede na učno gradivo so eksperimenti razdeljeni na dve učno-testni skupini: učenje na čistem govoru (UČG) ter učenje na čistem in šumnem govoru (UŠG). Govorno gradivo Aurore 3 je del večje multijezikovne baze SDC (ang.: “SpeechDat Car”). Zajema števke štirih evropskih jezikov: nemški, španski, danski in finski. Vsako zaporedje števk je posneto z bližnjim in oddaljenim mikrofonom. Glede na ujemanje učnega in testnega okolja so eksperimenti v okolju Aurora 3 razdeljeni na tri učno-testne skupine: dobro ujemanje (DU), srednje neujemanje (SN) in veliko neujemanje (VN). V obeh okoljih je izračun kepstralnih vektorjev realiziran po standardni Aurora WI007 predlogi [15] in razpoznavanje izvedeno z razpoznavalnikom HTK [14]. Predprocesiranje šumnega govornega signala smo izvajali z metodo signalnega podprostora s pomočjo transformacije FDCT. Avtokorelacijske vektorje ry dimenzije 50 smo ocenjevali v intervalih z 800 otipki in s prekrivanjem med intervali 750 otipkov. Glede na podatek o frekvenci vzorčenja govornega gradiva fs = 8kHz je bil čas trajanja intervalov 100ms in prekrivanje med sosednjimi intervali 93,75ms. V vsakem intervalu smo po enačbi (11) izračunali vektor yλ̂ in z rekurzivno enačbo (15) komponente vektorja dλ̂ pri K = 50. Pri tem smo izbrali rekurzivni koeficient β = 0,94 in število sosednjih intervalov za iskanje minimuma 2W+1 = 80. Komponente vektorja sλ̂ smo izračunali z enačbo (17) in komponente vektorja gSDC z enačbo (10) pri K=M=50. Aktivnost govora smo upoštevali po enačbi (19). Koeficienta γ = 4 in µ = 0,5 smo določili empirično na podlagi rezultatov ARG. Čisti govorni signal smo ocenili s cenilko: )()()(1)( }{ wwSDC w VAD w g ygBs −= T . (20) Pri tem je w indeks časovnega intervala, B-1 inverzna matrika B in T{.} Toeplitzov operator. Absolutne vrednosti uspešnosti razpoznavanja besed v eksperimentalnem okolju Aurora 2 prikazuje tabela 1. Vrednosti so podane v odstotkih. Dosegli smo vrednosti 89,38% in 78,41% za primera učenja na šumnem (UŠG) ter na čistem govoru (UČG) oz. relativno izboljšanje rezultatov za 15,29% in 55,68% glede na referenco v [13]. Predvsem za učenje na šumnem govoru smo tako izboljšali rezultate, objavljene v [11] in [12], kjer je bilo doseženo relativno izboljšanje 30,57% oz. 35,42%. Učenje Del A Del B Del C Vsota a UŠG b 90,94 88,76 87,51 89,38 UČG c 79,60 74,73 83,40 78,41 Povprečje 85,27 81,75 85,46 83,90 Tabela 1: Absolutna uspešnost razpoznavanja besed v eksperimentalnem okolju Aurora 2. a Utežna vsota z utežmi 0,4, 0,4 in 0,2. b Učenje na šumnem govoru. c Učenje na čistem govoru. Table 1. Absolute word accuracy results in Aurora 2 experimental framework. a Weighted sum with weights 0.4, 0.4 and 0.2. b Multicondition training. c Clean only training. Absolutne vrednosti uspešnosti razpoznavanja besed v okolju Aurora 3 prikazuje tabela 2. Dosegli smo skupno absolutno uspešnost razpoznavanja besed 78,29% oz. relativno izboljšanje 10,86% glede na [16]. Ujemanje učno-test. okolja Jezik DUa SNb VNc Vsota d Finščina 90,53 72,50 30,35 69,17 Španščina 94,13 86,68 70,17 85,53 Nemščina 93,05 87,63 84,00 88,89 Danščina 85,89 64,41 50,59 69,55 Povprečje 90,90 77,81 58,78 78,29 Tabela 2: Absolutna uspešnost razpoznavanja besed v eksperimentalnem okolju Aurora 3. a Dobro ujemanje. b Srednje neujemanje. c Veliko neujemanje. d Utežna vsota z utežmi 0,4, 0,35 in 0,25. Table 2. Absolute word accuracy results in Aurora 3 experimental framework. a Well matched. b Medium mismatch. c High mismatch. d Weighted sum with weights 0.4, 0.35 and 0.25. Rezultati skupne absolutne uspešnosti razpoznavanja besed v okoljih Aurora 2 in 3, ki so 83,90% in 78,29%, ne presegajo rezultatov metode, podane v [17] (89,29% in 90,77%). V [17] podana metoda je vrhunec skupnih prizadevanj podjetij Motorola, Francoski telekom in Alcatel ter je vključena v standardni algoritem robustne parametrizacije govora [18]. Iz tabel 1 in 2 vidimo, da je predlagana metoda uspešna v obeh eksperimentalnih okoljih. Zmerno relativno izboljšanje v okolju Aurora 3 je posledica rezultatov ARG finskih števk, kjer nismo dosegli izboljšanja glede na rezultate v [16]. Predvidevamo, da je vzrok v hitri zaporedni izgovarjavi števk, kjer daje metoda ocene šuma s sledenjem minimumov slabše rezultate. Drugi vzrok je različno šumno okolje. Velik del števk finske baze je posnet z glasbo v ozadju. Glasba je močno koreliran signal in jo posledično predlagana metoda napačno opredeli kot govor. To potrjujejo rezultati v okolju Aurora 2, kjer je bila uspešnost metode odvisna od šumnega okolja in najslabša pri govoru iz ozadja (ang.: babble). Metoda signalnega podprostora s sprotno oceno šuma in njena uspešnost pri robustnem razpoznavanju govora 235 6 Sklep V prispevku smo prestavili metodo zmanjševanja nivoja šuma na podlagi teorije signalnega podprostora s sprotno oceno šuma. Metodo, ki je primerna le za beli šum, smo posplošili za primere poljubnega, časovno spremenljivega šuma. Predlagali smo postopek ocenjevanja lastnih vrednosti šumnega in govornega signala na podlagi razmerja SNR ter postopek detekcije intervalov aktivnosti govora z uporabo avtokorelacijskih koeficientov. Uspešnost metode zmanjševanja nivoja šuma smo potrdili z rezultati ARG v eksperimentalnih okoljih Aurora 2 in Aurora 3. Dosegli smo skupno relativno izboljšanje razpoznavanja besed 35,49% za eksperimentalno okolje Aurora 2 in 10,86% za eksperimentalno okolje Aurora 3 glede na referenčne rezultate v [13, 16]. 7 Literatura [1] Y. Ephraim, H. L. Van Trees, “A signal subspace approach for speech enhancement,” IEEE Transactions on Speech and Audio Processing, Volume: 3 Issue: 4 , July 1995, Page(s): 251 -266. [2] S. H. Jensen, P. C. Hansen, S. D. Hansen, J. A. Sörensen, “Reduction of broad-band noise in speech by truncated QSVD,” IEEE Transactions on Speech and Audio Processing, vol. 3, no. 6, pp. 439-448, Nov. 1995. [3] P. S. K. Hansen, “Signal Subspace Methods for Speech Enhancement”, Ph.D. Thesis, Technical Univ. of Denmark, Lyngby, Denmark, Sept. 1997. [4] J. Huang, Y. Zhao, “A DCT-Based Fast Signal Subspace Technique for Robust Speech Recogniti- on”, IEEE Transactions on Speech and Audio Processing, Vol. 8, No. 6, pp. 747-751, Nov. 2000. [5] N. Pavešić, “Razpoznavanje vzorcev: Uvod v analizo in razumevanje vidnih in slušnih signalov”, Fakulteta za elektrotehniko, Ljubljana, 2000. [6] M. H. Hayes, “Statistical digital signal processing and modeling,” John Wiley & sons, inc., New York, 1996. [7] Deller, R. J., Proakis J. G. and Hansen, J. H. L., “Discrete-Time Processing of Speech Signal”, Macmillan Publishing Company, 1993. [8] R. Martin, “Spectral subtraction based on minimum statistics,” Proc. of the 7th European Signal Proc. Conf., pp. 1182-1185, Sept. 1994. [9] M. Berouti, R. Schwartz, J. Makhoul, “Enhance- ment of speech corrupted by acoustic noise,” ICASSP '79, vol. 4, pp. 208–211, Apr. 1979. [10] J. Sohn, N. S. Kim, W. Sung, “A Statistical Model- Based Voice Activity Detection,” IEEE Signal Processing Letters, vol. 6, no. 1, Jan. 1999. [11] B. Jarc, R. Babič, “Second Order Statistics Spectrum Estimation Method for Robust Speech Recognition,” Eurospeech 2001, Proceedings, pp. 229-232, Sep. 2001. [12] B. Jarc, R. Babič, “Izboljšanje natančnosti razpoznavanja govora z določanjem njegove aktivnosti na podlagi statističnega modela,” Elektroteh. vestn., 2002, zvez. 69, št. 1, str. 75-81. [13] H. G. Hirsch, D. Pearce, “The AURORA Experi- mental Framework for the Performance Evaluati- ons of Speech Recognition Systems under Noisy Conditions”, ISCA ITRW ASR2000 “Automatic Speech Recognition: Challenges for the Next Millennium”; Paris, France, Sept. 18-20, 2000. [14] S. Young, J. Odell, D. Ollason, V. Valtchev, P. Woodland, “The HTK Book (for HTK Version 3.0)”, July 2000, Microsoft Corporation. [15] ETSI standard document - ETSI ES 201 108 v1.1.1, “Speech Processing, Transmission and Quality Aspects (STQ); Distributed speech recognition; Front-end feature extraction algorithm; Compression algorithm”, Feb. 2000. [16] Aurora documents, AU/225/00, AU/271/00, AU/273/00, AU/378/01, Finnish, Spanish, German, Danish databases for ETSI STQ Aurora WI008 advanced DSR front-end evaluation: description and baseline results, 2000. [17] Aurora documents, “Motorola - France Télécom - Alcatel Advanced Front End Proposal,” Adopted by ETSI for DSR advanced front-end evaluation, Jan 2002. [18] ETSI standard document - ETSI ES 202 050 v1.1.5, “Distributed Speech Recognition; Advanced Front- end Feature Extraction Algorithm; Compression Algorithm”, Jan. 2007. Bojan Jarc je diplomiral leta 1992, magistriral leta 1999 in doktoriral leta 2003 na Fakulteti za elektrotehniko, računalništvo in informatiko v Mariboru. Zaposlen je na Fakulteti za elektrotehniko, računalništvo in informatiko, Inštitut za elektroniko, kot asistent. Njegovo raziskovalno področje so robustno avtomatsko razpoznavanje govora, obdelava signalov in digitalna sita. Rudolf Babič je diplomiral leta 1970 in magistriral leta 1980 na Fakulteti za elektrotehniko v Ljubljani. Doktoriral je leta 1991 na Fakulteti za elektrotehniko, računalništvo in informatiko v Mariboru. Zaposlen je na Fakulteti za elektrotehniko, računalništvo in informatiko, Inštitut za elektroniko, kot visokošolski predavatelj in je vodja Laboratorija za elektronske sisteme. Njegovo raziskovalno področje so obdelava signalov, načrtovanje in izdelava elektronskih vezij, sistemov in naprav ter načrtovanje in izvedba analognih in digitalnih sit.