1 Uvod Akustični signal, ki ga proizvaja nepredvidljivi fizikalni vir (v nadaljevanju: vir), je seveda naključni signal, saj ga nikakor ne moremo napovedovati zunaj območja opazovanja. Kljub temu pa se tak signal v določenih pogledih obnaša popolnoma predvidljivo, saj mora vir tega signala slediti pravilom klasične Newtonove fizike in vsem pripadajočim omejitvam [1-4]. Samoumevno je namreč, da amplituda akustičnega signala ne more v kateremkoli trenutku drastično poskočiti ali upasti, ker takih energijskih preskokov v fiziki našega velikostnega razreda ne poznamo. Vsi akustični signali so potemtakem frekvenčno omejeni, saj bi neskončno visoka frekvenčna vsebina potrebovala neomejeno energije za realizacijo v fizikalnem prostoru. Tudi generiranje neskončno visokega zračnega tlaka bi potrebovalo neskončno energijo, kar pomeni, da je vsak akustični signal potemtakem tudi velikostno omejen. Prav tako vemo, da se celotna frekvenčna karakteristika skozi čas ne more drastično spreminjati (pod predpostavko, da smo vzeli dovolj veliko časovno okno za določitev posamezne frekvenčne slike), saj bi to pomenilo, da vir skozi čas spreminja svoje akustične značilnosti, da se fizikalni vir torej spreminja zunaj nekih tolerančnih mej. Vse te omejitve fizikalnega sveta nam torej omogočajo, da lahko mešanico popolnoma naključnih signalov uspešno ločujemo pod predpostavko, da so njihovi viri fizikalno omejeni in med seboj statistično neodvisni. Primer tovrstnega ločevanja je sposobnost poslušalca, da razločuje posamezne govorce iz akustične mešanice več govorcev. Tak problem se v tehniki navaja kot Cocktail party problem in se pogosto rešuje z iterativnimi algoritmi, ki povečujejo statistično neodvisnost, kot na primer Independent Component Analysis (ICA) [5-9]. Poleg generičnih implementacij algoritmov ICA obstajajo tudi implementacije, kjer namesto osnovnih komponent uporabljamo specifične karakteristične funkcije, ti algoritmi pa so pogosto hitrejši in robustnejši od generičnih izvedb [10-15]. 2 Fizikalne omejitve virov signalov V prispevku želimo poudariti, da je fizikalna omejitev virov signalov lahko enako ali celo pomembnejše merilo pri razločevanju mešanic teh signalov kot njihova medsebojna statistična neodvisnost in da bi posledično lahko dobili hitrejšo izvedbo z algoritmom ICA, ki poleg predpostavke statistične neodvisnosti upošteva tudi fizikalne in geometrijske lastnosti virov posameznih signalov. Pomembnost fizikalnih omejitev bomo demonstrirali na primeru, ki predlagane hipoteze ne ubrani morebitnih spodbijanj, je pa zato izredno uporabna ilustracija iz katere bralec hitro razbere njene razsežnosti ter omejitve v inženirskih aplikacijah. Predvidevamo namreč, da bo razločevanje uspešnejše pri mešanici moškega in ženskega govora, čeprav sta moški in ženski govor manj statistično neodvisna signala kot računsko generirana naključna signala. Sklepamo, da je lastnost ki omogoča boljše razločevanje moškega in ženskega govora, ravno fizikalna omejitev virov teh signalov, in posledično sklepamo, da bi veliko hitrejšo izvedbo avtomatičnega razločevanja signalov na njihove statistično neodvisne komponente dosegli z uporabo algoritma ICA, ki razločuje signale z upoštevanjem geometrijsko- fizikalnih značilk virov signalov. 3 Predstavitveni primer V predstavitvenem primeru bomo primerjali uspešnost razločevanj algoritma ICA pri aditivnih mešanicah dveh akustičnih signalov (moški in ženski govor) in mešanicah dveh računsko generiranih naključnih signalov. ICA je iterativni algoritem, ki postopoma zmanjšuje statistično neodvisnost signalov. [5-8, 11, 16- 18]. Pri tem preizkusu smo uporabili algoritem JADE (Joint Approximate Diagonalization of Eigenmatrices) [9, 18, 19]. Če bi na uspešnost razločevanja vplivala le statistična neodvisnost virov, bi lahko pričakovali, da bo algoritem bolje razločeval mešanico računsko generiranih signalov kot mešanico moškega in ženskega govora. Ker pa računsko generirani signali niso fizikalno omejeni, se obnašajo kot popolnoma naključni signali, ki jih ne moremo napovedovati in jih posledično tudi ne moremo razločevati iz mešanice. Predvidevamo namreč, da bo razločevanje moškega in ženskega govora učinkovitejše ravno zaradi fizikalnih in geometrijskih omejitev človeškega govornega organa [1, 3], ki temu sicer naključnemu in nepredvidljivemu signalu vsiljuje neko mero določljivosti. Izid preizkusa bo torej skladen z našimi pričakovanji, če bo algoritem enako dobro ali celo bolje razločeval mešanico moškega in ženskega govora, čeprav sta moški in ženski govor statistično bolj podobna (manj statistično neodvisna) kot računsko generirana naključna signala. Sprotno razločevanje akustičnih signalov z upoštevanjem fizikalnih in geometrijskih lastnosti virov signalov 39 3.1 Zajem akustičnih signalov s1 in s2 (moški in ženski govor) ter generiranje naključnih signalov g1 in g2 Akustična signala s1 in s2 smo zajemali v gluhi sobi na oddaljenosti 1 m od kondenzatorskega mikrofona z naslednjim frekvenčnim odzivom (nizko sito je bilo izključeno): Slika 1: Frekvenčni odziv mikrofona, ki smo ga uporabili za zajem signalov s1, s2 Figure 1. Frequency response of a microphone used in s1, s2 signal recording Sledil je sledeč postopek predobdelave signalov. Obema signaloma smo izločili enosmerno komponento, in vse vzorce normalizirali do absolutne velikosti 1. Računsko generirana signala g1 in g2 smo generirali v programskem okolju Matlab, zatem smo signala g1 in g2 tudi normalizirali na isto moč kot jo imata signala s1 in s2 (človeški glas je izredno dinamičen signal, zato je njegova moč manjša od moči naključno generiranih signalov, ki imajo vrednosti posameznih vzorcev porazdeljene enakomerno med -1 in 1). 3.2 Razločevanje mešanic z algoritmom ICA ICA je iterativni algoritem, ki postopoma zmanjšuje statistično neodvisnost signalov. [5-8, 11, 16-18]. Pri tem preizkusu smo uporabili algoritem JADE (Joint Approximate Diagonalization of Eigenmatrices) [9, 18, 19]. 3.3 Vrednotenje razločevanja Napako smo ocenjevali kot srednji kvadratični pogrešek med izvirnim vzorcem pred mešanjem in vzorcem po razločevanju iz mešanice, kar je najbolj standardna kriterijska funkcija, ki vsebuje komponenti tako pristranskosti kot tudi variance [20] (page 226-227): napaka_s = 0.0628 napaka_g = 0.6985 Razločevanje je bilo skladno z našimi pričakovanji uspešnejše za mešanico s1 in s2 (moški in ženski govor). 3.4 Primerjava statističnih lastnosti, ki nakazujejo na večjo statistično odvisnost signalov s1 in s2 kot signalov g1 in g2 3.4.1 Križna korelacija signalov: Slika 2: Križna korelacija signalov s1 in s2 (levo) in signalov g1 in g2 (desno) Figure 2. Cross correlation of s1 and s2 signals (left) and g1 and g2 signals (right) Energija križne korelacije je pri signalih g1 in g2 enaka 1.6012e+007, pri signalih s1 in s2 pa 5.7607e+008, kar nakazuje na večjo neodvisnost signalov g1 in g2 kot signalov s1 in s2. Energijo smo določili kot vsoto kvadratov posameznih vzorcev. Število vzorcev pri obeh križnih korelacijah je enako. 3.4.2 Sploščenost porazdelitve (kurtosis) Za ocenjevanje statistične neodvisnosti signalov se pogosto uporablja tudi spremenljivka: "Sploščenost porazdelitve" (ang. Kurtosis) [5-7, 16]. Preden se odločimo, kako veliko okno bomo uporabili za izračun sploščenosti pri signalih, si poglejmo kakšna je odvisnost sploščenosti od velikosti okna pri obeh vrstah signalov, ki jih primerjamo: 40 Leskovšek, Tasič, Fefer, Marc Slika 3: Odvisnost izračunane splošenosti od velikosti zajetega okna Figure 3. Calculaterd kurtosis and its dependence on the calculation window size V nadaljevanju bomo sploščenost izračunali na oknih velikosti 64 vzorcev in obravnaval njihovo povprečje. abs(kurtosis_s1- kurtosis_s2)/((kurtosis_s1+kurtosis_s2)/2) = 0.0014 abs(kurtosis_g1- kurtosis_g2)/((kurtosis_g1+kurtosis_g2)/2)= 0.0051 Relativna razlika med sploščenostjo signalov g1 in g2 je torej večja kot med signaloma s1 in s2, kar nakazuje na večjo statistično odvisnost signalov s1 in s2, kot smo pričakovali. 3.4.3 Test Anova: Križna korelacija in sploščenost sta zgolj dve značilki, ki opisujeta statistično neodvisnost signalov. Izbrali bi lahko še veliko različnih statističnih operatorjev, je pa vprašanje, kateri od njih bi bil najprimernejši danim signalom. Zato bomo statistično neodvisnost ovrednotili še z zbirko statističnih testov ANOVA (analysis of variance between groups). ANOVA je zbirka parametričnih testov, ki se pogosto uporablja za določanje statistične neodvisnosti med skupinami normalno porazdeljenih vzorcev [21-23]. V našem primeru bomo kot skupino podatkov predstavili celoten časovni vektor posameznega signala. Test Anova za signala s1 in s2: Vrednost P nam pove, kakšna je verjetnost za statistično odvisnost med skupinama. Rezultat P=0 nam pove, da sta signala s1 in s2 popolnoma neodvisna med seboj, z zavedanjem, da je algoritem pri ocenjevanju odvisnosti naredil napako, ki jo ocenjuje na vrednost 2871. Naslednji diagram predstavlja razporeditev vzorcev v posamezne razrede in njihovo morebitno združevanje v skupine oz. roje (ang. clusters). Slika 4: Razporeditev vzorcev s1 in s2 v statistično neodvisne razrede Figure 4. Classification of s1 and s2 samples into statistically independent clusters Test Anova za signala g1 in g2: Tudi pri generiranih signalih g1 in g2 je ocena odvisnosti P=0, a vendar to sedaj lahko trdimo z večjo verjetnostjo, saj je tukaj ocenjena napaka enaka 0. Naslednji diagram predstavlja razporeditev vzorcev v posamezne razrede in njihovo morebitno razvrščanje v skupine oz. roje (ang. clusters) za generirane signale. Kot vidimo, se vzorci razvrščajo s precej bolj določljivimi linearnimi mejami, kar je bilo v danem primeru pričakovati, saj test ANOVA predvideva Sprotno razločevanje akustičnih signalov z upoštevanjem fizikalnih in geometrijskih lastnosti virov signalov 41 normalno porazdelitev vzorcev [24, 25]. Test ANOVA za signala g1 in g2 daje torej trivialno rešitev, saj je neposredna manifestacija hipoteze, ki jo zagovarjamo v tem prispevku. Slika 5: Razporeditev vzorcev g1 in g2 v posamezne statistično neodvisne razrede Figure 5. Classification of s1 and s2 samples into statistically independent clusters Tudi z zbirko statističnih modelov ANOVA ugotavljamo, da sta signala s1 in s2 medsebojno bolj odvisna kot signala g1 in g2, kar je skladno z našimi pričakovanji. 4 Vrednotenje rezultatov Na primeru smo demonstrirali pomebnost fizikalnih omejitev pri razločevanju signalov na njihove statistično neodvisne komponente, a vendar te pomembnosti ta primer seveda še ne dokazuje neizpodbitno, saj še nismo ovrgli vseh mogočihničelnih hipotez, ki bi jih kritični bralec lahko postavil. Primer deluje torej zgolj kot ilustracija nekaterih naravnih zakonitosti signalov, na katere pogosto pozabimo pri načrtovanju algoritmov, posledica tega pa so manj učinkoviti algoritmi, ki porabijo preveč procesorske moči in potrebujejo preveliko signalno okno za svojo izvedbo, kar v sistem vnaša mrtvi čas oz. latenco [26], kar onemogoča izvedbo interaktivnih multimedijskih naprav [27]. V nadaljnjem delu prispevka bomo predlagali metodologijo in algoritem za sprotno razločevanje aditivnih mešanic neodvisnih in nepredvidljivih signalov na njihove statistično neodvisne komponente, ki razločuje signale na podlagi geometrijsko-fizikalnih značilk. 5 Razprava Verjetno bi bilo smotrno razviti sistem za razločevanje signalov, ki vsak vir ločeno analizira, da mu določi geometrijsko fizikalne značilke, nato pa izvaja razločevanje signalov na manjšem oknu mešanice signalov s pomočjo kriterija poprej določene značilke. S takšno izvedbo predvidevamo, da lahko dosežemo hitro in robustno razločevanje, ki je uspešno v vsakem primeru, kjer imajo viri teh signalov neko fizikalno ali geometrijsko prepoznavnost. Slika 6: GeoICA ™ sistem za sprotno razločevanje akustičnih signalov z upoštevanjem fizikalnih in geometrijskih lastnosti virov signalov Figure 6. GeoICA ™ system for real-time blind separation of acoustic signals based on physical and geometrical properties of the signal sources 6 Sklep Sprva smo s kriterijem srednjega kvadratičnega pogreška primerjali uspešnost razločevanja algoritma ICA pri aditivnih mešanicah dveh akustičnih signalov (moški in ženski govor) ter mešanicah dveh računsko generiranih naključnih signalov. Izid primerjave je bil skladen z našim pričakovanjem, saj smo več kot 10x učinkoviteje razločevali moški in ženski govor (napaka_s = 0.0628, napaka_g = 0.6985), kar nakazuje na pomembnost fizikalnih omejitev pri razločevanju aditivnih mešanic nepredvidljivih in medsebojno neodvisnih akustičnih signalov. V razdelku 'razprava' predlagamo tudi metodologijo (GeoICA ™) za realno- časovno razločevanje aditivnih mešanic neodvisnih in nepredvidljivih signalov na njihove statistično neodvisne komponente, ki razločuje signale na podlagi geometrijsko-fizikalnih značilk. 7 Reference [1] Stylianou, Y., Decomposition of Speech Signals into a Deterministic and a Stochastic part. 1999. [2] Tasič, J.F., Postopki digitalne obdelave signalov. 2. dopolnjena in razširjena izd. Ljubljana: Fakulteta za elektrotehniko. 2002. 42 Leskovšek, Tasič, Fefer, Marc [3] Wiley, R., Physical constraints on acoustic communication in the atmosphere: implications for the evolution of animal vocalizations. 1978. [4] Fagerlund, S., Acoustics and physical models of bird sounds. 2004. [5] Beguš, S., Slepo ločevanje akustičnih izvorov, Ljubljana. 2001. [6] Canjuga, T., Slepo ločevanje akustičnih izvorov, Ljubljana 2004. [7] DING, S., Blind Source Separation of Acoustic Signals in Realistic Environments Based on ICA in the Time- Frequency Domain. 2005. [8] Oja, A.H.a.E., Independent Component Analysis: Algorithms and Applications. 2000. [9] Haykin, The Cocktail Party Problem. 2005. [10] Burel, Blind separation of sources: a nonlinear neural algorithm. 1992. [11] Koivunen, J.E.a.K., Characteristic-function based independent component analysis. Signal Processing. 2003. [12] Hesse, C.J.J.a.C.W., What Is the Relation Between Slow Feature Analysis and Independent Component Analysis?, Physiol. Meas. 2005. [13] Hyvärinen, Fast and robust fixed-point algorithms for independent component analysis. 1999. [14] Hyvärinen, Nonlinear independent component analysis: Existence and uniqueness results. 1999. [15] Hyvärinen, Survey on independent component analysis. . 1999. [16] Cardoso, J.-F., Blind signal separation: statistical principles, Proceedings of the IEEE. 1998. [17] Faour, F.M.H.a.N.A., INFRASOUND SIGNAL SEPARATION USING INDEPENDENT COMPONENT ANALYSIS. 2001. [18] Cardoso, The three easy routes to independent component analysis: Contrasts and geometry. 2001. [19] Cardoso, High-order contrasts for independent component analysis. Neural Computing. 1999. [20] Runger, D.C.M.G.C., Applied Statistics and Probability for Engineers (page 226-227). 1999. [21] Gelman, B., Jiang, Physiological pharmacokinetic analysis using population modeling and informative prior distributions. J. Amer. Statist. Assoc. 91 1400– 1412. 1996. [22] Meulders, D.B., Van Mechelen, Gelman, Maris Bayesian inference with probability matrix decomposition models. J. Educational and Behavioral Statistics 26 153-179. 2001. [23] Park, G., Bafumi, Bayesian multilevel estimation with poststratification: State-level estimates from national polls. Political Analysis 12 375–385. 2004. [24] Glantz, Primer of Biostatistics 4th edition. 1997. [25] Imbens, Causal Inference in Statistics and the Medical and Social Sciences. Vol. Forthcoming Cambridge. 2008. [26] Burnik, T., Human perception and objective delay evaluation of multimedia services. 2006. [27] Goldstein, E.B., Sensation and Perception. 1980. Operacijo delno financira evropska unija, in sicer iz evropskega socialnega sklada skladno z operativnim programom razvoja človeških virov za obdobje 2007 – 2013, razvojna prioriteta: Spodbujanje podjetništva in prilagodljivosti, prednostna usmeritev: Strokovnjaki in raziskovalci za konkurenčnost podjetij. Matevž Leskovšek je že med univerzitetnim študijem elektrotehnike na Univerzi v Ljubljani deloval kot programer aplikacij za obdelavo digitalnih signalov v Windows/Linux razvojnih okoljih in v zbirnem jeziku integriranih vezij EMU10K1 in EMU10K2. Od leta 2004 deluje tudi kot urednik na spletnem arhivu DMOZ, ki ga je ustanovilo podjetje Mozilla Corporation, danes v lasti Netscape Corporation, kjer od leta 2008 deluje kot glavni urednik za kategorije izobraževanja iz področja digitalne obdelave signalov in akustike. Leta 2007 je na Fakulteti za elektrotehniko diplomiral in hkrati vpisal podiplomski študij iz vsebin, ki so bližje obdelavi biomedicinskih signalov in podrocju razvoja biomedicinske tehnike, kar je v zadnjem casu njegovo osrednje področje dela. Jurij Tasič je bil rojen 23. 4. 1948 v Brežicah. Študij elektrotehnike je opravil na Univerzi v Ljubljani, kjer je diplomiral l. 1971 , magistriral l. 1973 ter doktoriral v letu 1977. Danes je redni profesor na Katedri za telekomunikacije Fakultete za elektrotehniko Univerze v Ljubljani in znanstveni svetnik na Inštitutu Jožef Štefan v Ljubljani. Je predstojnik Laboratorija za digitalno obdelavo signalov, slik in videa, izredni član Inženirske Akademije Slovenije, gostujoč profesor na Westminster University v Londonu ter vabljeni sodelavec univerz v Parizu in Madridu. Dušan Fefer je diplomiral leta 1975 in se 1976 zaposlil kot asistent na Fakulteti za elektrotehniko, Univerze v Ljubljani, kjer je leta 1983 magistriral in 1986 doktoriral. Svojo raziskovalno pot je začel v industriji na področju visokofrekvečnih TV merilnih sistemov. Leta 1976 se je zaposlil na Fakulteti za elektrotehniko, kjer je bil leta 1997 izvoljen v naziv rednega profesorja. Njegovo pedagoško in raziskovalno delo pokriva področja merilnih sistemov, senzorjev, preciznih AC/DC napetostnih referenčnih virov, akustike, magnetike, tehničnega varovanja in vplivov elektromagnetnih polj na biološke sisteme. Marko Marc je diplomiral leta 1997, iz področja populacijske genetike in informatike, pri Biotehniški fakulteti v Ljubljani. Istega leta se je zaposlil na Nemškem zveznem inštitutu za rejo živali, Mariensee ter leta 2000 doktoriral iz športne fiziologije in populacijske genetike, pri Univerzi v Gottingenu. Svojo strokovno pot je nadaljeval pri podjetju Labena d.o.o., predvsem na področju NIR (Near infra red) analitske tehnologije in kalibriranja. Leta 2006 se je zaposlil v Kobilarni Lipica, kjer je med drugim dokončal svoj dolgoletni projekt iz informatike (Mednarodni register lipicancev, www.lipizzan- register.com), od leta 2009 pa je pri podjetju Labena d.o.o. ponovno vključen v različne strokovne in raziskovalne projekte. Kot habilitiran predavatelj predava pri Biotehničnem centru Naklo in pri Tehničnem šolskem centru v Novi Gorici.