1 Uvod Splošni modeli dinamičnih sistemov poskušajo izluščiti pomembne lastnosti procesov neposredno iz obnašanja merljivih parametrov skozi čas. Temeljijo na pred- postavki, da bodo značilnosti, opažene v preteklosti, ob- stajale še naprej. Pred samim modeliranjem vhodne po- datke pogosto pripravimo, na primer s filtriranjem ali metodami za iskanje značilk, s čimer poskušamo poenos- taviti modeliranje. Metode predprocesiranja so zelo ra- zlične – od popolnoma statističnih do takšnih, ki temeljijo na uspešnosti končnega modela [6]. Večina splošno uveljavljenih metod za analizo in Modeliranje časovnih vrst z metodami teorije informacij 241 modeliranje sistemov v veliki meri predvideva statis- tiko drugega reda. V zadnjem času se za reševanje čedalje zahtevnejših problemov uveljavljajo rešitve, ki presegajo njene omejitve [1]. Zmogljivosti sodobnih računalniških sistemov so omogočile uporabo idej s področja informacijske teorije tudi pri modeliranju di- namičnih sistemov [2]. Osnove teorije informacij izha- jajo s konca prve polovice 20. stoletja, ko je Shannon postavil matematično teorijo za obravnavanje temeljnih vidikov komunikacijskih sistemov. Definicije osnovnih mer, to je entropije, divergence in povprečne medsebojne informacije, izhajajo iz verjetnostne teorije in statistike. Vsaka mera v svojem kontekstu opredeljujejo količino informacije v naključnih spremenljivkah, zato jih lahko učinkovito uporabimo tudi na drugih področjih. Na primer, entropijo in divergenco kot cenilno funkcijo pri modeliranju s splošnimi modeli [3], povprečno medsebo- jno informacijo pa kot mero za medsebojno povezanost podatkov [4, 5]. V delu se bomo osredinili na problem izbiranja vplivnih podatkov za potrebe modeliranja in na pro- blem samega modeliranja nelinearnih dinamičnih siste- mov z metodami, zasnovanimi na teoriji informacij. V drugem poglavju bomo predstavili osnovne koncepte in razširitve informacijske teorije, v tretjem poglavju pa bomo nakazali, kako jih je mogoče uporabiti pri pred- procesiranju podatkov. V četrtem poglavju bomo na kratko predstavili, kako lahko v dvoplastnem percep- tronu kot kriterijsko funkcijo uporabimo mero, ki izhaja iz teorije informacije. Predstavljeni koncepti bodo nato v petem poglavju tudi praktično ovrednoteni na problemih napovedovanja znanih časovnih vrst. Nazadnje bodo v za- ključku povzete prednosti in slabosti uporabe konceptov informacijske teorije v primerjavi z že uveljavljenimi. 2 Mere informacijske teorije Osnovni meri, ki izhajata iz teorije informacij, sta en- tropija in divergenca [2]. Shannonova entropija, ki meri nedoločenost naključnega vektorja X z gostoto verje- tnostne porazdelitve p(x), je definirana kot H(X) = − ∫ p(x) log p(x)dx . (1) Podobno Kullback-Lieblerjeva divergenca meri podob- nost med pravo gostoto porazdelitve p(x) naključne spre- menljivke X in njeno oceno r(x), D(p; r) = − ∫ p(x) log p(x) r(x) dx . (2) Medsebojno povezanost spremenljivk Xi z gostotami verjetnostnih porazdelitev pi(x i), ki sestavljajo vektor X = (X1, . . . ,XN )T , lahko ocenimo z mero [7] J(X) = D ( p(x); N ∏ i=1 pi(x i) ) = N ∑ i=1 H(Xi) − H(X) . (3) Kadar nas zanima količina informacije, ki jo o naključni spremenljivki Y z verjetnostno porazdelitvijo q(y) vse- buje naključni vektor X, je ta mera kar enaka medsebojni informaciji I(X;Y ) = H(X) + H(Y ) − H(X, Y ) (4) = H(X) − H(X|Y ) , (5) pri čemer je H(X, Y ) skupna nedoločenost vektorja X in spremenljivke Y , H(X|Y ) pa povprečna nedoločenost vektorja X, če poznamo spremenljivko Y . Računanje zgornjih mer je zaradi integralov, ki nastopajo v definicijah, izredno zahtevno. Zato se namesto Shannonove entropije pogosto uporablja Reny- ijeva entropija [7], HR(X) = 1 1 − α log ∫ pα(x)dx , (6) ki ji je v limiti α → 1 enaka. Analogno v limiti α → 1 Renyijeva divergenca DR(p; r) = 1 α − 1 log ∫ p(x) ( p(x) r(x) )α−1 dx (7) preide v Shannonovo. V nadaljevanju se bomo omejili na obravnavanje kvadratnih Renyijevih mer s parametrom α = 2. V nasprotju s Shannonovimi merami nobena od relacij (4) in (5) ne velja za Renyijeve mere [5], zato so v nadaljevanju mere, ki izhajajo iz omenjenih relacij, označene z apostrofom. V praksi se gostota verjetnostne porazdelitve zvezne spremenljivke največkrat oceni z metodo Parzenovega okna [8] p(X) = K−1 K ∑ k=1 G (x − xk) , (8) kjer so xi, i = 1, . . . ,K naključne vrednosti (me- ritve) vektorja X in G(x) izbrana jedrna funkcija. Pogosto za jedrno funkcijo uporabimo Gaussovo funkcijo G(x) = ∏N i=1 Ghi(x i), kjer je Ghi(x i) enodimenzio- nalna Gaussova porazdelitev. Ena od možnosti je, da širino porazdelitve določimo s Silvermanovo oceno [9] hi = 1,06σiK −0,2, kjer je σi standardno odstopanje spre- menljivke Xi od povprečja. Ko v definicijo Renyijeve entropije (6) vstavimo na- stavek Parzenovega okna (8) ter upoštevamo, da je inte- gral produkta dveh Gaussovih funkcij Gaussova funkcija razlike srednjih vrednosti osnovnih Gaussovih funkcij z dvojno varianco, vidimo, da Renyijev informacijski po- tencial VR(X) = ∫ p2(x)dx = ∫ ( 1 K ∑ i Gh(x − xi) )2 dx 242 Bratina, Dobnikar, Lotrič = 1 K2 ∑ j ∑ i Gh √ 2 (xj − xi) (9) in s tem entropijo HR(X) = − log VR(X) izračunamo brez računsko požrešnih integracij [7]. 3 Iskanje značilk Z metodami za iskanje značilk poskušamo iz vhodnih podatkov izluščiti najpomembnejše značilnosti ter s tem poenostaviti modeliranje in izboljšati odzivnost mode- lov in njihovo sposobnost posploševanja. Metode se med seboj ločijo po kriterijski funkciji, s katero izbiramo značilke – ta je lahko zasnovana na lastnostih značilk ali pa kar na uspešnosti modela. 3.1 Klasične metode Značilne spremenljivke lahko izbiramo s pomočjo spek- tralne in kovariančne analize, ali pa z bolj ali manj in- tenzivnim preiskovanjem mogočih naborov z različnimi hevrističnimi metodami ali iskalnimi postopki, na primer evolucijskimi [10]. V nadaljevanju se bomo omejili na dve hevristični metodi. Pri prvi (H1) bomo za značilke izbrali določeno število zadnjih spremenljivk v časovni vrsti. Število bomo določili tako, da bo modeliranje čim uspešnejše. Pri drugi metodi (H2) bomo nabor značilk gradili postopoma. V vsakem koraku bomo med značilke vključili tisto od preostalih spremenljivk, ki bo skupaj z že izbranimi značilkami pripeljala do najboljšega modela. Značilke lahko sestavimo tudi kot linearne kom- binacije vhodnih spremenljivk. To omogoča metoda glavnih osi (ang. Principal Component Analysis, PCA). Gre za matematični postopek [11], v katerem se iz os- novnih vhodnih spremenljivk sestavi manjše število neod- visnih značilk ali glavnih osi. Prva glavna os je posta- vljena tako, da ima največjo mogočo varianco. Podobno je vsaka naslednja glavna os postavljena tako, da ima največjo varianco na preostalih podatkih. Ponavadi pri nadaljnjem modeliranju uporabimo nekaj prvih glavnih osi. V nadaljevanju smo izbrali glavne osi, pri katerih je varianca večja od 1 % variance glavne osi. 3.2 Analiza neodvisnih komponent Analiza neodvisnih komponent (ang. Independent Component Analysis, ICA) [12] predvideva, da lahko izmerjene signale zk zapišemo kot linearno mešanico statistično neodvisnih signalov, sk, zk = Ask. Z ana- lizo neodvisnih komponent želimo poiskati tako matriko B, da bodo značilke xk = Bzk = BAsk kar najboljši približek statistično neodvisnih signalov sk. V prvem koraku s transformacijo z′k = D −1/2 V T zk, v kateri je D diagonalna matrika lastnih vrednosti, V pa matrika lastnih vektorjev avtokorelacijske matrike vektorjev zk, poskrbimo, da je avtokorelacijska matrika vektorjev z′k identiteta. V drugem koraku nato poiščemo rotacijsko matriko R, ki nam da tak vektor signalov xk = Rz ′ k, pri katerem je izbrana kriterijska funkcija optimalna. Če želimo, da imajo vektorji xk manjše število komponent kot vektorji zk, na slednjih pred opisanim postopkom uporabimo metodo glavnih osi. Obstaja več metod analize neodvisnih komponent [13, 14], nekaj jih temelji na teoriji informacije. Če vektorje xk razumemo kot točke naključnega vektorja X, potem lahko za kriterijsko funkcijo uporabimo Renyijevo med- sebojno informacijo vektorja, ki izhaja iz (7). Ker pa je njen izračun časovno zahteven, se ponavadi uporabi kar zveza (3), v kateri namesto Shannonove uporabimo Renyijevo entropijo [5]. Skupna entropija vektorja X je invariantna na rotacije [15] , zato lahko zadnji člen v (3) izpustimo in minimiziramo samo vsoto entropij posamičnih signalov J ′R(X) = ∑N i=1 HR(X i). Rotaci- jsko matriko, ki minimizira mero J ′R(X), iščemo itera- tivno, na primer po postopku najhitrejšega sestopa, po katerem je sprememba rotacijske matrike enaka ∆R = −η ∂J ′R(X)/∂R [5]. 3.3 Metoda najznačilnejših projekcij Tako kot pri analizi neodvisnih komponent tudi pri metodi najznačilnejših projekcij (ang. Maximally Discrimina- tive Projections, MDP) iščemo značilke xk, ki so linearne kombinacije osnovnih meritev zk z dvofaznim postop- kom [16]. Bistvena razlika med metodama je v zasnovi kriterijske funkcije. Medtem ko je pri analizi neodvis- nih komponent ta odvisna samo od vhodnih podatkov, jo pri metodi najznačilnejših projekcij določajo odvisnosti med vhodnimi podatki in ustreznimi izhodi iz modela. Opisanemu konceptu ustreza maksimizacija mere med- sebojne informacije med vhodnimi in izhodnimi spre- menljivkami. Računanje prave Renyijeve medsebojne informacije je preveč zahtevno, zato se uporablja približek, ki izhaja iz (5), v kateri Shannonove entropije zamenjamo z Reny- ijevimi. Ta mera se še dodatno poenostavi v primeru, ko želimo z modelom vhodne podatke uvrščati v C vnaprej podanih razredov. Takrat lahko zapišemo I ′R(X;Y ) = HR(X) − HR(X|Y ) = HR(X) − C ∑ c=1 nc n HR(X|Y = c) , (10) kjer je nc število podatkov, ki se uvrščajo v razred c, HR(X|Y = c) pa nedoločenost vektorja X pri uvrščanju v ta razred. Pri računanju entropije HR(X) uporabimo vse vzorce, pri računanju entropije HR(X|Y = c) pa le vzorce, ki spadajo v razred c. Tako kot pri analizi neodvis- nih komponent rotacijsko matriko popravljamo iterativno glede na vrednosti gradienta kriterijske funkcije [16]. Modeliranje časovnih vrst z metodami teorije informacij 243 4 Modeliranje z nevronskimi mrežami Nevronske mreže spadajo med splošne nelinearne mo- dele, ki izbrano vrednost v časovni vrsti povezujejo s predhodnimi vrednostmi. Nevronska mreža dvoplastni perceptron [17], ki smo jo uporabili pri analizi, ima v skriti plasti MH nelinearnih nevronov, v izhodni plasti pa MO linearnih nevronov. Odziv modela lahko opišemo z enačbama x H k = tanh (WHxk + bH) in (11) x O k = WOx H k + bO . (12) Z učenjem na parih vhodno-izhodnih vzorcev (xk,dk), k = 1, . . . ,K proste parametre modela, uteži WH in WO ter pragove bH in bO nastavimo tako, da optimiziramo izbrano kriterijsko funkcijo na podlagi napak ek = dk − x O k , k = 1, . . . ,K med dejanskimi in izračunanimi vrednostmi. Ponavadi minimiziramo povprečno kvadratno napako E(E) = 1 NOK ∑K k=1 e T k ek. Med merami, ki izhajajo iz informacijske teorije, je primerna minimizacija nedoločenosti napake. Ob pred- postavki, da napake ek tvorijo naključni vektor E, se za kriterijsko funkcijo največkrat uporablja minimizacija entropije oziroma maksimizacija informacijskega potenciala VR(E), podanega v (9). Pri minimizaciji povprečne kvadratne napake z gra- dientnimi metodami gradiente izračunamo po znanem vzvratnem postopku [17]. Po analognem postopku je mogoče izračunati tudi gradiente informacijskega poten- ciala [3]. Informacijski potencial ni odvisen od povprečja porazdelitve napak, zato se lahko zgodi, da po končani optimizaciji povprečje napak ne bo nič. Ker pa so izhodni nevroni linearni, lahko anomalijo odpravimo tako, da po končanem učenju ustrezno nastavimo pragove izhodnih nevronov [7]. 5 Eksperimentalno delo Omejili se bomo na modeliranje diskretnih časovnih vrst, vzorčenih v enakomernih časovnih presledkih. Za napovedovanje smo izbrali pet časovnih vrst: povprečno letno število sončevih peg (Pege), kaotično logistično preslikavo (LP), kaotično časovno vrsto Mackey-Glass (MG) ter tečaj delnice podjetja Sava (Sava) in vrednosti borznega indeksa SBI20 (SBI) v obdobju od začetka aprila 2007 do konca junija 2008. Modelirali smo na dva načina: pri prvem smo napovedovali vrednost časovne vrste v naslednjem koraku, pri drugem pa smo pričakovane spremembe vrednosti v časovni vrsti uvrščali v pet razredov. V vsaki časovni vrsti je bilo 308 po- datkov, od katerih smo jih prvih 80 % uporabili za mo- deliranje, zadnjih 20 % pa za testiranje in primerjavo uspešnosti modelov. Da smo omejili velikost modelov, so le-ti smeli za napoved naslednje vrednosti uporabiti 12 predhodnih vrednosti, poleg tega pa število prostih parametrov modela ni smelo presegati 40 % števila po- datkov v časovnih vrstah. Da bi se izognili naključnim za- ustavitvam optimizacije v lokalnih minimumih, smo vsak model zgradili desetkrat, vsakič z naključno določenimi začetnimi parametri. V nadaljevanju so predstavljeni naj- boljši rezultati na testnih množicah. 5.1 Napovedovanje vrednosti Za napovedovanje naslednje vrednosti v časovni vrsti z dvoplastnim perceptronom so bili uporabljeni štirje različni načini izbiranja značilk in dve kriterijski funkciji. Uspešnost napovedovanja je pri vsakem mo- delu podana s tremi cenilnimi funkcijami: s koren- jeno povprečno kvadratno napako, normalizirano na stan- dardno odstopanje časovne vrste od povprečja (ang. Normalized Root Mean Squared Error), NRMSE = √ E(E)/σ, z normaliziranim informacijskim poten- cialom (ang. Normalized Information Potential), NIP = VR(E)/max{VR(E)} in s številom prostih parametrov modela (NPAR). Rezultati so v obliki grafikonov pred- stavljeni na sliki 1. Na grafikonih vidimo, da sta vrednosti Slika 1. Uspešnost napovedovanja naslednje vrednosti v časovni vrsti, ocenjena z različnimi cenilnimi funkcijami. Stolpci v enakem odtenku sive ustrezajo isti metodi iskanja značilk. Pri tem levi stolpec pomeni rezultat, dobljen pri modeliranju s kri- terijsko funkcijo E(E), desni pa pri modeliranju s kriterijsko funkcijo VR(E) Figure 1. Quality of prediction of the future value in a time se- ries estimated with different performance measures. Bars in the same shade of gray belong to the same preprocessing method, where the left and the right bar always represent results obtained by optimizing function E(E) and VR(E), respectively NRMSE in NIP korelirani – majhna vrednost NRMSE se odraža v veliki vrednosti NIP in nasprotno. Zaradi lažje primerjave metod so povprečne vred- nosti uporabljenih cenilnih funkcij na vseh petih časovnih vrstah zbrane v tabeli 1. Pri večini časovnih vrst se je najbolje izkazalo izbiranje značilk s hevristično metodo 244 Bratina, Dobnikar, Lotrič H1 H2 PCA ICA NRMSE 0,17 0,15 0,52 0,19 min NIP 0,96 0,97 0,80 0,95 E(E) NPAR 29 38 21 19 max NRMSE 0,32 0,14 0,22 0,13 VR(E) NIP 0,86 0,96 0,97 0,97 NPAR 38 61 25 25 Tabela 1. Povprečne vrednosti cenilnih funkcij pri napove- dovanju naslednje vrednosti v časovni vrsti Table 1. Average values of performance measures (taken over all time series) in prediction of the future value in a time series H2. žZal je ta metoda zaradi postopne gradnje nab- ora značilk na podlagi uspešnosti modela med vsemi računsko daleč najzahtevnejša. Po drugi strani daje izbi- ranje značilk z metodo PCA najslabše rezultate. Ra- zlog verjetno tiči v tem, da manj pomembne glavne osi, ki se pri modeliranju ne uporabljajo, skrivajo pomem- bne podrobnosti o časovni vrsti. Pri modeliranju z mi- nimizacijo povprečne kvadratne napake tudi metoda ICA ni prepričljiva. Nasprotno pa je pri modeliranju z ma- ksimizacijo informacijskega potenciala izbiranje značilk z metodo ICA za malenkost uspešnejše kot z metodo H2, pri čemer imajo modeli v povprečju manj prostih parametrov. Poleg tega ta kombinacija izbiranja značilk in modeliranja v večini primerov pripelje do modelov, ki se izkazujejo z največjo vrednostjo NIP in najmanjšo vred- nostjo NRMSE. Na sliki 1 izstopajo visoke vrednosti NRMSE in s tem nizke vrednosti NIP pri napovedovanju logistične presli- kave s hevrističnima metodama H1 in H2 v kombinaciji z maksimizacijo informacijskega potenciala. Kaotična logistična preslikava je podana z diferenčno enačbo, ki jo mora model za uspešno modeliranje rekonstruirati iz časovne vrste. To, da modeliranje le-te ni bilo uspešno v nobenem od 10 poskusov, nakazuje na slabše kover- genčne lastnosti pri optimizacije modelov z informacij- skim potencialom. 5.2 Uvrščanje v razrede V tem poskusu smo poskušali napovedati razliko med novo in zadnjo znano vrednostjo v časovni vrsti. Da bi lahko ovrednotili tudi metodo najznačilnejših pro- jekcij, smo modele zasnovali tako, da pričakovano razliko uvrstijo v enega od petih razredov: veliko zmanjšanje, majhno zmanjšanje, neznatna sprememba, majhno povečanje in veliko povečanje. Meje med razredi so določene tako, da so le-ti kar najbolj enakovredno za- stopani. Slika 2 prikazuje uspešnost uvrščanja napovedi v razrede za vseh pet časovnih vrst. Kot mero za uspešnost uvrščanja smo dodali še delež uvrstitev napovedi v pravi razred (POK). Večje vrednosti NRMSE in manjše vred- Slika 2. Uspešnost uvrščanja napovedi v razrede, ocenjena z ra- zličnimi cenilnimi funkcijami. Stolpci v enakem odtenku sive ustrezajo isti metodi iskanja značilk. Pri tem levi stolpec kaže rezultat, dobljen pri modeliranju s kriterijsko funkcijo E(E), desni pa pri modeliranju s kriterijsko funkcijo VR(E) Figure 2. Quality of classification of the predicted value in a time series estimated with different performance measures. Bars in the same shade of gray belong to the same preprocessing method, where the left and the right bar always represent results obtained by optimizing function E(E) and VR(E), respectively nosti NIP kažejo, da je tako spremenjeni problem težje modelirati. To še posebej velja za časovni vrsti Sava in SBI. H1 H2 PCA ICA MDP NRMSE 0,55 0,55 0,61 0,52 0,53 min . NIP 0,67 0,66 0,63 0,69 0,67 E(E) NPAR 55 42 29 51 45 POK 0,56 0,57 0,52 0,62 0,58 NRMSE 0,66 0,56 0,73 0,68 0,57 max . NIP 0,63 0,69 0,58 0,60 0,69 VR(E) NPAR 37 26 25 78 87 POK 0,53 0,61 0,48 0,50 0,60 Tabela 2. Povprečne vrednosti cenilnih funkcij pri uvrščanju napovedi v razrede Table 2. Average values of the performance measures (taken over all time series) in classification of the predicted value to the five predefined classes Zaradi lažje primerjave metod so v v tabeli 2 pred- stavljene povprečne vrednosti cenilnih funkcij čez vseh pet časovnih vrst. Pri optimizaciji povprečne kvadratne napake so v povprečju metode H2, ICA in MDP zelo enakovredne. Če odmislimo časovno izredno zahtevno metodo H2, daje v tem primeru najboljše rezultate izbi- ranje značilk z metodo ICA. Prednost pred metodo MDP si je pridobila ravno z dobrim modeliranjem logistične preslikave. Pri optimizaciji informacijskega potenciala so rezultati večinoma najboljši v primerih, ko se značilke določajo z metodama H2 in MDP. Medsebojna primerjava uspešnosti modelov, dobljenih z optimizacijo povprečne kvadratne napake na eni strani in informacijskega po- tenciala na drugi, pokaže, da dajejo pri napovedovanju v razrede modeli, zgrajeni z optimizacijo povprečne kvadratne napake, boljše rezultate. Razlog je verjetno v tem, da je konvergenca proti optimumu informacij- skega potenciala bistveno počasnejša kot proti optimumu povprečne kvadratne napake, zato se prva optimizacija pogosto konča v lokalnem minimumu. Podobno kot pri napovedovanju vrednosti pri kaotični logistični preslikavi ponovno opazimo slabe rezultate, dobljene pri optimiziranju informacijskega potenciala (slika 2), kar ponovno kaže na slabše konvergenčne last- nosti pri uporabi te kriterijske funkcije. 6 Sklep V prispevku so predstavljene možnosti uporabe mer, ki izhajajo iz teorije informacij, pri iskanju značilk v podatkih in pri samem modeliranju dinamičnih siste- mov. Mere, ki izhajajo iz teorije informacij, so primer- jane z nekaterimi klasičnimi merami pri gradnji di- namičnih modelov petih časovnih vrst. Rezultati so pokazali, da sta obe metodi iskanja značilk, ki izha- jata iz informacijske teorije, boljši ali vsaj primerljivi z računsko intenzivnimi klasičnimi metodami. Slabše se je kot nadomestek povprečne kvadratne napake pri določanju prostih parametrov modela izkazal informa- cijski potencial. Poleg počasnega izračunavanja poten- ciala zaradi dvojne vsote v sami definiciji je konvergenca pri njegovi uporabi veliko počasnejša, zato se pogosto zgodi, da se optimizacija ustavi v lokalnem minimumu. Zaradi počasnejše konvergence je informacijski poten- cial uporabna mera predvsem v bližini optimuma, kjer bi lahko zamenjal klasično povprečno kvadratno napako. 7 Literatura [1] A. Dobnikar, Modeliranje nelinearnih dinamičnih siste- mov na osnovi teorije informacij, Znanje za trajnostni razvoj: zbornik povzetkov referatov 27. mednarodne kon- ference o razvoju organizacijskih znanosti, Slovenija, Por- torož, 32–45, 2008. [2] J.C.A. van der Lubbe, Information Theory, Cambridge, Cambridge University, 1997. [3] D. Erdogmus, J.C. Principe, An Error-Entropy Mini- mization Algorithm for Supervised Training of Nonlinear Adaptive Systems, IEEE trasactions on signal processing, 50, 1780–1786, 2002. [4] F.C. Richards, T.P. Meyer, N.H. Packard, Extracting cel- lular automation rules directly from experimental data, Physica D, 45, 189–202, 1990. [5] K.E. Hild, D. Erdogmus, J.C. Principe, Blind source sep- aration using Renyi’s Mutual Information, IEEE Signal Processing Letters, 8, 2001. [6] U. Lotrič, A. Dobnikar, Matrix formulation of the multi- layered perceptron with a denoising unit, Elektrotehniški vestnik, 70, 4, 221–226, 2003. [7] D. Erdogmus, J.C. Principe, From Adaptive Filtering to Nonlinear Information Processing, IEEE Signal Process- ing Magazine, 23, 6, 14–33, 2006. [8] J. Beirlant, E. Dudewicz, L. Gyorfi, E. van der Meulen, Nonparametric entropy estimation: an overview, Interna- tional Journal of Mathematical and Statistical Sciences, 80, 1, 17-39, 1997. [9] J.M. Santos, J.M. de Sa, L.A. Alexandre, LEGClustA Clustering Algorithm Based on Layered Entropic Sub- graphs, IEEE Transactions on Pattern Analysis and Ma- chine Intelligence, 30, 1, 62–75, 2008. [10] A.A. Freitas, Data Mining and Knowledge Discovery with Evolutionary Algorithms, Berlin Heidelberg, Springer, 2002. [11] A. Gorban, B. Kegl, D. Wunsch, A. Zinovyev, Principal Manifolds for Data Visualisation and Dimension Reduc- tion, New York, Springer, 2007. [12] P. Comon, Independent Component Analysis: a new con- cept?, Signal Processing, 36, 3, 287–314, 1994. [13] J.-F. Cardoso, High-order contrasts for independent com- ponent analysis, Neural Computation, 11, 157–192, 1999. [14] A. Hyvarinen, Fast and Robust Fixed-Point Algorithms for Independent Component Analysis, IEEE Transactions on Neural Networks, 10, 3, 626–634, 1999. [15] J.-M. Wu, M.-H. Chen, Z.-H. Lin, Independent compo- nent analysis based on marginal density estimation using weighted Parzen windows, Neural Networks, 21, 7, 914– 924, 2008. [16] K.E. Hild, D. Erdogmus, K. Torkkola, J.C. Principe, Se- quential Feature Extraction Using Information Theoretic Learning, IEEE Transactions on Pattern Analysis and Ma- chine Intelligence, 28, 9, 1385–1393, 2006. [17] S. Haykin, Neural Networks: A Comprehensive Founda- tion, New Jersey, Prentice-Hall, 1999. Marko Bratina je leta 2006 magistriral na Univerzi v Ljubljani, Fakulteti za elektrotehniko. Zaposlen je v pod- jetju Savatech v Kranju kot vodja elektroprojektive in vzdrževanja elektronike. Dela na področju procesne av- tomatizacije, v zadnjem času tudi pri uvajanju adaptivnih sistemov v proizvodni proces. Andrej Dobnikar je redni profesor na Univerzi v Lju- bljani, Fakulteti za računalništvo in informatiko. Razisko- valno se ukvarja z metodami mehkega računanja, po- razdeljenimi in adaptivnimi sistemi. Uroš Lotrič je docent na Univerzi v Ljubljani, Fakul- teti za računalništvo in informatiko. Raziskovalno dela na področjih nevronskih mrež v povezavi z informacijsko teorijo in porazdeljenim procesiranjem.