1 Uvod
Splošni modeli dinamičnih sistemov poskušajo izluščiti
pomembne lastnosti procesov neposredno iz obnašanja
merljivih parametrov skozi čas. Temeljijo na pred-
postavki, da bodo značilnosti, opažene v preteklosti, ob-
stajale še naprej. Pred samim modeliranjem vhodne po-
datke pogosto pripravimo, na primer s filtriranjem ali
metodami za iskanje značilk, s čimer poskušamo poenos-
taviti modeliranje. Metode predprocesiranja so zelo ra-
zlične – od popolnoma statističnih do takšnih, ki temeljijo
na uspešnosti končnega modela [6].
Večina splošno uveljavljenih metod za analizo in
Modeliranje časovnih vrst z metodami teorije informacij 241
modeliranje sistemov v veliki meri predvideva statis-
tiko drugega reda. V zadnjem času se za reševanje
čedalje zahtevnejših problemov uveljavljajo rešitve, ki
presegajo njene omejitve [1]. Zmogljivosti sodobnih
računalniških sistemov so omogočile uporabo idej s
področja informacijske teorije tudi pri modeliranju di-
namičnih sistemov [2]. Osnove teorije informacij izha-
jajo s konca prve polovice 20. stoletja, ko je Shannon
postavil matematično teorijo za obravnavanje temeljnih
vidikov komunikacijskih sistemov. Definicije osnovnih
mer, to je entropije, divergence in povprečne medsebojne
informacije, izhajajo iz verjetnostne teorije in statistike.
Vsaka mera v svojem kontekstu opredeljujejo količino
informacije v naključnih spremenljivkah, zato jih lahko
učinkovito uporabimo tudi na drugih področjih. Na
primer, entropijo in divergenco kot cenilno funkcijo pri
modeliranju s splošnimi modeli [3], povprečno medsebo-
jno informacijo pa kot mero za medsebojno povezanost
podatkov [4, 5].
V delu se bomo osredinili na problem izbiranja
vplivnih podatkov za potrebe modeliranja in na pro-
blem samega modeliranja nelinearnih dinamičnih siste-
mov z metodami, zasnovanimi na teoriji informacij. V
drugem poglavju bomo predstavili osnovne koncepte in
razširitve informacijske teorije, v tretjem poglavju pa
bomo nakazali, kako jih je mogoče uporabiti pri pred-
procesiranju podatkov. V četrtem poglavju bomo na
kratko predstavili, kako lahko v dvoplastnem percep-
tronu kot kriterijsko funkcijo uporabimo mero, ki izhaja
iz teorije informacije. Predstavljeni koncepti bodo nato v
petem poglavju tudi praktično ovrednoteni na problemih
napovedovanja znanih časovnih vrst. Nazadnje bodo v za-
ključku povzete prednosti in slabosti uporabe konceptov
informacijske teorije v primerjavi z že uveljavljenimi.
2 Mere informacijske teorije
Osnovni meri, ki izhajata iz teorije informacij, sta en-
tropija in divergenca [2]. Shannonova entropija, ki meri
nedoločenost naključnega vektorja X z gostoto verje-
tnostne porazdelitve p(x), je definirana kot
H(X) = −
∫
p(x) log p(x)dx . (1)
Podobno Kullback-Lieblerjeva divergenca meri podob-
nost med pravo gostoto porazdelitve p(x) naključne spre-
menljivke X in njeno oceno r(x),
D(p; r) = −
∫
p(x) log
p(x)
r(x)
dx . (2)
Medsebojno povezanost spremenljivk Xi z gostotami
verjetnostnih porazdelitev pi(x
i), ki sestavljajo vektor
X = (X1, . . . ,XN )T , lahko ocenimo z mero [7]
J(X) = D
(
p(x);
N
∏
i=1
pi(x
i)
)
=
N
∑
i=1
H(Xi) − H(X) . (3)
Kadar nas zanima količina informacije, ki jo o naključni
spremenljivki Y z verjetnostno porazdelitvijo q(y) vse-
buje naključni vektor X, je ta mera kar enaka medsebojni
informaciji
I(X;Y ) = H(X) + H(Y ) − H(X, Y ) (4)
= H(X) − H(X|Y ) , (5)
pri čemer je H(X, Y ) skupna nedoločenost vektorja X
in spremenljivke Y , H(X|Y ) pa povprečna nedoločenost
vektorja X, če poznamo spremenljivko Y .
Računanje zgornjih mer je zaradi integralov, ki
nastopajo v definicijah, izredno zahtevno. Zato se
namesto Shannonove entropije pogosto uporablja Reny-
ijeva entropija [7],
HR(X) =
1
1 − α
log
∫
pα(x)dx , (6)
ki ji je v limiti α → 1 enaka. Analogno v limiti α → 1
Renyijeva divergenca
DR(p; r) =
1
α − 1
log
∫
p(x)
(
p(x)
r(x)
)α−1
dx (7)
preide v Shannonovo. V nadaljevanju se bomo omejili
na obravnavanje kvadratnih Renyijevih mer s parametrom
α = 2. V nasprotju s Shannonovimi merami nobena
od relacij (4) in (5) ne velja za Renyijeve mere [5], zato
so v nadaljevanju mere, ki izhajajo iz omenjenih relacij,
označene z apostrofom.
V praksi se gostota verjetnostne porazdelitve zvezne
spremenljivke največkrat oceni z metodo Parzenovega
okna [8]
p(X) = K−1
K
∑
k=1
G (x − xk) , (8)
kjer so xi, i = 1, . . . ,K naključne vrednosti (me-
ritve) vektorja X in G(x) izbrana jedrna funkcija.
Pogosto za jedrno funkcijo uporabimo Gaussovo funkcijo
G(x) =
∏N
i=1 Ghi(x
i), kjer je Ghi(x
i) enodimenzio-
nalna Gaussova porazdelitev. Ena od možnosti je, da
širino porazdelitve določimo s Silvermanovo oceno [9]
hi = 1,06σiK
−0,2, kjer je σi standardno odstopanje spre-
menljivke Xi od povprečja.
Ko v definicijo Renyijeve entropije (6) vstavimo na-
stavek Parzenovega okna (8) ter upoštevamo, da je inte-
gral produkta dveh Gaussovih funkcij Gaussova funkcija
razlike srednjih vrednosti osnovnih Gaussovih funkcij z
dvojno varianco, vidimo, da Renyijev informacijski po-
tencial
VR(X) =
∫
p2(x)dx =
∫
(
1
K
∑
i
Gh(x − xi)
)2
dx
242 Bratina, Dobnikar, Lotrič
=
1
K2
∑
j
∑
i
Gh
√
2
(xj − xi) (9)
in s tem entropijo HR(X) = − log VR(X) izračunamo
brez računsko požrešnih integracij [7].
3 Iskanje značilk
Z metodami za iskanje značilk poskušamo iz vhodnih
podatkov izluščiti najpomembnejše značilnosti ter s tem
poenostaviti modeliranje in izboljšati odzivnost mode-
lov in njihovo sposobnost posploševanja. Metode se
med seboj ločijo po kriterijski funkciji, s katero izbiramo
značilke – ta je lahko zasnovana na lastnostih značilk ali
pa kar na uspešnosti modela.
3.1 Klasične metode
Značilne spremenljivke lahko izbiramo s pomočjo spek-
tralne in kovariančne analize, ali pa z bolj ali manj in-
tenzivnim preiskovanjem mogočih naborov z različnimi
hevrističnimi metodami ali iskalnimi postopki, na primer
evolucijskimi [10]. V nadaljevanju se bomo omejili na
dve hevristični metodi. Pri prvi (H1) bomo za značilke
izbrali določeno število zadnjih spremenljivk v časovni
vrsti. Število bomo določili tako, da bo modeliranje čim
uspešnejše. Pri drugi metodi (H2) bomo nabor značilk
gradili postopoma. V vsakem koraku bomo med značilke
vključili tisto od preostalih spremenljivk, ki bo skupaj z že
izbranimi značilkami pripeljala do najboljšega modela.
Značilke lahko sestavimo tudi kot linearne kom-
binacije vhodnih spremenljivk. To omogoča metoda
glavnih osi (ang. Principal Component Analysis, PCA).
Gre za matematični postopek [11], v katerem se iz os-
novnih vhodnih spremenljivk sestavi manjše število neod-
visnih značilk ali glavnih osi. Prva glavna os je posta-
vljena tako, da ima največjo mogočo varianco. Podobno
je vsaka naslednja glavna os postavljena tako, da ima
največjo varianco na preostalih podatkih. Ponavadi pri
nadaljnjem modeliranju uporabimo nekaj prvih glavnih
osi. V nadaljevanju smo izbrali glavne osi, pri katerih
je varianca večja od 1 % variance glavne osi.
3.2 Analiza neodvisnih komponent
Analiza neodvisnih komponent (ang. Independent
Component Analysis, ICA) [12] predvideva, da lahko
izmerjene signale zk zapišemo kot linearno mešanico
statistično neodvisnih signalov, sk, zk = Ask. Z ana-
lizo neodvisnih komponent želimo poiskati tako matriko
B, da bodo značilke xk = Bzk = BAsk kar najboljši
približek statistično neodvisnih signalov sk. V prvem
koraku s transformacijo z′k = D
−1/2
V
T
zk, v kateri je
D diagonalna matrika lastnih vrednosti, V pa matrika
lastnih vektorjev avtokorelacijske matrike vektorjev zk,
poskrbimo, da je avtokorelacijska matrika vektorjev z′k
identiteta. V drugem koraku nato poiščemo rotacijsko
matriko R, ki nam da tak vektor signalov xk = Rz
′
k,
pri katerem je izbrana kriterijska funkcija optimalna. Če
želimo, da imajo vektorji xk manjše število komponent
kot vektorji zk, na slednjih pred opisanim postopkom
uporabimo metodo glavnih osi.
Obstaja več metod analize neodvisnih komponent [13,
14], nekaj jih temelji na teoriji informacije. Če vektorje
xk razumemo kot točke naključnega vektorja X, potem
lahko za kriterijsko funkcijo uporabimo Renyijevo med-
sebojno informacijo vektorja, ki izhaja iz (7). Ker pa
je njen izračun časovno zahteven, se ponavadi uporabi
kar zveza (3), v kateri namesto Shannonove uporabimo
Renyijevo entropijo [5]. Skupna entropija vektorja X
je invariantna na rotacije [15] , zato lahko zadnji člen
v (3) izpustimo in minimiziramo samo vsoto entropij
posamičnih signalov J ′R(X) =
∑N
i=1 HR(X
i). Rotaci-
jsko matriko, ki minimizira mero J ′R(X), iščemo itera-
tivno, na primer po postopku najhitrejšega sestopa, po
katerem je sprememba rotacijske matrike enaka ∆R =
−η ∂J ′R(X)/∂R [5].
3.3 Metoda najznačilnejših projekcij
Tako kot pri analizi neodvisnih komponent tudi pri metodi
najznačilnejših projekcij (ang. Maximally Discrimina-
tive Projections, MDP) iščemo značilke xk, ki so linearne
kombinacije osnovnih meritev zk z dvofaznim postop-
kom [16]. Bistvena razlika med metodama je v zasnovi
kriterijske funkcije. Medtem ko je pri analizi neodvis-
nih komponent ta odvisna samo od vhodnih podatkov, jo
pri metodi najznačilnejših projekcij določajo odvisnosti
med vhodnimi podatki in ustreznimi izhodi iz modela.
Opisanemu konceptu ustreza maksimizacija mere med-
sebojne informacije med vhodnimi in izhodnimi spre-
menljivkami.
Računanje prave Renyijeve medsebojne informacije
je preveč zahtevno, zato se uporablja približek, ki izhaja
iz (5), v kateri Shannonove entropije zamenjamo z Reny-
ijevimi. Ta mera se še dodatno poenostavi v primeru, ko
želimo z modelom vhodne podatke uvrščati v C vnaprej
podanih razredov. Takrat lahko zapišemo
I ′R(X;Y ) = HR(X) − HR(X|Y )
= HR(X) −
C
∑
c=1
nc
n
HR(X|Y = c) , (10)
kjer je nc število podatkov, ki se uvrščajo v razred c,
HR(X|Y = c) pa nedoločenost vektorja X pri uvrščanju
v ta razred. Pri računanju entropije HR(X) uporabimo
vse vzorce, pri računanju entropije HR(X|Y = c) pa le
vzorce, ki spadajo v razred c. Tako kot pri analizi neodvis-
nih komponent rotacijsko matriko popravljamo iterativno
glede na vrednosti gradienta kriterijske funkcije [16].
Modeliranje časovnih vrst z metodami teorije informacij 243
4 Modeliranje z nevronskimi mrežami
Nevronske mreže spadajo med splošne nelinearne mo-
dele, ki izbrano vrednost v časovni vrsti povezujejo s
predhodnimi vrednostmi. Nevronska mreža dvoplastni
perceptron [17], ki smo jo uporabili pri analizi, ima v
skriti plasti MH nelinearnih nevronov, v izhodni plasti pa
MO linearnih nevronov. Odziv modela lahko opišemo z
enačbama
x
H
k = tanh (WHxk + bH) in (11)
x
O
k = WOx
H
k + bO . (12)
Z učenjem na parih vhodno-izhodnih vzorcev
(xk,dk), k = 1, . . . ,K proste parametre modela, uteži
WH in WO ter pragove bH in bO nastavimo tako, da
optimiziramo izbrano kriterijsko funkcijo na podlagi
napak ek = dk − x
O
k , k = 1, . . . ,K med dejanskimi
in izračunanimi vrednostmi. Ponavadi minimiziramo
povprečno kvadratno napako E(E) = 1
NOK
∑K
k=1 e
T
k ek.
Med merami, ki izhajajo iz informacijske teorije, je
primerna minimizacija nedoločenosti napake. Ob pred-
postavki, da napake ek tvorijo naključni vektor E, se za
kriterijsko funkcijo največkrat uporablja minimizacija
entropije oziroma maksimizacija informacijskega
potenciala VR(E), podanega v (9).
Pri minimizaciji povprečne kvadratne napake z gra-
dientnimi metodami gradiente izračunamo po znanem
vzvratnem postopku [17]. Po analognem postopku je
mogoče izračunati tudi gradiente informacijskega poten-
ciala [3]. Informacijski potencial ni odvisen od povprečja
porazdelitve napak, zato se lahko zgodi, da po končani
optimizaciji povprečje napak ne bo nič. Ker pa so izhodni
nevroni linearni, lahko anomalijo odpravimo tako, da po
končanem učenju ustrezno nastavimo pragove izhodnih
nevronov [7].
5 Eksperimentalno delo
Omejili se bomo na modeliranje diskretnih časovnih
vrst, vzorčenih v enakomernih časovnih presledkih. Za
napovedovanje smo izbrali pet časovnih vrst: povprečno
letno število sončevih peg (Pege), kaotično logistično
preslikavo (LP), kaotično časovno vrsto Mackey-Glass
(MG) ter tečaj delnice podjetja Sava (Sava) in vrednosti
borznega indeksa SBI20 (SBI) v obdobju od začetka
aprila 2007 do konca junija 2008. Modelirali smo
na dva načina: pri prvem smo napovedovali vrednost
časovne vrste v naslednjem koraku, pri drugem pa smo
pričakovane spremembe vrednosti v časovni vrsti uvrščali
v pet razredov. V vsaki časovni vrsti je bilo 308 po-
datkov, od katerih smo jih prvih 80 % uporabili za mo-
deliranje, zadnjih 20 % pa za testiranje in primerjavo
uspešnosti modelov. Da smo omejili velikost modelov,
so le-ti smeli za napoved naslednje vrednosti uporabiti
12 predhodnih vrednosti, poleg tega pa število prostih
parametrov modela ni smelo presegati 40 % števila po-
datkov v časovnih vrstah. Da bi se izognili naključnim za-
ustavitvam optimizacije v lokalnih minimumih, smo vsak
model zgradili desetkrat, vsakič z naključno določenimi
začetnimi parametri. V nadaljevanju so predstavljeni naj-
boljši rezultati na testnih množicah.
5.1 Napovedovanje vrednosti
Za napovedovanje naslednje vrednosti v časovni vrsti
z dvoplastnim perceptronom so bili uporabljeni štirje
različni načini izbiranja značilk in dve kriterijski
funkciji. Uspešnost napovedovanja je pri vsakem mo-
delu podana s tremi cenilnimi funkcijami: s koren-
jeno povprečno kvadratno napako, normalizirano na stan-
dardno odstopanje časovne vrste od povprečja (ang.
Normalized Root Mean Squared Error), NRMSE =
√
E(E)/σ, z normaliziranim informacijskim poten-
cialom (ang. Normalized Information Potential), NIP =
VR(E)/max{VR(E)} in s številom prostih parametrov
modela (NPAR). Rezultati so v obliki grafikonov pred-
stavljeni na sliki 1. Na grafikonih vidimo, da sta vrednosti
Slika 1. Uspešnost napovedovanja naslednje vrednosti v časovni
vrsti, ocenjena z različnimi cenilnimi funkcijami. Stolpci v
enakem odtenku sive ustrezajo isti metodi iskanja značilk. Pri
tem levi stolpec pomeni rezultat, dobljen pri modeliranju s kri-
terijsko funkcijo E(E), desni pa pri modeliranju s kriterijsko
funkcijo VR(E)
Figure 1. Quality of prediction of the future value in a time se-
ries estimated with different performance measures. Bars in the
same shade of gray belong to the same preprocessing method,
where the left and the right bar always represent results obtained
by optimizing function E(E) and VR(E), respectively
NRMSE in NIP korelirani – majhna vrednost NRMSE se
odraža v veliki vrednosti NIP in nasprotno.
Zaradi lažje primerjave metod so povprečne vred-
nosti uporabljenih cenilnih funkcij na vseh petih časovnih
vrstah zbrane v tabeli 1. Pri večini časovnih vrst se je
najbolje izkazalo izbiranje značilk s hevristično metodo
244 Bratina, Dobnikar, Lotrič
H1 H2 PCA ICA
NRMSE 0,17 0,15 0,52 0,19
min NIP 0,96 0,97 0,80 0,95
E(E) NPAR 29 38 21 19
max NRMSE 0,32 0,14 0,22 0,13
VR(E) NIP 0,86 0,96 0,97 0,97
NPAR 38 61 25 25
Tabela 1. Povprečne vrednosti cenilnih funkcij pri napove-
dovanju naslednje vrednosti v časovni vrsti
Table 1. Average values of performance measures (taken over
all time series) in prediction of the future value in a time series
H2. žZal je ta metoda zaradi postopne gradnje nab-
ora značilk na podlagi uspešnosti modela med vsemi
računsko daleč najzahtevnejša. Po drugi strani daje izbi-
ranje značilk z metodo PCA najslabše rezultate. Ra-
zlog verjetno tiči v tem, da manj pomembne glavne osi,
ki se pri modeliranju ne uporabljajo, skrivajo pomem-
bne podrobnosti o časovni vrsti. Pri modeliranju z mi-
nimizacijo povprečne kvadratne napake tudi metoda ICA
ni prepričljiva. Nasprotno pa je pri modeliranju z ma-
ksimizacijo informacijskega potenciala izbiranje značilk
z metodo ICA za malenkost uspešnejše kot z metodo
H2, pri čemer imajo modeli v povprečju manj prostih
parametrov. Poleg tega ta kombinacija izbiranja značilk in
modeliranja v večini primerov pripelje do modelov, ki se
izkazujejo z največjo vrednostjo NIP in najmanjšo vred-
nostjo NRMSE.
Na sliki 1 izstopajo visoke vrednosti NRMSE in s tem
nizke vrednosti NIP pri napovedovanju logistične presli-
kave s hevrističnima metodama H1 in H2 v kombinaciji
z maksimizacijo informacijskega potenciala. Kaotična
logistična preslikava je podana z diferenčno enačbo, ki
jo mora model za uspešno modeliranje rekonstruirati iz
časovne vrste. To, da modeliranje le-te ni bilo uspešno
v nobenem od 10 poskusov, nakazuje na slabše kover-
genčne lastnosti pri optimizacije modelov z informacij-
skim potencialom.
5.2 Uvrščanje v razrede
V tem poskusu smo poskušali napovedati razliko med
novo in zadnjo znano vrednostjo v časovni vrsti. Da
bi lahko ovrednotili tudi metodo najznačilnejših pro-
jekcij, smo modele zasnovali tako, da pričakovano
razliko uvrstijo v enega od petih razredov: veliko
zmanjšanje, majhno zmanjšanje, neznatna sprememba,
majhno povečanje in veliko povečanje. Meje med razredi
so določene tako, da so le-ti kar najbolj enakovredno za-
stopani. Slika 2 prikazuje uspešnost uvrščanja napovedi v
razrede za vseh pet časovnih vrst. Kot mero za uspešnost
uvrščanja smo dodali še delež uvrstitev napovedi v pravi
razred (POK). Večje vrednosti NRMSE in manjše vred-
Slika 2. Uspešnost uvrščanja napovedi v razrede, ocenjena z ra-
zličnimi cenilnimi funkcijami. Stolpci v enakem odtenku sive
ustrezajo isti metodi iskanja značilk. Pri tem levi stolpec kaže
rezultat, dobljen pri modeliranju s kriterijsko funkcijo E(E),
desni pa pri modeliranju s kriterijsko funkcijo VR(E)
Figure 2. Quality of classification of the predicted value in a
time series estimated with different performance measures. Bars
in the same shade of gray belong to the same preprocessing
method, where the left and the right bar always represent results
obtained by optimizing function E(E) and VR(E), respectively
nosti NIP kažejo, da je tako spremenjeni problem težje
modelirati. To še posebej velja za časovni vrsti Sava in
SBI.
H1 H2 PCA ICA MDP
NRMSE 0,55 0,55 0,61 0,52 0,53
min . NIP 0,67 0,66 0,63 0,69 0,67
E(E) NPAR 55 42 29 51 45
POK 0,56 0,57 0,52 0,62 0,58
NRMSE 0,66 0,56 0,73 0,68 0,57
max . NIP 0,63 0,69 0,58 0,60 0,69
VR(E) NPAR 37 26 25 78 87
POK 0,53 0,61 0,48 0,50 0,60
Tabela 2. Povprečne vrednosti cenilnih funkcij pri uvrščanju
napovedi v razrede
Table 2. Average values of the performance measures (taken
over all time series) in classification of the predicted value to
the five predefined classes
Zaradi lažje primerjave metod so v v tabeli 2 pred-
stavljene povprečne vrednosti cenilnih funkcij čez vseh
pet časovnih vrst. Pri optimizaciji povprečne kvadratne
napake so v povprečju metode H2, ICA in MDP zelo
enakovredne. Če odmislimo časovno izredno zahtevno
metodo H2, daje v tem primeru najboljše rezultate izbi-
ranje značilk z metodo ICA. Prednost pred metodo MDP
si je pridobila ravno z dobrim modeliranjem logistične
preslikave. Pri optimizaciji informacijskega potenciala
so rezultati večinoma najboljši v primerih, ko se značilke
določajo z metodama H2 in MDP. Medsebojna primerjava
uspešnosti modelov, dobljenih z optimizacijo povprečne
kvadratne napake na eni strani in informacijskega po-
tenciala na drugi, pokaže, da dajejo pri napovedovanju
v razrede modeli, zgrajeni z optimizacijo povprečne
kvadratne napake, boljše rezultate. Razlog je verjetno
v tem, da je konvergenca proti optimumu informacij-
skega potenciala bistveno počasnejša kot proti optimumu
povprečne kvadratne napake, zato se prva optimizacija
pogosto konča v lokalnem minimumu.
Podobno kot pri napovedovanju vrednosti pri kaotični
logistični preslikavi ponovno opazimo slabe rezultate,
dobljene pri optimiziranju informacijskega potenciala
(slika 2), kar ponovno kaže na slabše konvergenčne last-
nosti pri uporabi te kriterijske funkcije.
6 Sklep
V prispevku so predstavljene možnosti uporabe mer,
ki izhajajo iz teorije informacij, pri iskanju značilk v
podatkih in pri samem modeliranju dinamičnih siste-
mov. Mere, ki izhajajo iz teorije informacij, so primer-
jane z nekaterimi klasičnimi merami pri gradnji di-
namičnih modelov petih časovnih vrst. Rezultati so
pokazali, da sta obe metodi iskanja značilk, ki izha-
jata iz informacijske teorije, boljši ali vsaj primerljivi
z računsko intenzivnimi klasičnimi metodami. Slabše
se je kot nadomestek povprečne kvadratne napake pri
določanju prostih parametrov modela izkazal informa-
cijski potencial. Poleg počasnega izračunavanja poten-
ciala zaradi dvojne vsote v sami definiciji je konvergenca
pri njegovi uporabi veliko počasnejša, zato se pogosto
zgodi, da se optimizacija ustavi v lokalnem minimumu.
Zaradi počasnejše konvergence je informacijski poten-
cial uporabna mera predvsem v bližini optimuma, kjer bi
lahko zamenjal klasično povprečno kvadratno napako.
7 Literatura
[1] A. Dobnikar, Modeliranje nelinearnih dinamičnih siste-
mov na osnovi teorije informacij, Znanje za trajnostni
razvoj: zbornik povzetkov referatov 27. mednarodne kon-
ference o razvoju organizacijskih znanosti, Slovenija, Por-
torož, 32–45, 2008.
[2] J.C.A. van der Lubbe, Information Theory, Cambridge,
Cambridge University, 1997.
[3] D. Erdogmus, J.C. Principe, An Error-Entropy Mini-
mization Algorithm for Supervised Training of Nonlinear
Adaptive Systems, IEEE trasactions on signal processing,
50, 1780–1786, 2002.
[4] F.C. Richards, T.P. Meyer, N.H. Packard, Extracting cel-
lular automation rules directly from experimental data,
Physica D, 45, 189–202, 1990.
[5] K.E. Hild, D. Erdogmus, J.C. Principe, Blind source sep-
aration using Renyi’s Mutual Information, IEEE Signal
Processing Letters, 8, 2001.
[6] U. Lotrič, A. Dobnikar, Matrix formulation of the multi-
layered perceptron with a denoising unit, Elektrotehniški
vestnik, 70, 4, 221–226, 2003.
[7] D. Erdogmus, J.C. Principe, From Adaptive Filtering to
Nonlinear Information Processing, IEEE Signal Process-
ing Magazine, 23, 6, 14–33, 2006.
[8] J. Beirlant, E. Dudewicz, L. Gyorfi, E. van der Meulen,
Nonparametric entropy estimation: an overview, Interna-
tional Journal of Mathematical and Statistical Sciences,
80, 1, 17-39, 1997.
[9] J.M. Santos, J.M. de Sa, L.A. Alexandre, LEGClustA
Clustering Algorithm Based on Layered Entropic Sub-
graphs, IEEE Transactions on Pattern Analysis and Ma-
chine Intelligence, 30, 1, 62–75, 2008.
[10] A.A. Freitas, Data Mining and Knowledge Discovery with
Evolutionary Algorithms, Berlin Heidelberg, Springer,
2002.
[11] A. Gorban, B. Kegl, D. Wunsch, A. Zinovyev, Principal
Manifolds for Data Visualisation and Dimension Reduc-
tion, New York, Springer, 2007.
[12] P. Comon, Independent Component Analysis: a new con-
cept?, Signal Processing, 36, 3, 287–314, 1994.
[13] J.-F. Cardoso, High-order contrasts for independent com-
ponent analysis, Neural Computation, 11, 157–192, 1999.
[14] A. Hyvarinen, Fast and Robust Fixed-Point Algorithms for
Independent Component Analysis, IEEE Transactions on
Neural Networks, 10, 3, 626–634, 1999.
[15] J.-M. Wu, M.-H. Chen, Z.-H. Lin, Independent compo-
nent analysis based on marginal density estimation using
weighted Parzen windows, Neural Networks, 21, 7, 914–
924, 2008.
[16] K.E. Hild, D. Erdogmus, K. Torkkola, J.C. Principe, Se-
quential Feature Extraction Using Information Theoretic
Learning, IEEE Transactions on Pattern Analysis and Ma-
chine Intelligence, 28, 9, 1385–1393, 2006.
[17] S. Haykin, Neural Networks: A Comprehensive Founda-
tion, New Jersey, Prentice-Hall, 1999.
Marko Bratina je leta 2006 magistriral na Univerzi v
Ljubljani, Fakulteti za elektrotehniko. Zaposlen je v pod-
jetju Savatech v Kranju kot vodja elektroprojektive in
vzdrževanja elektronike. Dela na področju procesne av-
tomatizacije, v zadnjem času tudi pri uvajanju adaptivnih
sistemov v proizvodni proces.
Andrej Dobnikar je redni profesor na Univerzi v Lju-
bljani, Fakulteti za računalništvo in informatiko. Razisko-
valno se ukvarja z metodami mehkega računanja, po-
razdeljenimi in adaptivnimi sistemi.
Uroš Lotrič je docent na Univerzi v Ljubljani, Fakul-
teti za računalništvo in informatiko. Raziskovalno dela
na področjih nevronskih mrež v povezavi z informacijsko
teorijo in porazdeljenim procesiranjem.