1 UVOD
V tem članku je predstavljena hierarhična kompozicio-
nalna shema za detekcijo in razpoznavanje aktivnosti.
Kar zadeva razpoznavanje aktivnosti, je gibanje naj-
pomembnejši kanal vizualne informacije, zato predsta-
vljena shema temelji izključno na gibanju. Predstavljeno
delo naslavlja tri pomembne izzive pri analizi gibanja.
Prvi izziv je količina informacije, saj imamo pri analizi
gibanja običajno opravka z zaporedji slik. To pomeni,
da je za obdelavo v realnem času treba obdelati do
nekaj deset slik na sekundo. Zato izziv ni le, kako
zaznati in razpoznati aktivnosti, ampak predvsem, kako
to izvesti čim hitreje. Naslednji izziv je, kako razvezati
gibanje od drugih vizualnih kanalov (oblike, prostor-
skega vida in barve) in kljub temu obdržati uporabno in-
formacijo. Takšna zasnova ima dve prednosti: omogoča
učinkovitejši zapis, kar zmanjša nevarnost kombina-
torične eksplozije zaradi prekompleksnih značilnic, ter
olajša razlago, kako je sistem prišel do določenega
zaključka. To je pomembna prednost v sistemih, ki naj bi
izkazovali človeku podobno inteligenco (npr. inteligentni
roboti in robotski pomočniki). Po drugi strani pa niso
vsi kanali vizualne informacije enako pomembni za vse
naloge računalniškega vida (tipičen primer je analiza
aktivnosti, kjer je načeloma gibanje najpomembnejši vir
HIERARHIČNA KOMPOZICIONALNA ARHITEKTURA ZA DETEKCIJO IN RAZPOZNAVANJE AKTIVNOSTI 259
informacij), vendar za dobro razpoznavanje potrebujemo
podatke iz več kanalov. Če informacijo združujemo že v
zgodnjih stopnjah obdelave, je to lahko manj učinkovito,
kot če to počnemo pozneje [14].
Predstavljena metoda naslavlja te izzive s paradi-
gmo kompozicionalne hierarhičnosti, biološko navdih-
njenega koncepta načrtovanja algoritmov [9], ki je bil
že uspešno uporabljen pri zasnovi najboljših algoritmov
za kategorizacijo objektov [15], [3], [20], [8], [2]. V
primerjavi s konkurenčnimi pristopi ponujajo kompozi-
cionalne hierarhije učinkovitejšo izrabo obstoječih vi-
rov. To dosežejo s pomočjo večkratne uporabe elemen-
tov slovarja in tudi že izvedenih izračunov, s tem pa
omogočajo tudi učinkovit prenos znanja. Predstavljen
pristop sicer v številnih vidikih sledi konceptom, ki so
jih predstavili Fidler in drugi [3], [2], vendar pa deluje na
gibanju, ne na obliki, in naslavlja problem detekcije in
razpoznavanja aktivnosti namesto kategorizacije objek-
tov. Opazovanje le gibanja sicer ne more popolnoma
rešiti problema razpoznavanja aktivnosti, vendar lahko,
če se osredinimo izključno na gibanje v zgodnji fazi
obdelave, združevanje informacij izvedemo pozneje, na
učinkovitejši način [14]. S takšnim pristopom tudi ne
podvajamo obdelave informacije, ki jo dobro zajamejo
že razvite metode, ki naslavljajo druge vizualne kanale,
recimo razpoznavanje oblike [3], [2]. Poleg tega, da je
to učinkovitejše[14], pa je takšen koncept, torej pozno
združevanje, opaziti tudi v bioloških vidnih sistemih [9].
Predlagano shemo prikazujeta sliki 1 in 2. Razumeti
je treba, da ob omejitvi zgolj na gibanje v posnetkih
ne moremo pričakovati izboljšanja glede na najboljše
algoritme, ki vključujejo vse vidne kanale, vključno z
obliko in teksturo. Vendar pa je, kot je bilo že omenjeno,
ločitev kanalov vidne informacije pomembna pri nadalj-
njem razvoju skalabilnih metod razpoznavanja. Čeprav
predstavljena metoda uporablja samo gibanje, vseeno
dosega presenetljivo dobre rezultate, hkrati pa dosega
boljše rezultate kot nekatere metode, ki se zanašajo samo
na gibanje brez drugih modalitet.
Preostanek članka je strukturiran, kot sledi. V po-
glavju 2 so predstavljeni najpomembnejši sorodni pri-
stopi, v poglavju 3 pa podrobnejši opis predlaganega
pristopa. V poglavju 4 so navedene izvedbene podrob-
nosti metode, v poglavju 5 eksperimenti in rezultati,
poglavje 6 pa zaključuje članek.
2 SORODNE RAZISKAVE
Raziskovalci so se problema detekcije in razpoznavanja
aktivnosti lotevali na različne načine. Večina pristo-
pov temelji na določanju tako imenovanih časovno-
prostorskih točk zanimanja (angl. space-time interest
points, STIP). Sekvenca slik je v teh primerih obde-
lana kot tridimenzionalni volumen I(x, y, t), v katerem
metode iščejo točke STIP. V okolici teh izračunajo
časovnoprostorske opisnike, ki jih potem s proce-
som rojenja združijo v manjše število vizualnih besed.
Značilnice so v tem primeru histogrami sopojavljanja teh
vizualnih besed, za razvrščanje posnetkov pa je ponavadi
uporabljena metoda podpornih vektorjev (angl. support
vector machine, SVM).
V [12] so avtorji predlagali tovrstno metodo, ki za-
jema dve vrsti opisnikov: prva zajame dinamiko scene
(torej gibanje), druga pa ozadje (torej statične elemente
prizora). V [10] je koncept razširjen z avtomatskim
izračunom optimalnih opisnikov za dani učni niz po-
snetkov. Opisnike dobijo s pomočjo globokih nevronskih
mrež (angl. deep belief networks). Tako dobijo opisnike,
ki opišejo tako časovne kot prostorske spremembe v 3D
časovnoprostorskem volumnu.
Še en primer uporabe mešanih modalnosti za analizo
aktivnosti [6], kjer je predstavljena hierarhična mreža,
enot, občutljivih na gibanje. Metoda izvede zaporedje
konvolucij in poišče maksimalen odziv na rezultatih
konvolucije. Na vrhu hierarhije je uporabljena metoda
SVM za izbiro najbolj diskriminativnih značilnic.
V [7] je predstavljena metoda, ki zakodira lokalno
gibanje v shemi, podobni lokalnim binarnim vzorcem.
Tako dobi krpice gibanja (angl. motion patches), ki jih
uporabi v shemi vreče besed. Tudi [19] uporablja vrečo
besed, s tem da identificira majhne atomične dogodke
iz premikajočih se slikovnih elementov in jih združi
v atomarne aktivnosti. Konceptualno podobna rešitev
je [17]. Uporablja gost optični tok ter tako zgradi zapis
zaporedij slik s pomočjo gostih trajektorij, ki ga pre-
tvori v opisnike s pomočjo posebnega opisnika (Motion
Boundary Histograms, MBH). Metoda dosega odlične
rezultate na standardnih zbirkah podatkov, še boljše
rezultate pa dosega, če je kombinirana z informacijo o
obliki. Izvedba, ki uporablja izključno MBH na gostih
trajektorijah, je ena redkih metod, ki temelji izključno
na uporabi informacije o gibanju.
Metode poskušajo izboljšati delovanje na različne
načine. Tako recimo [5] razširi prostorski model vreče
besed z diskriminativno razširitvijo, ki omogoča sočasno
segmentacijo in lokalizacijo dogodkov. V [1] je predla-
gano še bolj intenzivno mešanje modalitet za lokalizacijo
aktivnosti – sliko zakodira kot polje časovnoprostorskih
opisnikov in poišče časovnoprostorski podgraf, ki ma-
ksimira odziv naučenih razvrščevalnikov.
V nasprotju z večino pristopov [16] ugotavlja, da
aktivnost ni nujno povezana s kontekstom in je mogoče
dobiti boljše rezultate, če jo obravnavamo ločeno. Morda
najbolj soroden pristop k predlaganemu v tem članku
je [4]. Metoda zazna Harrisove značilne točke ločeno v
prostorskih in časovnoprostorskih ravninah na različnih
skalah. S pomočjo enostavnega prostorskega kodira-
nja hierarhično gradi predstavitve, tako da se najpogo-
stejši vzorci prenašajo na naslednji sloj. Metoda doseže
odlične rezultate na standardnih bazah posnetkov, vendar
pa gre, čeprav avtorji namigujejo drugače, tudi tu za
primer mešanja modalitet – predstavitev, ki jo zgradi
takšna metoda, zajame tako gibanje kot obliko in ni
nikakršnega zadržka, da ob ustreznih učnih podatkih ne
260 PERŠ, KRISTAN, MANDELJC, KOVAČIČ, LEONARDIS
bi zgradila hierarhije, ki bi bila popolnoma oprta samo
na obliko in teksturo.
3 STRUKTURA KOMPOZICIONALNEGA
HIERARHIČNEGA MODELA
Predlagani model za analizo gibanja je sestavljen iz
treh stopenj obdelave podatkov, kot to prikazuje slika 1.
Namen najnižje stopnje, sestavljene iz slojev L0 in L1,
je določanje najpreprostejših značilnic gibanja kvanti-
ziranih vektorjev optičnega toka. Srednja stopnja pred-
stavlja hierarhično kompozicionalno strukturo in je se-
stavljena iz več slojev, od L2 do LN . Večslojna struk-
tura zmanjšuje kompleksnost učenja zaradi omejenega
zaznavnega polja, v katerem opazujemo sosede vsakega
zaznanega elementa, saj izvajamo učenje le na enem
sloju hkrati. Takšna shema odpravlja potrebo po sočasni
oceni velikega števila parametrov v fazi učenja – najprej
izvedemo učenje na najnižjem sloju, potem pa nada-
ljujemo s slojem nad njim. Najvišja stopnja modela
vsebuje diskriminativno komponento – razvrščevalnik
SVM. Vsak sloj Li ima svoj slovar, Λi. Λ1 je določen
vnaprej, medtem ko slovarje višjih slojev pridobimo v
postopku učenja.
3.1 Izračun gibanja, sloja L0 in L1
Prva stopnja obdelave poskrbi za izračun preprostih
elementov gibanja iz posnetkov. L0 zgradi Gaussovo
piramido vsake slike ter izračuna razliko Gaussov, po-
dobno kot [11]. Tako nastanejo slike tistih področij, kjer
je gibanje mogoče dobro zaznati (robovi, oglišča), in to
na več skalah. Po postopku dušenja nemaksimalnih vre-
dnosti (angl. non-maxima suppression, NMS) je vsako
od teh področij predstavljeno z eno samo točko. Ve-
likost okna, v katerem izvajamo dušenje, in minimalna
vrednost preživelega maksimuma sta parametra sloja L0.
Sloj L1 primerja detektirane točke na dveh zaporednih
slikah in ocenjuje lokalno gibanje s pomočjo iskanja
najbližjega soseda v lokalni okolici. Koraki na slojih
L0 in L1 so ponovljeni na vseh skalah piramide, s
tem pa lahko metoda zazna gibanje v velikem razponu
magnitud. Kot končni korak obdelave na L1 so vektorji
gibanja kvantizirani glede na njihovo smer in magnitudo
– števili mogočih amplitud in smeri predstavljata para-
metra sloja L1. Kvantizacija je izvedena tako, da so vek-
torji z dolžino nič izločeni iz nadaljnje obdelave. Število
mogočih smeri in magnitud določa velikost slovarja na
sloju L1 – v našem primeru osmih mogočih smeri in treh
mogočih magnitud je velikost slovarja 8 × 3 = 24. Od
te stopnje naprej se vsa obdelava izvaja na kvantiziranih
vektorjih gibanja. Rezultati slojev L0 in L1 so prikazani
na sliki 2, skupaj s 24 osnovnimi elementi fiksnega
slovarja sloja L1.
3.2 Dušenje nezaželene vizualne informacije
Posebnost prve stopnje predlagane strukture je
dušenje kakršnekoli druge vizualne informacije razen
gibanja. Z dušenjem nemaksimalnih vrednosti na sliki
razlike Gaussov učinkovito odstranimo vso informacijo
v okolici ohranjene točke, tako da algoritem ne zajame
nikakršnih informacij o obliki ali teksturi. Tako v na-
sprotju z nekaterimi drugimi pristopi, na primer [4], [10],
preprečimo, da bi kompozicionalna struktura na drugi
stopnji obdelave gradila kakršnekoli modele oblike.
3.2.1 Grajenje hierarhičnih kompozicij – sloji L2-
LN : Kompozicionalna hierarhična struktura je sesta-
vljena iz N identično strukturiranih slojev, pri čemer
je N parameter strukture. Vhodni podatki v strukturo so
kvantizirani in labelirani vektorji gibanja. Vsak vektor
V je določen s svojimi tremi časovnoprostorskimi ko-
ordinatami in svojo oznako l, V = V (x, y, t, l). Izhod
vsakega sloja Li v kompozicionalni strukturi predsta-
vljajo kompozicije parov elementov nižjega sloja L(i−1).
Vsaka od kompozicij predstavlja nov element P , P =
P (x, y, t, l), in predstavlja načeloma enega od vhodnih
elementov višjega sloja. Vhodne elemente v najnižji
kompozicionalni sloj L2 predstavljajo kar kvantizirani
vektorji, zato zanje velja P 1 = V (x, y, t, l1), kjer
oznaka elementa l1 zavzema eno od mogočih vrednosti
iz slovarja Λ1, določenih s kvantizacijo na L1, l1 ∈ Λ1.
Slovarje višjih slojev, Λi, i > 1 pridobimo s postopkom
učenja.
Kompozicije na vseh slojih Li, i > 1 so definirane
kot pari tesno sopojavljenih elementov iz nižjega sloja,
torej velja za element j iz sloja Li naslednje:
P ij = P
i−1
m ∪ P
i−1
n , (1)
pri čemer sta m in n indeksa dveh elementov iz nižjega
sloja, ki tvorita element P ij . Časovnoprostorske koordi-
nate kompozicije so definirane kot centroidi lokacij obeh
elementov, ki sestavljata kompozicijo:
xij =
xi−1m + x
i−1
n
2
, yij =
yi−1m + y
i−1
n
2
, tij =
ti−1m + t
i−1
n
2
,
(2)
medtem ko je oznaka lij določena skozi dvodimenzio-
nalno indeksno tabelo ψi−1,i:
lij = ψ
i−1,i(li−1m , l
i−1
n ), (3)
ki indeksira pare oznak iz sloja Li−1 v oznake na sloju
Li. Ničle v indeksni tabeli ψi−1,i označujejo tiste kom-
pozicije, ki jih v indeksiranju iz sloja v sloj zavržemo.
Tesna sopojavitev dveh elementov je določena s
pomočjo dveh pragov, Rirfxy , na prostorski evklidski
razdalji med obema elementoma P i−1m in P
i−1
n , in R
i
rft
na njuni razdalji vzdolž časovne osi:
√
(xi−1m − xi−1n )2 + (yi−1m − yi−1n )2 < Rirfxy. (4)
ti−1m − t
i−1
n < R
i
rft. (5)
HIERARHIČNA KOMPOZICIONALNA ARHITEKTURA ZA DETEKCIJO IN RAZPOZNAVANJE AKTIVNOSTI 261
Slika 1: Tri stopnje obdelave v predlaganem kompozicionalnem hierarhičnem modelu. Prva stopnja je sestavljena iz L0 in L1,
druga iz (N-1) slojev L2 - LN , v tretji stopnji pa sta vzorčenje (vreča kompozicij) in razvrščevalnik SVM.
Oba pragova Rirfxy in Rrft odražata velikost cilin-
drično oblikovanega lokalnega zaznavnega polja in tako
predstavljata parametra vsakega od kompozicionalnih
slojev Li. V kompozicionalni shemi naj bi velikost za-
znavnega polja povečevali iz sloja na sloj, s čimer lahko
shema gradi vedno kompleksnejše predstavitve vhodnih
podatkov – v našem primeru gibanja. Upoštevati je treba,
da predlagana shema ne kodira časovnoprostorskih od-
nosov med zaznanima elementoma (prej, pozneje, spo-
daj, zgoraj), zato ne modelira ničesar drugega kot eno-
stavno bližino dveh elementov. Zato ima omejeno moč
predstavljanja kompleksnih struktur, kot bi načeloma
bila oblika na podlagi gibanja (angl. shape from motion).
3.2.2 Učenje strukture v slojih L2-LN : Za učenje
sloja Li potrebujemo izhod nižjega sloja Li−1, ki je
lahko kompozicionalen (Li, i > 1) ali pa ne (L1).
Učenje modela na sloju Li je izvedeno s pomočjo
optimizacije indeksne tabele ψi−1,i glede na naslednja
dva kriterija:
1) Pokritost: Čim več osnovnih elementov iz sloja
L1 (z dna kompozicionalne strukture) naj preživi
v prehodu iz sloja Li−1 v sloj Li. Ta kriterij
zagotavlja, da potencialno uporabna informacija,
ki vstopa v kompozicionalno strukturo, ni po ne-
potrebnem zavržena.
2) Slovar sloja, ki ga učimo, Li, Λi naj je čim manjši.
Omenjena kriterija sta v nasprotju in težita k slovarju,
ki je kompromis med najboljšo rekonstrucijo vhodne
informacije in najkrajšim naborom simbolov. Učenje je
izvedeno kot nelinearna optimizacija naslednje kriterij-
ske funkcije:
f(x) = −C1 + α|Λi|, (6)
kjer je C1 pokritost (razmerje števila osnovnih elemen-
tov iz sloja L1, katerih kompozicije na sloju Li bi
preživele ob trenutnem slovarju, in števila vseh elemen-
tov, ki iz L1 vstopajo v kompozicionalno strukturo),
|Λi| is je število elementov slovarja, α pa je utež, s ka-
tero nadzorujemo intenzivnost regularizacije, torej točko
kompromisa med nasprotujočima si kriterijema. Domena
x so vse mogoče kombinacije ničelnih in neničelnih
elementov v indeksni tabeli |Λi|. S pomočjo optimizacije
v bistvu določimo takšen slovar Λi, da velja:
Λi = arg min
x
f(x). (7)
Očitno je, da bi v najslabšem primeru popolnoma
naključnih vhodnih podatkov število kompzicionalnih
elementov v slovarju |Λi| raslo s kvadratom i, vendar pa
se izkaže, da pri realističnih podatkih raste počasneje. Da
pospešimo postopek optimizacije in bistveno zmanjšamo
prostor iskanja optimalnega slovarja, lahko že pred po-
stopkom optimizacije odstranimo delež mogočih kompo-
zicij, ki vstopajo v optimizacijski proces. To izvedemo
le za učenje sloja L3 (in višjih), kjer tako odstranimo
1% mogočih kompozicij, ki se v podatkih pojavljajo
najredkeje.
262 PERŠ, KRISTAN, MANDELJC, KOVAČIČ, LEONARDIS
(a)
(b)
Slika 2: Značilnice gibanja na primeru posnetka iz kategorije ”Diving”, zbirke podatkov UCF Sports Action Dataset [13].
(a) Izhod sloja L0, kvadratki označujejo lokalne maksimume razlike Gaussov. Večji kvadratek pomeni bolj grobo skalo. Črte
označujejo vektorje gibanja. (b) Izhod sloja L1 in fiksen slovar tega sloja. Radiji krogov ustrezajo amplitudi zaznanega gibanja,
puščice pa kažejo smer, oboje že po postopku kvantizacije.
3.2.3 Inferenca na slojih L2-LN : Inferenca je iz-
vedena kot zaporedje indeksiranj skozi indeksne ta-
bele ψi−1,i. Trenutno metoda ne upošteva drugih
časovnoprostorskih odnosov med elementi, razen tega
da določen element leži znotraj (časovnoprostorskega)
zaznavnega polja nekega drugega elementa. Zato je
indeksiranje s stališča računske zahtevnosti izjemno
hitra operacija, takoj ko potrdimo sopojavitev dveh
elementov. Iskanje sopojavitev je načeloma računsko
potratna operacija, vendar pa je zaradi počasne (manj
kot kvadratične) rasti velikosti slovarjev |Λi| skozi sloje
inferenca še učinkovitejša, če iščemo sopojavitve samo
tistih elementov, ki bi preživeli indeksiranje skozi dano
indeksno tabelo Λi.
3.3 Zajem značilnic in razvrščanje
Osnovni elementi, ki jih zaznamo pri obdelavi zapo-
redja slik skozi sloja L0 in L1, predstavljajo osnovne
gradnike gibanja, ki pa zrastejo v vedno kompleksnejše
gradnike skozi višje sloje. Pojavljanje elementov skozi
hierarhično strukturo je mogoče vzorčiti na različne
načine. Predlagana metoda zgradi vrečo kompozicij tako,
da izračuna histograme pojavljanja vseh elementov na
vseh slojih in jih sestavi v en sam vektor značilnic.
Ta postopek je na vrhu predlagane kompozicionalne
piramide, kot jo prikazuje slika 1.
Pristop z vrečo kompozicij naredi predlagano me-
todo povsem invariantno na časovni odmik aktivnosti
znotraj zaporedja slik. Da se ta učinek zmanjša, so
podatki najprej razdeljeni vzdolž časovne osi v M
ločenih, enako dolgih odsekov in zajeti v M histo-
gramov, ki so na koncu sestavljeni v en sam daljši
vektor značilk. Za razvrščanje tako pridobljenih vektor-
jev značilk je bila uporabljena javno dostopna izvedba
razvrščevalnika [10], katere struktura je opisana v [18],
temelji pa na metodi podpornih vektorjev z jedrom χ2.
3.4 Velikost naučenega modela
V predstavljeni arhitekturi je znanje zgoščeno v hi-
erarhiji indeksnih tabel |λi|, ki omogočajo prevedbo
oznak elementov na sloju li−1 v oznake na sloju li.
Tako za slovarje z do 256 elementi potrebujemo le polje
osembitnih števil z maksimalno dimenzijo 256 × 256,
da shranimo eno indeksno tabelo, pa še v tej tabeli
ima velik del elementov vrednost nič. Če je kot zadnja
stopnja razpoznavanja uporabljen razvrščevalnik SVM,
je treba shraniti še njegov model, podobno kot pri drugih
pristopih z vrečo besed, kot sta [10] in [18].
4 IZVEDBA PREDLAGANE METODE
Predlagana shema izraža najpomembnejši prednosti
kompozicionalnih hierahičnih arhitektur – hitro infe-
renco in kompakten zapis znanja. Toda, čeprav so kom-
pozicionalne arhitekture znane kot hitre in učinkovite
pri obdelavi posameznih slik, se pri obdelavi posnetkov
HIERARHIČNA KOMPOZICIONALNA ARHITEKTURA ZA DETEKCIJO IN RAZPOZNAVANJE AKTIVNOSTI 263
soočamo s problemom, katerega računska zahtevnost
je za nekaj razredov velikosti večja. Shema je bila
načrtovana z namenom vzporedne izvedbe, predvsem na
modernih splošnonamenskih grafičnih procesorjih (angl.
(General Purpose) Graphic Processing Unit, GPU). Vsi
najpomembnejši sestavni deli predlagane metode se tako
zlahka preslikajo na masivno vzporedno računsko arhi-
tekturo, kot je to prikazano v nadaljevanju.
4.1 Sloja L0 in L1
Čeprav je mogoče Gaussovo glajenje zlahka izvesti
na grafičnem procesorju, le-to ni glavno ozko grlo.
Pomembnejše je, da sta tako dušenje nemaksimalnih
vrednosti in izračun vektorjev gibanja (iskanje kore-
spondenc) izvedena na masivno vzporedni arhitekturi,
s pomočjo orodja Jacket za Matlab∗ in njegovega pro-
gramskega bloka gfor. Za boljši izkoristek grafičnega
procesorja slike obdelujemo v paketih po 20 slik.
4.2 Sloji L2 in višji
Čeprav hierarhična shema omogoča učinkovito is-
kanje s tem, da iščemo samo tiste kompozicije, ki
bodo preživele indeksiranje, je mogoče vse razdalje med
elementi hitro izračunati že vnaprej z uporabo grafičnega
procesorja. Tako se proces bistveno pospeši. Po drugi
strani pa so tudi vektorji značilnic razmeroma nizkodi-
menzionalni, kar omogoča hitro učenje razvrščevalnika
SVM in hitro razpoznavanje.
4.3 Učenje
Računsko najbolj kompleksen del algoritma je op-
timizacija kriterijske funkcije (6) v postopku učenja
posameznega sloja. Upoštevati je treba, da zahteva
izračun pokritosti C v vsaki iteraciji na relativno velikih
količinah vhodnih podatkov. Za optimizacijo je trenutno
uporabljen genetski algoritem, ki se dobro skalira na
večjedrnih procesorjih osebnih računalnikov.
5 EKSPERIMENTI IN REZULTATI
Predstavljeno shemo smo ocenjevali po treh kriteri-
jih: uspešnost razpoznavanja in detekcije, učinkovitost
računanja in velikost modela. Vsi eksperimenti so bili
izvedeni na osebnem računalniku s štirijedrnim proce-
sorjem Intel Xeon E5-1620 s taktom 3.60 GHz. Kot
grafični procesor je bila uporabljena grafična kartica
Nvidia Quadro 2000 z 1 GB videopomnilnika. Uporabili
smo Matlab 2011a na Linuxu (distribucija Fedora 18) in
Jacket 2.2 za obdelavo na grafičnem procesorju. Za ne-
linearno optimizacijo smo uporabili genetski algoritem
iz Matlabove orodjarne. V eksperimentih smo parametre
algoritma nastavili na naslednje vrednosti: velikost okna
za dušenje nemaksimalnih vrednosti je bila 7 slikovnih
elementov, velikost zaznavnega polja je bila nastavljena
na R2rfxy = 3.5 in R
3
rfxy = 7 slikovnih elementov,
Rirft pa je bil nastavljen na 0 za vse sloje; s tem je
∗http://wiki.accelereyes.com/wiki/index.php?title=Main Page
bila hierarhija prisiljena v učenje kompozicij samo v
prostorski (XY) ravnini. Parameter α je bil nastavljen
na 0.6. Parametri so bili določeni eksperimentalno —
pazili smo, da sta sloja L0 in L1 v sliki detektirala
dovolj osnovnih elementov gibanja, da je bila gradnja
kompozicij sploh mogoča, in da je bilo učenje izvedeno
v razumnem času ter z razumno porabo pomnilnika.
Za učenje kompozicionalne strukture smo uporabili
samo en video z dolžino 480 slik. Video ni nikakor
povezan z nobeno od testnih baz in zajema 24 odsekov
otroške risanke s po 20 slikami. Slika 3 prikazuje tri
tipične slike iz učnega posnetka.
Testiranje je bilo izvedeno na dveh standardnih in
široko uporabljanih zbirkah posnetkov: UCF Sports Ac-
tion Dataset [13] Holywood2 Dataset [12], [18]. Prva
vsebuje 10 kategorij športnih aktivnosti, medtem ko
druga vsebuje 12 kategorij vsakodnevnih aktivnosti, pri-
dobljenih iz zbirke znanih holywoodskih filmov. Ker je
učni video imel 384×288 slikovnih elementov, smo vse
testne posnetke prevzorčili na vertikalno ločljivost 288
slikovnih elementov in ohranili razmerje med višino ter
širino slike. Tako smo ločljivost vseh posnetkov iz prve
zbirke in večine posnetkov iz druge zbirke zmanjšali,
vendar pa je zaradi velikih razlik v ločljivosti posnetkov
iz baze Holywood2 prišlo do tega, da se je ločljivost
nekaterih posnetkov s tem povečala.
Uspešnost razpoznavanja smo ovrednotili po metodo-
logijah, ki sta predpisani za vsako od zbirk. V skladu s
tem za UCF Sports Action Dataset navajamo povprečno
točnost, za Holywood2 pa povprečno natančnost.
5.1 Uspešnost razpoznavanja
Uspešnost razpoznavanja navajamo glede na število
uporabljenih kompozicionalnih slojev. Zaradi nepristran-
ske primerjave navajamo tudi rezultate, ki smo jih dobili
z neposrednim zajemom sloja L1 brez kompozicionalne
arhitekture. Rezultati za UCF Sports Action Dataset so
prikazani v tabeli 1. Učinkovitost naše sheme se ni
povečala z dodajanjem tretjega sloja, zato smo se omejili
samo na strukturo s slojema L1 in L2.
Naša metoda (zajeti sloji) Povp. točnost
L1 73.3%
L1+L2 80.0%
Najboljši objavljeni rezultati
(kombinacija značilnic) [17] 88.2%
(samo gibanje) [17] 75.2%
Tabela 1: Rezultati na zbirki UCF Sports Action dataset,
primerjani z najboljšimi objavljenimi rezultati. Predlagana me-
toda je boljša od [17] – izvedbe, ki upošteva samo trajektorije
gibanja, brez drugih vizualnih informacij.
Vidimo, da tudi v konfiguraciji L1 + L2 naša me-
toda deluje bolje kot najboljša objavljena metoda [17].
Upoštevati je treba, da so metode, ki upoštevajo iz-
ključno gibanje, sorazmerno redke, in da veliko avtorjev
264 PERŠ, KRISTAN, MANDELJC, KOVAČIČ, LEONARDIS
Slika 3: Tri tipične slike z učnega posnetka dolžine 480 slik, s katerim smo učili kompozicionalni del hierarhije
svoje metode uvršča v to kategorijo, čeprav upoštevajo
tudi druge kanale vizualne informacije (npr. teksturo in
obliko). Glede na to, da UCF Sports Action Dataset
vsebuje veliko lepo strukturiranega gibanja, rezultati
niso presenetljivi. Rezultati za zbirko Holywood2 so
prikazani v tabeli 2.
Naša metoda (zajeti sloji) Povp. natančnost
L1 28.9%
L1+L2 32.3%
L1+L2+L3 33.1%
Najboljši objavljeni rezultati
(kombinacija značilk) [17] 58.3%
(samo gibanje) [17] 47.7%
SIFT+HoG+HoF (2009) [12] 32.6%
Tabela 2: Rezultati na zbirki posnetkov Holywood2 dataset in
primerjava z najboljšimi objavljenimi rezultati ter rezultati, ki
so jih dobili avtorji zbirke Holywood2.
Rezultati na bazi Holywood2 so slabši, čeprav so
primerljivi z rezultati, ki so jih dobili avtorji zbirke
Holywood2 [12].
5.2 Računska učinkovitost
Tabela 3 prikazuje porabljen čas na sliko, ki ga je
porabila predlagana metoda v vsaki od stopenj obdelave
podatkov med obdelavo najdaljšega posnetka iz zbirke
Holywood2.
Opravilo Čas/sliko
*Razlika Gaussov 28 ms
*NMS 158 ms
*Ocena vektorjev gibanja 12 ms
Kvantizacija 1 ms
*Inferenca sloj-sloj 22 ms
Tabela 3: Čas, porabljen v vsaki od stopenj obdelave, na
sliko. Testirano na najdaljšem posnetku iz baze Holywood2,
ki vsebuje 2958 slik. Opravila, označena z zvezdico (*), so
tekla na grafičnem procesorju.
Tabela 4 prikazuje čas, potreben za optimizacijo v fazi
učenja, ter čas, potreben za evalvacijo z metodo podpor-
nih vektorjev (učenje razvrščevalnika in testiranje). Časi
so prikazani za celoten učni posnetek in celotno zbirko
podatkov. Navajamo tudi dimenzionalnost značilnic, ki
so predstavljale vstopne podatke za metodo podpornih
vektorjev (SVM).
Opravilo Skupni čas Dimenzionalnost
*Optimizacija, L2 8 min /
*Optimizacija, L3 45 min /
SVM, L1 2.9s 120
SVM, L1 + L2 8.8s 740
SVM, L1 + L2 + L3 43.2s 5686
SVM, [10] 31.9s 3000
Tabela 4: Približni časi, ki jih je porabil genetski algoritem za
optimizacijo med učenjem (480 slik), časi, potrebni za učenje
in testiranje po metodi podpornih vektorjev (SVM) za celotno
zbirko Holywood2, ter dimenzionalnost značilnic, na katerih
deluje SVM. Opravila, označena z zvezdico (*), so tekla na
vseh štirih jedrih procesorja vzporedno.
5.3 Učinkovitost zapisa znanja
Navajamo še količino pomnilnika, potrebno za zapis
naučene kompozicionalne hierarhije. Struktura je shra-
njena v eni ali več indeksnih tabelah, ψi−1,i. Tabele
vsebujejo veliko ničel iz dveh razlogov: nekatere sicer
mogoče kompozicije se nikoli ne pojavijo v učnih podat-
kih, ali pa jih zavrže postopek optimizacije. Za preizkus
smo v datoteko zapisali vsebino tabel v obliki 8- ali
16-bitnih podatkov, in jih učinkovito kodirali s pomočjo
orodja gzip. Rezultate prikazuje tabela 5.
Tabela Dimenzije Bajtov Bajtov, gzip
ψ1,2 24×24, 8 bit 576 166
ψ2,3 74×74, 16 bit 10 952 1112
Tabela 5: Dimenzije indeksnih tabel in njihova velikost pred
učinkovitim zapisom s pomočjo orodja gzip in po njem.
6 SKLEP
Rezultati predlagane metode so obetavni, čeprav je ja-
sno, da gibanje ne vsebuje vseh potrebnih informacij
za najboljše razpoznavanje aktivnosti. Odlični rezultati
na zbirki posnetkov UCF Sports Action Dataset kažejo,
da se metoda odreže tam, kjer opazovana aktivnost
dominira v prizoru, gibanje v prizoru pa je za aktivnost
značilno. Slabši rezultati na zbirki posnetkov Holy-
wood2 imajo več razlogov: aktivnosti v zbirki so močno
HIERARHIČNA KOMPOZICIONALNA ARHITEKTURA ZA DETEKCIJO IN RAZPOZNAVANJE AKTIVNOSTI 265
odvisne od konteksta, gibanje samo pa v večini primerov
iz te zbirke ne ponuja dovolj informacije za dobro razpo-
znavo aktivnosti. Zato imajo metode, ki zajamejo širok
spekter vidne informacije, čeprav nenadzorovano, na tej
zbirki prednost. Ugotovimo lahko tudi, da nobena od
teh zbirk ne vsebuje zelo kompleksnih vzorcev gibanja,
zato je za razpoznavanje potrebnih le malo število slojev
kompozicionalne hierarhije. Predstavljena metoda sicer
ne izkorišča možnosti masivno vzporednega računanja
tako učinkovito kot metode, ki uporabljajo konvolu-
cijo za detekcijo značilnih točk v časovnoprostorskih
volumnih posnetkov, vendar je mogoče na vzporednih
računskih arhitekturah izvesti tako rekoč vse časovno
potratne korake, ob tem pa izkoristiti tudi prednosti,
ki jih prinaša hierarhično-kompozicionalna zasnova. V
nadaljnjem delu bomo predstavljeno metodo združili s
sorodnimi kompozicionalnimi pristopi za detekcijo oblik
in tako še izboljšali uspešnost razpoznavanja.
ZAHVALA
To delo je nastalo v okviru raziskovalnega projekta J2-
4284, raziskovalnih programov P2-0095, P2-0214 in P2-
0098, ter pogodbe o financiranju št. 1000-10-310118,
ki jih je vse financirala Javna agencija za raziskovalno
dejavnost Republike Slovenije.