1 UVOD V tem članku je predstavljena hierarhična kompozicio- nalna shema za detekcijo in razpoznavanje aktivnosti. Kar zadeva razpoznavanje aktivnosti, je gibanje naj- pomembnejši kanal vizualne informacije, zato predsta- vljena shema temelji izključno na gibanju. Predstavljeno delo naslavlja tri pomembne izzive pri analizi gibanja. Prvi izziv je količina informacije, saj imamo pri analizi gibanja običajno opravka z zaporedji slik. To pomeni, da je za obdelavo v realnem času treba obdelati do nekaj deset slik na sekundo. Zato izziv ni le, kako zaznati in razpoznati aktivnosti, ampak predvsem, kako to izvesti čim hitreje. Naslednji izziv je, kako razvezati gibanje od drugih vizualnih kanalov (oblike, prostor- skega vida in barve) in kljub temu obdržati uporabno in- formacijo. Takšna zasnova ima dve prednosti: omogoča učinkovitejši zapis, kar zmanjša nevarnost kombina- torične eksplozije zaradi prekompleksnih značilnic, ter olajša razlago, kako je sistem prišel do določenega zaključka. To je pomembna prednost v sistemih, ki naj bi izkazovali človeku podobno inteligenco (npr. inteligentni roboti in robotski pomočniki). Po drugi strani pa niso vsi kanali vizualne informacije enako pomembni za vse naloge računalniškega vida (tipičen primer je analiza aktivnosti, kjer je načeloma gibanje najpomembnejši vir HIERARHIČNA KOMPOZICIONALNA ARHITEKTURA ZA DETEKCIJO IN RAZPOZNAVANJE AKTIVNOSTI 259 informacij), vendar za dobro razpoznavanje potrebujemo podatke iz več kanalov. Če informacijo združujemo že v zgodnjih stopnjah obdelave, je to lahko manj učinkovito, kot če to počnemo pozneje [14]. Predstavljena metoda naslavlja te izzive s paradi- gmo kompozicionalne hierarhičnosti, biološko navdih- njenega koncepta načrtovanja algoritmov [9], ki je bil že uspešno uporabljen pri zasnovi najboljših algoritmov za kategorizacijo objektov [15], [3], [20], [8], [2]. V primerjavi s konkurenčnimi pristopi ponujajo kompozi- cionalne hierarhije učinkovitejšo izrabo obstoječih vi- rov. To dosežejo s pomočjo večkratne uporabe elemen- tov slovarja in tudi že izvedenih izračunov, s tem pa omogočajo tudi učinkovit prenos znanja. Predstavljen pristop sicer v številnih vidikih sledi konceptom, ki so jih predstavili Fidler in drugi [3], [2], vendar pa deluje na gibanju, ne na obliki, in naslavlja problem detekcije in razpoznavanja aktivnosti namesto kategorizacije objek- tov. Opazovanje le gibanja sicer ne more popolnoma rešiti problema razpoznavanja aktivnosti, vendar lahko, če se osredinimo izključno na gibanje v zgodnji fazi obdelave, združevanje informacij izvedemo pozneje, na učinkovitejši način [14]. S takšnim pristopom tudi ne podvajamo obdelave informacije, ki jo dobro zajamejo že razvite metode, ki naslavljajo druge vizualne kanale, recimo razpoznavanje oblike [3], [2]. Poleg tega, da je to učinkovitejše[14], pa je takšen koncept, torej pozno združevanje, opaziti tudi v bioloških vidnih sistemih [9]. Predlagano shemo prikazujeta sliki 1 in 2. Razumeti je treba, da ob omejitvi zgolj na gibanje v posnetkih ne moremo pričakovati izboljšanja glede na najboljše algoritme, ki vključujejo vse vidne kanale, vključno z obliko in teksturo. Vendar pa je, kot je bilo že omenjeno, ločitev kanalov vidne informacije pomembna pri nadalj- njem razvoju skalabilnih metod razpoznavanja. Čeprav predstavljena metoda uporablja samo gibanje, vseeno dosega presenetljivo dobre rezultate, hkrati pa dosega boljše rezultate kot nekatere metode, ki se zanašajo samo na gibanje brez drugih modalitet. Preostanek članka je strukturiran, kot sledi. V po- glavju 2 so predstavljeni najpomembnejši sorodni pri- stopi, v poglavju 3 pa podrobnejši opis predlaganega pristopa. V poglavju 4 so navedene izvedbene podrob- nosti metode, v poglavju 5 eksperimenti in rezultati, poglavje 6 pa zaključuje članek. 2 SORODNE RAZISKAVE Raziskovalci so se problema detekcije in razpoznavanja aktivnosti lotevali na različne načine. Večina pristo- pov temelji na določanju tako imenovanih časovno- prostorskih točk zanimanja (angl. space-time interest points, STIP). Sekvenca slik je v teh primerih obde- lana kot tridimenzionalni volumen I(x, y, t), v katerem metode iščejo točke STIP. V okolici teh izračunajo časovnoprostorske opisnike, ki jih potem s proce- som rojenja združijo v manjše število vizualnih besed. Značilnice so v tem primeru histogrami sopojavljanja teh vizualnih besed, za razvrščanje posnetkov pa je ponavadi uporabljena metoda podpornih vektorjev (angl. support vector machine, SVM). V [12] so avtorji predlagali tovrstno metodo, ki za- jema dve vrsti opisnikov: prva zajame dinamiko scene (torej gibanje), druga pa ozadje (torej statične elemente prizora). V [10] je koncept razširjen z avtomatskim izračunom optimalnih opisnikov za dani učni niz po- snetkov. Opisnike dobijo s pomočjo globokih nevronskih mrež (angl. deep belief networks). Tako dobijo opisnike, ki opišejo tako časovne kot prostorske spremembe v 3D časovnoprostorskem volumnu. Še en primer uporabe mešanih modalnosti za analizo aktivnosti [6], kjer je predstavljena hierarhična mreža, enot, občutljivih na gibanje. Metoda izvede zaporedje konvolucij in poišče maksimalen odziv na rezultatih konvolucije. Na vrhu hierarhije je uporabljena metoda SVM za izbiro najbolj diskriminativnih značilnic. V [7] je predstavljena metoda, ki zakodira lokalno gibanje v shemi, podobni lokalnim binarnim vzorcem. Tako dobi krpice gibanja (angl. motion patches), ki jih uporabi v shemi vreče besed. Tudi [19] uporablja vrečo besed, s tem da identificira majhne atomične dogodke iz premikajočih se slikovnih elementov in jih združi v atomarne aktivnosti. Konceptualno podobna rešitev je [17]. Uporablja gost optični tok ter tako zgradi zapis zaporedij slik s pomočjo gostih trajektorij, ki ga pre- tvori v opisnike s pomočjo posebnega opisnika (Motion Boundary Histograms, MBH). Metoda dosega odlične rezultate na standardnih zbirkah podatkov, še boljše rezultate pa dosega, če je kombinirana z informacijo o obliki. Izvedba, ki uporablja izključno MBH na gostih trajektorijah, je ena redkih metod, ki temelji izključno na uporabi informacije o gibanju. Metode poskušajo izboljšati delovanje na različne načine. Tako recimo [5] razširi prostorski model vreče besed z diskriminativno razširitvijo, ki omogoča sočasno segmentacijo in lokalizacijo dogodkov. V [1] je predla- gano še bolj intenzivno mešanje modalitet za lokalizacijo aktivnosti – sliko zakodira kot polje časovnoprostorskih opisnikov in poišče časovnoprostorski podgraf, ki ma- ksimira odziv naučenih razvrščevalnikov. V nasprotju z večino pristopov [16] ugotavlja, da aktivnost ni nujno povezana s kontekstom in je mogoče dobiti boljše rezultate, če jo obravnavamo ločeno. Morda najbolj soroden pristop k predlaganemu v tem članku je [4]. Metoda zazna Harrisove značilne točke ločeno v prostorskih in časovnoprostorskih ravninah na različnih skalah. S pomočjo enostavnega prostorskega kodira- nja hierarhično gradi predstavitve, tako da se najpogo- stejši vzorci prenašajo na naslednji sloj. Metoda doseže odlične rezultate na standardnih bazah posnetkov, vendar pa gre, čeprav avtorji namigujejo drugače, tudi tu za primer mešanja modalitet – predstavitev, ki jo zgradi takšna metoda, zajame tako gibanje kot obliko in ni nikakršnega zadržka, da ob ustreznih učnih podatkih ne 260 PERŠ, KRISTAN, MANDELJC, KOVAČIČ, LEONARDIS bi zgradila hierarhije, ki bi bila popolnoma oprta samo na obliko in teksturo. 3 STRUKTURA KOMPOZICIONALNEGA HIERARHIČNEGA MODELA Predlagani model za analizo gibanja je sestavljen iz treh stopenj obdelave podatkov, kot to prikazuje slika 1. Namen najnižje stopnje, sestavljene iz slojev L0 in L1, je določanje najpreprostejših značilnic gibanja kvanti- ziranih vektorjev optičnega toka. Srednja stopnja pred- stavlja hierarhično kompozicionalno strukturo in je se- stavljena iz več slojev, od L2 do LN . Večslojna struk- tura zmanjšuje kompleksnost učenja zaradi omejenega zaznavnega polja, v katerem opazujemo sosede vsakega zaznanega elementa, saj izvajamo učenje le na enem sloju hkrati. Takšna shema odpravlja potrebo po sočasni oceni velikega števila parametrov v fazi učenja – najprej izvedemo učenje na najnižjem sloju, potem pa nada- ljujemo s slojem nad njim. Najvišja stopnja modela vsebuje diskriminativno komponento – razvrščevalnik SVM. Vsak sloj Li ima svoj slovar, Λi. Λ1 je določen vnaprej, medtem ko slovarje višjih slojev pridobimo v postopku učenja. 3.1 Izračun gibanja, sloja L0 in L1 Prva stopnja obdelave poskrbi za izračun preprostih elementov gibanja iz posnetkov. L0 zgradi Gaussovo piramido vsake slike ter izračuna razliko Gaussov, po- dobno kot [11]. Tako nastanejo slike tistih področij, kjer je gibanje mogoče dobro zaznati (robovi, oglišča), in to na več skalah. Po postopku dušenja nemaksimalnih vre- dnosti (angl. non-maxima suppression, NMS) je vsako od teh področij predstavljeno z eno samo točko. Ve- likost okna, v katerem izvajamo dušenje, in minimalna vrednost preživelega maksimuma sta parametra sloja L0. Sloj L1 primerja detektirane točke na dveh zaporednih slikah in ocenjuje lokalno gibanje s pomočjo iskanja najbližjega soseda v lokalni okolici. Koraki na slojih L0 in L1 so ponovljeni na vseh skalah piramide, s tem pa lahko metoda zazna gibanje v velikem razponu magnitud. Kot končni korak obdelave na L1 so vektorji gibanja kvantizirani glede na njihovo smer in magnitudo – števili mogočih amplitud in smeri predstavljata para- metra sloja L1. Kvantizacija je izvedena tako, da so vek- torji z dolžino nič izločeni iz nadaljnje obdelave. Število mogočih smeri in magnitud določa velikost slovarja na sloju L1 – v našem primeru osmih mogočih smeri in treh mogočih magnitud je velikost slovarja 8 × 3 = 24. Od te stopnje naprej se vsa obdelava izvaja na kvantiziranih vektorjih gibanja. Rezultati slojev L0 in L1 so prikazani na sliki 2, skupaj s 24 osnovnimi elementi fiksnega slovarja sloja L1. 3.2 Dušenje nezaželene vizualne informacije Posebnost prve stopnje predlagane strukture je dušenje kakršnekoli druge vizualne informacije razen gibanja. Z dušenjem nemaksimalnih vrednosti na sliki razlike Gaussov učinkovito odstranimo vso informacijo v okolici ohranjene točke, tako da algoritem ne zajame nikakršnih informacij o obliki ali teksturi. Tako v na- sprotju z nekaterimi drugimi pristopi, na primer [4], [10], preprečimo, da bi kompozicionalna struktura na drugi stopnji obdelave gradila kakršnekoli modele oblike. 3.2.1 Grajenje hierarhičnih kompozicij – sloji L2- LN : Kompozicionalna hierarhična struktura je sesta- vljena iz N identično strukturiranih slojev, pri čemer je N parameter strukture. Vhodni podatki v strukturo so kvantizirani in labelirani vektorji gibanja. Vsak vektor V je določen s svojimi tremi časovnoprostorskimi ko- ordinatami in svojo oznako l, V = V (x, y, t, l). Izhod vsakega sloja Li v kompozicionalni strukturi predsta- vljajo kompozicije parov elementov nižjega sloja L(i−1). Vsaka od kompozicij predstavlja nov element P , P = P (x, y, t, l), in predstavlja načeloma enega od vhodnih elementov višjega sloja. Vhodne elemente v najnižji kompozicionalni sloj L2 predstavljajo kar kvantizirani vektorji, zato zanje velja P 1 = V (x, y, t, l1), kjer oznaka elementa l1 zavzema eno od mogočih vrednosti iz slovarja Λ1, določenih s kvantizacijo na L1, l1 ∈ Λ1. Slovarje višjih slojev, Λi, i > 1 pridobimo s postopkom učenja. Kompozicije na vseh slojih Li, i > 1 so definirane kot pari tesno sopojavljenih elementov iz nižjega sloja, torej velja za element j iz sloja Li naslednje: P ij = P i−1 m ∪ P i−1 n , (1) pri čemer sta m in n indeksa dveh elementov iz nižjega sloja, ki tvorita element P ij . Časovnoprostorske koordi- nate kompozicije so definirane kot centroidi lokacij obeh elementov, ki sestavljata kompozicijo: xij = xi−1m + x i−1 n 2 , yij = yi−1m + y i−1 n 2 , tij = ti−1m + t i−1 n 2 , (2) medtem ko je oznaka lij določena skozi dvodimenzio- nalno indeksno tabelo ψi−1,i: lij = ψ i−1,i(li−1m , l i−1 n ), (3) ki indeksira pare oznak iz sloja Li−1 v oznake na sloju Li. Ničle v indeksni tabeli ψi−1,i označujejo tiste kom- pozicije, ki jih v indeksiranju iz sloja v sloj zavržemo. Tesna sopojavitev dveh elementov je določena s pomočjo dveh pragov, Rirfxy , na prostorski evklidski razdalji med obema elementoma P i−1m in P i−1 n , in R i rft na njuni razdalji vzdolž časovne osi: √ (xi−1m − xi−1n )2 + (yi−1m − yi−1n )2 < Rirfxy. (4) ti−1m − t i−1 n < R i rft. (5) HIERARHIČNA KOMPOZICIONALNA ARHITEKTURA ZA DETEKCIJO IN RAZPOZNAVANJE AKTIVNOSTI 261 Slika 1: Tri stopnje obdelave v predlaganem kompozicionalnem hierarhičnem modelu. Prva stopnja je sestavljena iz L0 in L1, druga iz (N-1) slojev L2 - LN , v tretji stopnji pa sta vzorčenje (vreča kompozicij) in razvrščevalnik SVM. Oba pragova Rirfxy in Rrft odražata velikost cilin- drično oblikovanega lokalnega zaznavnega polja in tako predstavljata parametra vsakega od kompozicionalnih slojev Li. V kompozicionalni shemi naj bi velikost za- znavnega polja povečevali iz sloja na sloj, s čimer lahko shema gradi vedno kompleksnejše predstavitve vhodnih podatkov – v našem primeru gibanja. Upoštevati je treba, da predlagana shema ne kodira časovnoprostorskih od- nosov med zaznanima elementoma (prej, pozneje, spo- daj, zgoraj), zato ne modelira ničesar drugega kot eno- stavno bližino dveh elementov. Zato ima omejeno moč predstavljanja kompleksnih struktur, kot bi načeloma bila oblika na podlagi gibanja (angl. shape from motion). 3.2.2 Učenje strukture v slojih L2-LN : Za učenje sloja Li potrebujemo izhod nižjega sloja Li−1, ki je lahko kompozicionalen (Li, i > 1) ali pa ne (L1). Učenje modela na sloju Li je izvedeno s pomočjo optimizacije indeksne tabele ψi−1,i glede na naslednja dva kriterija: 1) Pokritost: Čim več osnovnih elementov iz sloja L1 (z dna kompozicionalne strukture) naj preživi v prehodu iz sloja Li−1 v sloj Li. Ta kriterij zagotavlja, da potencialno uporabna informacija, ki vstopa v kompozicionalno strukturo, ni po ne- potrebnem zavržena. 2) Slovar sloja, ki ga učimo, Li, Λi naj je čim manjši. Omenjena kriterija sta v nasprotju in težita k slovarju, ki je kompromis med najboljšo rekonstrucijo vhodne informacije in najkrajšim naborom simbolov. Učenje je izvedeno kot nelinearna optimizacija naslednje kriterij- ske funkcije: f(x) = −C1 + α|Λi|, (6) kjer je C1 pokritost (razmerje števila osnovnih elemen- tov iz sloja L1, katerih kompozicije na sloju Li bi preživele ob trenutnem slovarju, in števila vseh elemen- tov, ki iz L1 vstopajo v kompozicionalno strukturo), |Λi| is je število elementov slovarja, α pa je utež, s ka- tero nadzorujemo intenzivnost regularizacije, torej točko kompromisa med nasprotujočima si kriterijema. Domena x so vse mogoče kombinacije ničelnih in neničelnih elementov v indeksni tabeli |Λi|. S pomočjo optimizacije v bistvu določimo takšen slovar Λi, da velja: Λi = arg min x f(x). (7) Očitno je, da bi v najslabšem primeru popolnoma naključnih vhodnih podatkov število kompzicionalnih elementov v slovarju |Λi| raslo s kvadratom i, vendar pa se izkaže, da pri realističnih podatkih raste počasneje. Da pospešimo postopek optimizacije in bistveno zmanjšamo prostor iskanja optimalnega slovarja, lahko že pred po- stopkom optimizacije odstranimo delež mogočih kompo- zicij, ki vstopajo v optimizacijski proces. To izvedemo le za učenje sloja L3 (in višjih), kjer tako odstranimo 1% mogočih kompozicij, ki se v podatkih pojavljajo najredkeje. 262 PERŠ, KRISTAN, MANDELJC, KOVAČIČ, LEONARDIS (a) (b) Slika 2: Značilnice gibanja na primeru posnetka iz kategorije ”Diving”, zbirke podatkov UCF Sports Action Dataset [13]. (a) Izhod sloja L0, kvadratki označujejo lokalne maksimume razlike Gaussov. Večji kvadratek pomeni bolj grobo skalo. Črte označujejo vektorje gibanja. (b) Izhod sloja L1 in fiksen slovar tega sloja. Radiji krogov ustrezajo amplitudi zaznanega gibanja, puščice pa kažejo smer, oboje že po postopku kvantizacije. 3.2.3 Inferenca na slojih L2-LN : Inferenca je iz- vedena kot zaporedje indeksiranj skozi indeksne ta- bele ψi−1,i. Trenutno metoda ne upošteva drugih časovnoprostorskih odnosov med elementi, razen tega da določen element leži znotraj (časovnoprostorskega) zaznavnega polja nekega drugega elementa. Zato je indeksiranje s stališča računske zahtevnosti izjemno hitra operacija, takoj ko potrdimo sopojavitev dveh elementov. Iskanje sopojavitev je načeloma računsko potratna operacija, vendar pa je zaradi počasne (manj kot kvadratične) rasti velikosti slovarjev |Λi| skozi sloje inferenca še učinkovitejša, če iščemo sopojavitve samo tistih elementov, ki bi preživeli indeksiranje skozi dano indeksno tabelo Λi. 3.3 Zajem značilnic in razvrščanje Osnovni elementi, ki jih zaznamo pri obdelavi zapo- redja slik skozi sloja L0 in L1, predstavljajo osnovne gradnike gibanja, ki pa zrastejo v vedno kompleksnejše gradnike skozi višje sloje. Pojavljanje elementov skozi hierarhično strukturo je mogoče vzorčiti na različne načine. Predlagana metoda zgradi vrečo kompozicij tako, da izračuna histograme pojavljanja vseh elementov na vseh slojih in jih sestavi v en sam vektor značilnic. Ta postopek je na vrhu predlagane kompozicionalne piramide, kot jo prikazuje slika 1. Pristop z vrečo kompozicij naredi predlagano me- todo povsem invariantno na časovni odmik aktivnosti znotraj zaporedja slik. Da se ta učinek zmanjša, so podatki najprej razdeljeni vzdolž časovne osi v M ločenih, enako dolgih odsekov in zajeti v M histo- gramov, ki so na koncu sestavljeni v en sam daljši vektor značilk. Za razvrščanje tako pridobljenih vektor- jev značilk je bila uporabljena javno dostopna izvedba razvrščevalnika [10], katere struktura je opisana v [18], temelji pa na metodi podpornih vektorjev z jedrom χ2. 3.4 Velikost naučenega modela V predstavljeni arhitekturi je znanje zgoščeno v hi- erarhiji indeksnih tabel |λi|, ki omogočajo prevedbo oznak elementov na sloju li−1 v oznake na sloju li. Tako za slovarje z do 256 elementi potrebujemo le polje osembitnih števil z maksimalno dimenzijo 256 × 256, da shranimo eno indeksno tabelo, pa še v tej tabeli ima velik del elementov vrednost nič. Če je kot zadnja stopnja razpoznavanja uporabljen razvrščevalnik SVM, je treba shraniti še njegov model, podobno kot pri drugih pristopih z vrečo besed, kot sta [10] in [18]. 4 IZVEDBA PREDLAGANE METODE Predlagana shema izraža najpomembnejši prednosti kompozicionalnih hierahičnih arhitektur – hitro infe- renco in kompakten zapis znanja. Toda, čeprav so kom- pozicionalne arhitekture znane kot hitre in učinkovite pri obdelavi posameznih slik, se pri obdelavi posnetkov HIERARHIČNA KOMPOZICIONALNA ARHITEKTURA ZA DETEKCIJO IN RAZPOZNAVANJE AKTIVNOSTI 263 soočamo s problemom, katerega računska zahtevnost je za nekaj razredov velikosti večja. Shema je bila načrtovana z namenom vzporedne izvedbe, predvsem na modernih splošnonamenskih grafičnih procesorjih (angl. (General Purpose) Graphic Processing Unit, GPU). Vsi najpomembnejši sestavni deli predlagane metode se tako zlahka preslikajo na masivno vzporedno računsko arhi- tekturo, kot je to prikazano v nadaljevanju. 4.1 Sloja L0 in L1 Čeprav je mogoče Gaussovo glajenje zlahka izvesti na grafičnem procesorju, le-to ni glavno ozko grlo. Pomembnejše je, da sta tako dušenje nemaksimalnih vrednosti in izračun vektorjev gibanja (iskanje kore- spondenc) izvedena na masivno vzporedni arhitekturi, s pomočjo orodja Jacket za Matlab∗ in njegovega pro- gramskega bloka gfor. Za boljši izkoristek grafičnega procesorja slike obdelujemo v paketih po 20 slik. 4.2 Sloji L2 in višji Čeprav hierarhična shema omogoča učinkovito is- kanje s tem, da iščemo samo tiste kompozicije, ki bodo preživele indeksiranje, je mogoče vse razdalje med elementi hitro izračunati že vnaprej z uporabo grafičnega procesorja. Tako se proces bistveno pospeši. Po drugi strani pa so tudi vektorji značilnic razmeroma nizkodi- menzionalni, kar omogoča hitro učenje razvrščevalnika SVM in hitro razpoznavanje. 4.3 Učenje Računsko najbolj kompleksen del algoritma je op- timizacija kriterijske funkcije (6) v postopku učenja posameznega sloja. Upoštevati je treba, da zahteva izračun pokritosti C v vsaki iteraciji na relativno velikih količinah vhodnih podatkov. Za optimizacijo je trenutno uporabljen genetski algoritem, ki se dobro skalira na večjedrnih procesorjih osebnih računalnikov. 5 EKSPERIMENTI IN REZULTATI Predstavljeno shemo smo ocenjevali po treh kriteri- jih: uspešnost razpoznavanja in detekcije, učinkovitost računanja in velikost modela. Vsi eksperimenti so bili izvedeni na osebnem računalniku s štirijedrnim proce- sorjem Intel Xeon E5-1620 s taktom 3.60 GHz. Kot grafični procesor je bila uporabljena grafična kartica Nvidia Quadro 2000 z 1 GB videopomnilnika. Uporabili smo Matlab 2011a na Linuxu (distribucija Fedora 18) in Jacket 2.2 za obdelavo na grafičnem procesorju. Za ne- linearno optimizacijo smo uporabili genetski algoritem iz Matlabove orodjarne. V eksperimentih smo parametre algoritma nastavili na naslednje vrednosti: velikost okna za dušenje nemaksimalnih vrednosti je bila 7 slikovnih elementov, velikost zaznavnega polja je bila nastavljena na R2rfxy = 3.5 in R 3 rfxy = 7 slikovnih elementov, Rirft pa je bil nastavljen na 0 za vse sloje; s tem je ∗http://wiki.accelereyes.com/wiki/index.php?title=Main Page bila hierarhija prisiljena v učenje kompozicij samo v prostorski (XY) ravnini. Parameter α je bil nastavljen na 0.6. Parametri so bili določeni eksperimentalno — pazili smo, da sta sloja L0 in L1 v sliki detektirala dovolj osnovnih elementov gibanja, da je bila gradnja kompozicij sploh mogoča, in da je bilo učenje izvedeno v razumnem času ter z razumno porabo pomnilnika. Za učenje kompozicionalne strukture smo uporabili samo en video z dolžino 480 slik. Video ni nikakor povezan z nobeno od testnih baz in zajema 24 odsekov otroške risanke s po 20 slikami. Slika 3 prikazuje tri tipične slike iz učnega posnetka. Testiranje je bilo izvedeno na dveh standardnih in široko uporabljanih zbirkah posnetkov: UCF Sports Ac- tion Dataset [13] Holywood2 Dataset [12], [18]. Prva vsebuje 10 kategorij športnih aktivnosti, medtem ko druga vsebuje 12 kategorij vsakodnevnih aktivnosti, pri- dobljenih iz zbirke znanih holywoodskih filmov. Ker je učni video imel 384×288 slikovnih elementov, smo vse testne posnetke prevzorčili na vertikalno ločljivost 288 slikovnih elementov in ohranili razmerje med višino ter širino slike. Tako smo ločljivost vseh posnetkov iz prve zbirke in večine posnetkov iz druge zbirke zmanjšali, vendar pa je zaradi velikih razlik v ločljivosti posnetkov iz baze Holywood2 prišlo do tega, da se je ločljivost nekaterih posnetkov s tem povečala. Uspešnost razpoznavanja smo ovrednotili po metodo- logijah, ki sta predpisani za vsako od zbirk. V skladu s tem za UCF Sports Action Dataset navajamo povprečno točnost, za Holywood2 pa povprečno natančnost. 5.1 Uspešnost razpoznavanja Uspešnost razpoznavanja navajamo glede na število uporabljenih kompozicionalnih slojev. Zaradi nepristran- ske primerjave navajamo tudi rezultate, ki smo jih dobili z neposrednim zajemom sloja L1 brez kompozicionalne arhitekture. Rezultati za UCF Sports Action Dataset so prikazani v tabeli 1. Učinkovitost naše sheme se ni povečala z dodajanjem tretjega sloja, zato smo se omejili samo na strukturo s slojema L1 in L2. Naša metoda (zajeti sloji) Povp. točnost L1 73.3% L1+L2 80.0% Najboljši objavljeni rezultati (kombinacija značilnic) [17] 88.2% (samo gibanje) [17] 75.2% Tabela 1: Rezultati na zbirki UCF Sports Action dataset, primerjani z najboljšimi objavljenimi rezultati. Predlagana me- toda je boljša od [17] – izvedbe, ki upošteva samo trajektorije gibanja, brez drugih vizualnih informacij. Vidimo, da tudi v konfiguraciji L1 + L2 naša me- toda deluje bolje kot najboljša objavljena metoda [17]. Upoštevati je treba, da so metode, ki upoštevajo iz- ključno gibanje, sorazmerno redke, in da veliko avtorjev 264 PERŠ, KRISTAN, MANDELJC, KOVAČIČ, LEONARDIS Slika 3: Tri tipične slike z učnega posnetka dolžine 480 slik, s katerim smo učili kompozicionalni del hierarhije svoje metode uvršča v to kategorijo, čeprav upoštevajo tudi druge kanale vizualne informacije (npr. teksturo in obliko). Glede na to, da UCF Sports Action Dataset vsebuje veliko lepo strukturiranega gibanja, rezultati niso presenetljivi. Rezultati za zbirko Holywood2 so prikazani v tabeli 2. Naša metoda (zajeti sloji) Povp. natančnost L1 28.9% L1+L2 32.3% L1+L2+L3 33.1% Najboljši objavljeni rezultati (kombinacija značilk) [17] 58.3% (samo gibanje) [17] 47.7% SIFT+HoG+HoF (2009) [12] 32.6% Tabela 2: Rezultati na zbirki posnetkov Holywood2 dataset in primerjava z najboljšimi objavljenimi rezultati ter rezultati, ki so jih dobili avtorji zbirke Holywood2. Rezultati na bazi Holywood2 so slabši, čeprav so primerljivi z rezultati, ki so jih dobili avtorji zbirke Holywood2 [12]. 5.2 Računska učinkovitost Tabela 3 prikazuje porabljen čas na sliko, ki ga je porabila predlagana metoda v vsaki od stopenj obdelave podatkov med obdelavo najdaljšega posnetka iz zbirke Holywood2. Opravilo Čas/sliko *Razlika Gaussov 28 ms *NMS 158 ms *Ocena vektorjev gibanja 12 ms Kvantizacija 1 ms *Inferenca sloj-sloj 22 ms Tabela 3: Čas, porabljen v vsaki od stopenj obdelave, na sliko. Testirano na najdaljšem posnetku iz baze Holywood2, ki vsebuje 2958 slik. Opravila, označena z zvezdico (*), so tekla na grafičnem procesorju. Tabela 4 prikazuje čas, potreben za optimizacijo v fazi učenja, ter čas, potreben za evalvacijo z metodo podpor- nih vektorjev (učenje razvrščevalnika in testiranje). Časi so prikazani za celoten učni posnetek in celotno zbirko podatkov. Navajamo tudi dimenzionalnost značilnic, ki so predstavljale vstopne podatke za metodo podpornih vektorjev (SVM). Opravilo Skupni čas Dimenzionalnost *Optimizacija, L2 8 min / *Optimizacija, L3 45 min / SVM, L1 2.9s 120 SVM, L1 + L2 8.8s 740 SVM, L1 + L2 + L3 43.2s 5686 SVM, [10] 31.9s 3000 Tabela 4: Približni časi, ki jih je porabil genetski algoritem za optimizacijo med učenjem (480 slik), časi, potrebni za učenje in testiranje po metodi podpornih vektorjev (SVM) za celotno zbirko Holywood2, ter dimenzionalnost značilnic, na katerih deluje SVM. Opravila, označena z zvezdico (*), so tekla na vseh štirih jedrih procesorja vzporedno. 5.3 Učinkovitost zapisa znanja Navajamo še količino pomnilnika, potrebno za zapis naučene kompozicionalne hierarhije. Struktura je shra- njena v eni ali več indeksnih tabelah, ψi−1,i. Tabele vsebujejo veliko ničel iz dveh razlogov: nekatere sicer mogoče kompozicije se nikoli ne pojavijo v učnih podat- kih, ali pa jih zavrže postopek optimizacije. Za preizkus smo v datoteko zapisali vsebino tabel v obliki 8- ali 16-bitnih podatkov, in jih učinkovito kodirali s pomočjo orodja gzip. Rezultate prikazuje tabela 5. Tabela Dimenzije Bajtov Bajtov, gzip ψ1,2 24×24, 8 bit 576 166 ψ2,3 74×74, 16 bit 10 952 1112 Tabela 5: Dimenzije indeksnih tabel in njihova velikost pred učinkovitim zapisom s pomočjo orodja gzip in po njem. 6 SKLEP Rezultati predlagane metode so obetavni, čeprav je ja- sno, da gibanje ne vsebuje vseh potrebnih informacij za najboljše razpoznavanje aktivnosti. Odlični rezultati na zbirki posnetkov UCF Sports Action Dataset kažejo, da se metoda odreže tam, kjer opazovana aktivnost dominira v prizoru, gibanje v prizoru pa je za aktivnost značilno. Slabši rezultati na zbirki posnetkov Holy- wood2 imajo več razlogov: aktivnosti v zbirki so močno HIERARHIČNA KOMPOZICIONALNA ARHITEKTURA ZA DETEKCIJO IN RAZPOZNAVANJE AKTIVNOSTI 265 odvisne od konteksta, gibanje samo pa v večini primerov iz te zbirke ne ponuja dovolj informacije za dobro razpo- znavo aktivnosti. Zato imajo metode, ki zajamejo širok spekter vidne informacije, čeprav nenadzorovano, na tej zbirki prednost. Ugotovimo lahko tudi, da nobena od teh zbirk ne vsebuje zelo kompleksnih vzorcev gibanja, zato je za razpoznavanje potrebnih le malo število slojev kompozicionalne hierarhije. Predstavljena metoda sicer ne izkorišča možnosti masivno vzporednega računanja tako učinkovito kot metode, ki uporabljajo konvolu- cijo za detekcijo značilnih točk v časovnoprostorskih volumnih posnetkov, vendar je mogoče na vzporednih računskih arhitekturah izvesti tako rekoč vse časovno potratne korake, ob tem pa izkoristiti tudi prednosti, ki jih prinaša hierarhično-kompozicionalna zasnova. V nadaljnjem delu bomo predstavljeno metodo združili s sorodnimi kompozicionalnimi pristopi za detekcijo oblik in tako še izboljšali uspešnost razpoznavanja. ZAHVALA To delo je nastalo v okviru raziskovalnega projekta J2- 4284, raziskovalnih programov P2-0095, P2-0214 in P2- 0098, ter pogodbe o financiranju št. 1000-10-310118, ki jih je vse financirala Javna agencija za raziskovalno dejavnost Republike Slovenije.