1 UVOD Vizualno sledenje je pomembno raziskovalno področje v okviru računalniškega vida, katerega glavni cilj vizual- nega sledenja je določitev stanja enega ali več objektov v toku slik ob upoštevanju časovne soslednosti le-teh. Algoritme, ki opravljajo nalogo vizualnega sledenja, Prejet 18. avgust, 2016 Odobren 12. oktober, 2016 imenujemo vizualni sledilniki, in jih lahko uporabimo na številnih, tako novih kot tudi že uveljavljenih, tehno- loških področij, kot so npr. robotika [35], videonadzorni sistemi [40], [20], interakcija med človekom in raču- nalnikom [5], [22], [18], avtonomna vozila in analiza športa [25]. Zaradi široke palete možnosti uporabe vizu- alnega sledenja se je razvilo veliko podvrst formalizacije problema, vsaka s svojimi izzivi in predpostavkami. V tem članku obravnavamo tip vizualnega sledenja, kjer sledimo samo enemu objektu v enem samem toku slik, geometrijskih lastnosti objekta ne poznamo vnaprej, predpostavljamo pa tudi, da objekt ne bo nikoli izginil iz opazovanega območja v sliki. Takemu sledenju pravimo kratkoročno sledenje. Poleg tega predpostavljamo, da je tok slik potencialno neskončen in ga torej ne mo- remo shraniti in nato obdelati v celoti z naključnim dostopom do slik. Vizualni sledilniki za dosego cilja naloge uporabljajo različne modele videza, ki na različne načine opisujejo videz objekta. Ker se ta tekom sekvence spreminja, je treba model videza posodabljati, to pa je pogosto problem, saj neuspešna posodobitev, ki je lahko rezultat netočne lokalizacije ali toge zasnove vizualnega modela, vodi v počasno spiralo odklona opisa videza objekta od realnega stanja, to pa pripelje do odpovedi sledilnika oziroma zdrsa. V tem članku predstavljamo napredni koncept kon- strukcije vizualnega modela, ki temelji na hierarhičnem združevanju vizualnih informacij. Tak način opisa videza daje možnosti za uspešno sledenje v številnih zahtevnih scenarijih, še zlasti pa je primeren za sledenje netogih in artikuliranih objektov. Uporabo hierarhičnega vizu- alnega modela smo potrdili z razvojem dveh sledilni- 218 ČEHOVIN ZAJC, LEONARDIS, KRISTAN kov [6], [7], ki se glede na empirične primerjave uvrščata v sam vrh raziskav na tem področju. V čanku predsta- vljamo enovit okvir formalizacije hiearhičnih modelov, kamor spadata [6], [7] in eksperimentalno analizo obeh izpeljank. V poglavju 2 najprej predstavljamo razisko- valno področje ter motiviramo naše delo. V poglavju 3 opišemo idejo hierarhičnih modelov videza ter povza- memo podrobnosti obeh izpeljanih modelov videza. V poglavju 4 predstaviljamo eksperimentalne rezultate, v poglavju 5 pa sklepne ugotovitve in ideje za nadaljnje delo. 2 PREGLED PODROČJA Modele videza lahko razvrstimo glede na tip upora- bljenih vizualnih značilnic za opis objekta in glede na način hranjenja ter obdelave informacij o videzu. Najbolj razširjena vrsta modelov so holistični modeli vi- deza, ki hranijo monolitno reprezentacijo videza objekta. Taki modeli videz objekta največkrat opisujejo z barv- nimi histogrami [9], [23], slikovnimi predlogami [39], [33], [4], [43], obrisi [19] in teksturami [38]. Pogo- sto uporabljene metode iskanja maksimalnega ujema- nja vizualnega modela s sliko uporabljajo sekvenčno jedrno [9] ter optimizacijo Monte-Carlo [36], [23]. V zadnjih dveh desetletjih je postalo popularno sledenje z uporabo diskriminativnih modelov, kar pomeni, da model videza vsebuje klasifikator, ki določi, ali določena regija vsebuje objekt ali ne. Ta klasifikator mora biti med sledenjem sproti osveževan, kar je eden izmed večjih problemov takih pristopov. Ena izmed prvih uspešnih implementacij sledenja z uporabo detekcije je uporabljal kaskadni ojačevalni (boosting) klasifikator, prirejen za sprotno osveževanje [14]. Pristop je bil kasneje večkrat razširjen [15], [1], navdihnil pa je tudi druge prostope k integraciji diskriminativne informacije, npr. uporabo strukturiranih podpornih vektorjev [16] in naključnih projekcij [45]. Kljub očitnemu uspehu holističnih mo- delov videza pa so hitre spremembe strukture objekta še vedno velik izziv. Pri holističnih modelih je namreč celotna reprezentacija videza objekta osvežena naenkrat, kar povečuje verjetnost, da bo pravilen del vizualne informacije pokvarjen z novo informacijo. To se lahko zgodi, ker sledilniku ne uspe določiti pravilnega po- ložaja objekta, kar pomeni, da bo model osvežen z informacijami, ki ne pripadajo objektu, ali ker sledilnik ne uporablja značilnic, ki bi bile v danem scenariju zmožne razločevati objekt od ozadja. Drugi problem holističnih modelov videza je predpostavka, da objekt lahko opišemo s pravokotno regijo v sliki. Čeprav je to smiselna predpostavka v številnih praktičnih primerih (npr. sledenje obrazov ali avtomobilov), obstaja veliko scenarijev, kjer ta predpostavka ne drži, npr. pri netogih in artikuliranih objektih. Vse geometrijske deformacije tarče, ki bi jih lahko upoštevali v geometrijskem okviru, morajo biti v holističnem vizualnem modelu obdelane s korakom osveževanja, kar povečuje možnost zdrsa. En od načinov obravnave nekaterih pomanjkljivosti posame- znih holističnih sledilnikov je njihovo združevanje [41], [29], [3], ki izvira iz opažanja, da se posamezni sle- dilniki v določenih okoliščinah obnašajo dobro in da lahko s pametnim preklapljanjem med njimi izboljšamo njihovo skupno delovanje. A tudi ta pristop dejansko ne naslavlja sledenja netogim objektom, ki se deformirajo in spreminjajo obliko. Po drugi strani pa je glavna ideja modelov videza, ki temeljijo na več delih, da je videz razdeljen na več lokalnih modelov in povezav med njimi. Vrste lokalnih modelov in oblike povezav se lahko med modeli videza zelo razlikujejo. Primer te vrste modelov videza temelji na množici lokalnih značilnic, ki sledijo z ocenjevanjem optičnega toka [22]. Optični tok je bil uporabljen tudi v [21], kjer se robustne ocene lokalnih premikov zdru- žijo v oceno premika z uporabo mediane. Drugi pristop k sledenju z več deli je uporaba stabilnih regij, npr. v [44] avtorji zaznajo stabilne dele in s predpostavljanjem globalne afine transformacije omejijo iskanje ujemanj ter se izognejo zdrsu. V [13] avtorji za sledenje predlagajo uporabo posplošene Houghove transformacije, ta pristop pa je bil kasneje razširjen v [10]. V [37] so uporabljene značilnice SIFT[31], videz objekta pa je predstavljen kot množica značilnic, ki se pogosto pojavijo skupaj. Na splošno je število stabilnih regij odvisno od vizualnih lastnosti specifičnega objekta (npr. jasnosti teksture), to pa neposredno vpliva na uspešnost sledilnika, saj je le- ta odvisna od števila in ponovljivosti stabilnih regij. Če imamo opravka z barvno homogenimi objekti, značilnice SIFT ne bodo številne in ponovljive, sledilnik pa bo zato neuspešen. V [11] avtorji obravnavajo problem postavitve delov v sliko kot optimizacijski problem in predlagajo sledenje objektu s pomočjo množice lokalnih jeder, ki so med se- boj povezana prek omejitev v obliki afine transformacije. V [32] je globalna afina transformacija razbita na lokalne afine transformacije trojic delov, v [2] pa je polno povezan graf omejitev rešen z uporabo filtra z delci za manjše število delov. V [8] avtorji za zapis prostorskih omejitev med deli uporabijo markovska slučajna polja. Problem vseh omenjenih pristopov je, da morajo biti omejitve ročno nastavljene glede na strukturne lastnosti objekta, čemur pa je v številnih scenarijih sledenja nemogoče zadostiti. Poleg tega je množica delov v teh modelih fiksna in se ne more prilagajati večjim spremembam v videzu objekta. V [34] avtorji predlagajo sledenje artikuliranim objektom s požrešnim deljenjem segmentacijske maske objekta na več delov. Bolj pri- lagodljiv geometrijski model, ki omogoča dolgoročno osveževanje, je predstavljen v [28]. Preprost zvezdast model povezuje posamezne dele, le-te pa lahko s časom dodajamo in odvzemamo. Novi deli so v model dodani z uporabo globalnega barvnega modela, ki je kombiniran z detektorjem stabilnih regij, kar pomeni, da je postopek omejen na teksturirane objekte. Naslednji model, ki HIERARHIČNI MODELI VIDEZA V VIZUALNEM SLEDENJU 219 uporablja višjenivojski globalni videz za postavljanje delov, je predstavljen v [13]. Segmentacijski algoritem, inicializiran z uporabo najdenih ujemanj lokalnih značil- nic, rezultat segmentacije pa je nato uporabljen za učenje novih značilnic. Uspeh tega pristopa je neposredno od- visen od robustnosti segmentacije, ki je pri zamegljenih ali šumnih scenah dokaj nizka. Preprostejša, hitrejša, a tudi manj zanesljiva segmentacija je uporabljena v [10]. Uspešnost vseh teh pristopov kaže na uporabnost visoko- nivojske informacije, saj ta omogoča daljšo življenjsko dobo sledilnikov, ki temeljijo na kombinaciji lokalnih opisov v scenarijih, kjer se videz objekta spreminja. Kljub temu pa ostaja mehanizem integracije globalne in lokalne informacije o videzu objekta le delno raziskan. 3 HIERARHIČNI MODEL VIDEZA Kot smo omenili v prejšnjem poglavju, holistični modeli niso primerni za vse scenarije sledenja. Zato predsta- vljamo novo formalizacijo modela videza, ki mu pra- vimo hierarhični model videza. Ta temelji na združeva- nju obeh glavnih paradigem zasnove modelov videza, torej holističnega načina opisa videza v kombinaciji z opisom z deli. Motivacija za hierarhični opis videza objekta izhaja iz potrebe po prostorskem in časovnem strukturiranju teh podatkov, rezultat pa je vizualni mo- del, ki je dovolj specifičen za učinkovito lokalizacijo objekta v sliki ter dovolj prožen in prilagodljiv glede na spremembe v videzu objekta. Konceptualno je hie- rarhični model definiran kot množica plasti, vsaka od njih opisuje videz na specifičen način. Spodnja plast vsebuje najbolj jasno informacijo o trenutnem videzu objekta, višje plasti pa informacijo o splošnejšem, ča- sovno manj spremenljivem videzu. Funkcija posameznih plasti se odraža tudi v osveževanju vizualnega modela. Spodnje plasti pri osveževanju vodijo višje-ležeče plasti, višje plasti pa so osveževane z izluščeno in posplo- šeno vizualno informacijo spodnjih plasti, če je le-ta dovolj zanesljiva. Če informacija v nekem trenutku ni zanesljiva, se osveževanje višjih plasti ustavi, plasti pa so tako zaščitene pred drsenjem in lahko z vodenjem osveževanja spodnjih plasti pripomorejo k okrevanju celotnega vizualnega modela. Hierarhični model videza ponuja odprt in prožen teo- retični okvir, ki je lahko vodilo za razvoj bolj robustnih sledilnikov. Spodnja plast je najbliže videzu objekta v danem trenutku, vendar se mora nenehno spreminjati in prilagajati spremembam v sliki. To lahko dosežemo z uporabo vizualnega modela z visoko stopnjo prostih parametrov, npr. prožna konstelacija delov, vendar pa lahko pri taki predstavitvi na dolgi rok hitro nastanejo problemi pri iskanju optimalnega nabora vrednosti pa- rametrov zaradi velikega števila lokalnih maksimumov. Prav pri tem pridejo do izraza višje plasti vizualnega modela, ki omogočajo spodnji plasti vodenje, na primer z odvzemanjem zastarelih delov ter dodajanjem novih, s čimer se spodnja plast prilagaja spremembam in ohranja jasnost opisa. V nadaljevanju bomo povzeli dva modela videza, ki ju lahko obravnavamo kot instanco predsta- vljenega splošnega hierarhičnega koncepta modeliranja videza. 3.1 Model dveh plasti V tem članku kot prvi model, ki sledi ideji hierarhične organizacije vizualne informacije. povzemamo idejo t. i. sklopljenega modela videza, ki je bil podrobneje predstavljen v [6]. Gre za model, ki videz objekta hrani v dveh plasteh, v njih pa združuje lokalno in globalno predstavitev videza objekta, kot je to prikazano na sliki 1. Slika 1: Shematični prikaz dvoplastnega modela videza Spodnja plast modela sestavlja množica delov, ki opisujejo lokalne lastnosti videza, Lt = {〈x (i) t ,h (i), w (i) t 〉}i=1:Nt , (1) kjer je x(i)t položaj i-tega dela, h (i) njegov model videza, gre za sivinski histogram iz lokalnega območja, ki je zajet iz slike ob postavitvi dela, w(i)t pa je utež, ki označuje pomembnost dela znotraj modela. Za primer- javo posameznega dela s sliko smo uporabili razdaljo Bhattacharyja. Iskanje prileganja cele množice delov z novo sliko v zaporedju je formalizirano kot sikanje maksimuma verjetnostne porazdelitve nad položaji delov in v odvisnosti od vizualne informacije in geometrijskih omejitev, p(Yt,Xt|Xt−1) = Nt∑ i=1 w (i) t p(Yt,x (i) t |ε (i) t , z (i)), (2) kjer ε(i)t označuje okolico i-tega dela, torej množico delov, s katerimi je del i povezan. Če privzamemo ne- odvisnost geometrijskih omejitev in vizualne podobnosti dela, lahko ujemanje posameznega dela opišemo kot p(Yt,x (i) t |ε (i) t , z (i)) = p(Yt|x (i) t , z (i))p(x (i) t |ε (i) t ). (3) 220 ČEHOVIN ZAJC, LEONARDIS, KRISTAN Pri tem je člen p(Yt|x (i) t , z (i)) definiran kot vizualno ujemanje prek razdalje Bhattacharyja, p(x(i)t |ε (i) t ) pa kot geometrijsko ujemanje prek odstopanja od položaja, ki ga za del i predlagajo njegovi sosedi. Iskanje op- timuma take funkcije je problematično zaradi visoke dimenzionalnosti in kompleksnosti prostora z veliko lokalnimi optimumi. Algoritem, ki smo ga uporabili za hitro in robustno reševanje problema, se opira na idejo o postopni nekonveksnosti in razdeli iskanje optimuma na dva koraka: globalno optimizacijo toge konstelacije in residualne popravke posameznih delov. Podrobneje je algoritem opisan v [6]. Poleg prilagajanja položajev delov, kar zagotavlja kratkoročno točnost opisa, se mora množica delov med sledenjem ustrezno prilagajati tudi večjim spremembam videza, kar dosežemo z dodajanjem novih in odvzemanjem starih delov. Kriterij za odstra- njevanje starih delov je njihov majhen pomen, torej utež w (i) t . Ta se spreminja na podlagi trenutnega ujemanja po- sameznega dela s sliko in njegove oddaljenosti od drugih delov. Pri dodajanju novih delov igra zelo pomembno vlogo zgornja plast, ki vsebuje globalni opis objekta v treh vizualnih modalnostih: barvi (Ct), gibanju (Mt) in obliki (St), Gt = {Ct,Mt, St}. (4) Vse tri modalnosti hranijo informacije na njim lasten način, ki je podrobneje opisan v [6], barva je pred- stavljena z barvnim histogramom, gibanje z vektorjem premika, oblika pa z množico poligonov. Vsem trem modalnostim je skupno, da lahko za dano sliko gene- rirajo verjetnostno porazdelitev, da posamezni slikovni element x pripada objektu. Taka porazdelitev lahko nato služi za vzorčenje območja, ki je primerno za postavitev novega elementa. Ob predposatvki, da so vse tri modal- nosti med seboj neodvisne, lahko skupno verjetnostno porazdelitev zapišemo kot p(x|Ct,Mt, St) ∝ p(Ct|x)p(Mt|x)p(St|x). (5) V vsakem koraku se vse tri plasti posodobijo. Pri tem s svojo informacijo o položaju sodelujejo zgolj deli lokalne plasti z dovolj veliko pomembnostjo (utežjo), kar zagotavlja višjo robustnost posodabljanja. Pomembna lastnost modela videza je tudi začetni zajem vizualne informacije, scenariji sledenja namreč predpostavljajo, da je sledilnemu algoritmu ob njegovi inicializaciji poleg začetne slike podana tudi bolj ali manj natančna regija celotnega objekta. V našem pri- meru predpostavljamo, da gre za pravokotnik, ki je tudi edina informacija, ki jo imamo o objektu, zato dele spodnje plasti razporedimo v mrežo znotraj podanih mej, v katerih pridobimo tudi začetne informacije za posamezne globalne modalnosti. Kot je razvidno iz rezultatov primerjalnih poskusov v poglavju 4, je predlagana kombinacija lokalne in globalne informacije smiselna, tak opis videza objekta sledilniku omogoča robustno in računsko učinkovito sledenje v raznolikih pogojih, še posebno pa se model videza izkaže pri sledenju objektov, ki se ne-togo defor- mirajo. Kljub temu pa prinaša tak način opisa videza tudi probleme. Vizualna informacija na obeh plasteh modela se spreminja dokaj hitro, ob vdoru vizualne informacije ozadja v model pa le-ta nima mehanizma, da bi si od tega opomogel. To se v rezultatih kaže v slabi natančnosti sledenja, še posebno v primerih, ki so dokaj preprosti za sledilnike, ki objekt ocenjujejo z manj parametri, le- te pa lahko tako ocenijo bolj natančno. Primeri takih scenarijev so sledenje pretežno togih objektov v primeru zakrivanja, kjer se zaradi prilagodljive spodnje plasti pokvari geometrija delov, pa tudi v primeru vizualne po- dobnosti med objektom in ozadjem, ko odpove globalna plast. Da bi hierarhični model videza lahko kljuboval tudi takim primerom, je treba uvesti novo plast, ki date časovno stabilnejšo informacijo o videzu objekta in omogoča hitro okrevanje v primeru, ko ima objekt na sliki podoben videz, kot ga je imel že v preteklosti. 3.2 Model treh plasti Drugi prestavljeni model videza razširja hierarhijo s tretjo plastjo, kot je prikazano na sliki 2, prvi dve plasti drugega vizualnega modela pa sta konceptualno zelo podobni prvemu vizualnemu modelu in ju bomo opisali pozneje. Slika 2: Shematični prikaz troplastnega modela videza Najvišja plast modela je še bolj trajna glede na sekvenco slik ter uvaja koncept sidrnih predlog. To je pomnilniški sistem, ki vsebuje množico holističnih predlog videza objekta, pridobljenih čez zaporedje slik ob različnih trenutkih Tt = {T1, T2, . . .}. V našem primeru smo za opis zaplat uporabili korelacijske filtre nad opisniki HOG [17]. V novi sliki zaporedja iščemo predlogo, ki najbolje pojasni vizualno informacijo t. j. T̂t = arg max T∈Tt−1 d(T,Yt), (6) kjer d(·, ·) označuje funkcijo ujemanja, ki nam vrne najboljši odziv v okolici, Yt trenutno sliko, T̂t pa HIERARHIČNI MODELI VIDEZA V VIZUALNEM SLEDENJU 221 označuje sidrno predlogo, torej predlogo z najboljšim odzivom. Kakovost ujemanja predloge določa nadaljnji način uporabe. Predloga je lahko pri visokem ujemanju obravnavana kot detekcija, pri srednjem ujemanju je položaj njene detekcije vodilo za nižje plasti modela videza, pri slabem ujemanju pa se predloga ne uporablja. Prednost tega mehanizma je, da se zaplate uporabijo samo pri zanesljivi uporabi, lahko tudi samo za krajša obdobja v sekvenci slik. To nam posledično dovoljuje tudi uporabo zelo konservativnega mehanizma za poso- dabljanje množice predlog z novimi predlogami, ki se dodajo samo ob soglašanju spodnjih plasti modela o ve- likosti in položaju objekta. Več podrobnosti o opisanem mehanizmu je na voljo v [7]. Spodnja plast modela je enaka spodnji plasti mo- dela dveh plasti, vendar pa v tem primeru namesto stohastične optimizacije za iskanje prileganja uporabimo deterministični algoritem, ki najprej poizkuša za posa- mezni del oceniti optični tok, če ocena ni zanesljiva, pa preide najprej na globalno oceno premika z uporabo posplošene Houghove transformacije, nato pa na izbolj- šavo z uporabo algoritma Iterated Conditional Modes (ICM). Podrobneje je algoritem opisan v [7]. Tudi v tem primeru se množica delov osvežuje še z odstranje- vanjem nepomembnih delov in dodajanjem novih. Deli, ki niso pomembni, so določeni na podlagi trenutnega ujemanja posameznega dela s sliko in algoritma prila- gajanja srednje vrednosti (mean-shift) [12] nad položaji posameznih delov. V algoritmu se uporabi uniformno jedro, ki je po velikosti enako trenutni ocenjeni velikosti objekta. Deli, ki so za model nepomembni, ali pa celo škodljivi, so tisti, ki jih algoritem izloči iz območja jedra ob končni konvergenci. Novi deli so v množico dodani na podlagi segmen- tacije objekta na podlagi barve, kar bomo opisali v naslednjem odstavku, pri določitvi natančnega položaja začetne postavitve pa se upoštevajo tudi lastnosti slike, ki bi zagotovile čim bolj kakovostno oceno optičnega toka, s tem pa hitro določitev prilagajanja množice delov v novi sliki. Za vzorčenje položajev se uporabi funkcija q(x) = H(x)+αUU(x), kjer je H(x) Harrisova ocena kotov za točko x, U(x) periodična funkcija, v našem primeru gre za kosinusni signal v dveh dimenzijah, ki naredi mrežast vzorec, αU pa konstanta. Funkcija q(x) nam za teksturirane regije zagotavlja postavitev delov na kotih, kjer je ocena optičnega toka bolj kakovostna, na območjih z manj teksture pa postavitev delov v mrežnem vzorcu. Srednja plast je, podobno kot pri prvem vizualnem modelu, namenjena določanju območij v sliki, ki pri- padajo objektu. To se doseže s preprosto in hitro se- gmentacijo na podlagi barvnega modela. Plast vsebuje informacijo o barvi objekta, s katero za dano sliko generiramo segmentacijsko masko objekta, na podlagi te pa določimo območja, primerna za postavitev novih delov na spodnji plasti. Konceptualno gre za podoben pristop kot pri zgornji plasti modela dveh plasti, s tem, da tu algoritem glede na predznanje o velikosti objekta samodejno določi prag nad verjetnostno porazdelitvijo in jo razdeli v binarno masko. Če prag ne more biti določen, barvna predstavitev velja za nezanesljivo in se v danem časovnem koraku ne uporabi. Algoritem za določitev praga je opisan v [7]. V nasprotju z modelom dveh plasti se tudi začetni zajem vizualne informacije zanaša na segmentacijo in oceno kotov. Razporeditev delov je zato bolj naravna in se prilagaja strukturi objekta. Poleg tega začetni položaj objekta služi tudi za pridobitev prve predloge objekta v tretji plasti. Najpomembnejša lastnost izboljšav modela videza je tretja plast. Ta daje spodnjim plastem zanesljivo in- formacijo o položaju in velikosti objekta pri dobrem ujemanju ene izmed predlog s sliko, sicer pa delovanju modela ne škoduje. Tako torej tretja plast pripomore k hitremu okrevanju celotnega modela, če ta delno zdrsne na ozadje ali zgolj na del objekta. Eksperimentalna ana- liza, predstavljena v naslednjemu poglavju, potrdi koristi tretje plasti in predlaganega mehanizma, saj sledilnik s takim modelom videza izboljša natančnost, pa tudi splošno kakovost sledenja. 4 REZULTATI Opisana sledilnka, ki ju bomo označili z oznakama LGT [6] in ANT [7], kljub svoji konceptualni podob- nosti do zdaj nista bila eksperimentalno ovrednotena z enako metodologijo, zato bomo v okviru članka naredili poenoteno analizo iz vidika hieararhičnih modelov vi- deza ter ju testirali z uporabo dveh primerjalnih testov za vizualne sledilnke, VOT2013 [27] in VOT2014 [26]. Oba testa določata zbirko sekvenc z ročnimi anotacijami objektov in protokol izvedbe eksperimentov ter obdelave rezultatov, obenem pa so na voljo tudi okolje za izvedbo eksperimentov in rezultati za veliko sledilnih algoritmov, kar omogoča primerjavo z referenčnimi algoritmi. Podatki in eksperimentalni protokol. Zbirki sekvenc sta sestavljeni iz 16 (VOT2013) in 25 (VOT2014) ročno anotiranih sekvenc, ki vsebujejo različne scenarije, ki so iz različnih razlogov zahtevni za nalogo sledenja, npr. sprememba osvetlitve, deformacije objekta, hitre spre- membe gibanja, sprememba velikosti, rotacija, zakriva- nje. Kot je opisano v [27], [26], so bile sekvence izbrane iz večjega nabora z metodo gručenja po lastnostih z namenom, da dobimo reprezentativno množico sekvenc obvladljive velikosti. V primerjavi sledimo uradni metodologiji VOT, ki predpisuje, da je za vsako sekvenco sledilnik najprej postavljen na položaj, ki ga določa zlati standard v prvi sliki sekvence. Nato sledilnik sledi objektu, dokler ne zdrsne z njega; v tem primeru sledilnik ponastavimo na pravilen položaj in si zapolnimo položaj odpovedi. Končni rezultati so povzeti v obliki natančnosti (pov- prečno prekrivanje regije zlatega standarda in trajektorije sledilnka) in robustnosti (število zdrsov). Poskusi so bili 222 ČEHOVIN ZAJC, LEONARDIS, KRISTAN opravljeni z uporabo uradnega okolja za izvedbo posku- sov, ki omogoča tudi izvedbo analize z razvrščanjem. V tem primeru se, da se izognemo pristranskosti, upošte- vata tudi statistična in praktična razlika v natančnosti in robustnosti. Podrobnosti metodologije so opisane v [27], [26], [24]. Implementacija in nabor parametrov. Oba predlagana sledilnika sta bila v okviru raziskav implementirana v jeziku Matlab, bolj kompleksni deli algoritma pa so implementirani v jeziku C++. Čeprav je implementacija namenjena razvoju in razumevanju delovanja in se deli algoritma izvedejo večkrat zavoljo jasnosti, celoten al- goritem pa teče zaporedno kljub velikim potencialom paralelizacije, se algoritem LGT izvaja s hitrostjo tri slike na sekundo, algoritem ANT pa celo s petimi slikami na sekundo na računalniku s procesorjem AMD Opteron 6238. Algoritem LGT je bil v okrnjeni obliki implementiran tudi v jeziku C++, ki deluje s hitrostjo 30 slik na sekundo, zato lahko trdimo, da sta oba algoritma primerna za procesiranje slikovnih tokov v realnem času. Kot je to predvideno v metodologiji VOT, so para- metri obeh sledilnikov fiksni v vseh sekvencah obeh primerjalnih testov. Pri sledilniku LGT so podrobni parametri objavljeni v [6], parametri sledilnika ANT pa so navedeni v [7]. 4.1 VOT2013 Rezultate primerjave na zbirki VOT2013 povzema slika 3, na kateri so prikazane surove vrednosti za natančnost in robustnost ter razvrščanje z upoštevanjem statistične enakovrednosti. Poleg primerjave z referenč- nimi sledilniki, katerih rezultati so javno dostopni v okviru zbirke, smo v okviru zbirke raziskali tudi pomen tretje plasti modela videza, ki je vključen v sledilnik ANT. Z manipulacijo parametrov, ki vplivajo na funkcijo tretje plasti, smo poleg glavnega sledilnika ustvarili še tri dodatne: sledilnik ANT-D sledi samo z eno predlogo, ki jo dobi na začetku sekvence, in ji vedno brezpogojno zaupa, sledilnik ANT-P uporablja samo spodnji dve plasti in ignorira vpliv sidrne predloge, sledilnik ANT- DP pa uporablja vse tri plasti, vendar zgornja plast deluje le v načinu detekcije, ne upošteva pa se vmesni način vodenja spodnjih plasti pri manj zanesljivemu ujemanju. Iz rezultatov lahko vidimo, da sta oba sledilnika, tako LGT kot ANT, v samem vrhu kar se tiče robustno- sti, sledilnik ANT pa celo premaga vse sledilnike, če upoštevamo kombinacijo natančnosti in robustnosti. Ob tem je treba poudariti, da so nekateri sledilniki opazno boljši v natančnosti, npr. FoT [42] in LT-FLO [30], vendar je razlog za to v pogostih zdrsih sledilnika, ki jim sledijo ponastavitve. To se seveda odraža v nizki robustnosti takih sledilnikov. Analiza je pokazala tudi, da je večina holističnih sledilnkov, npr. IVT, Struck in EDFT, manj robustnih, ko govorimo o sledenju ne- togih objektov, odrežejo pa se bolje pri sledenju togim objektom, pri katerih so uspešni tudi pri zakrivanju in spremembah osvetlitve. Po drugi strani pa sledilnik ANT Slika 3: Rezultati na zbirki VOT2013 združuje kvalitete holističnega opisa in opisa z deli, kar privede do izboljšav na obeh področjih. To je potrdila tudi analiza rezultatov treh dodatnih sledilnikov. Iz nje je razvidno, da ANT-D doseže dobro natančnost, predvsem zato, ker uporablja zglolj začetno predlogo, ki ne more upoštevati sprememb videza, zato tudi hitro zdrsne z objekta. Po drugi strani sledilnik ANT-P doseže dobro robustnost, vendar dokaj slabo natančnost, saj gre za samonadzorovano osveževanje spodnjih dveh plasti brez dodatnega nadzora in možnosti okrevanja, ki ga pri- naša sistem sidrnih predlog. Sledilnik ANT-DP integrira lastnosti ANT-D in ANT-P in tako izboljša rezultat s preklapljanjem med detekcijo s predlogami in sledenjem z množico delov, vendar pa ne vključuje mehanizma, pri katerem lahko predloge ob nepopolnem ujemanju še vedno sodelujejo pri osveževanju spodnjih plasti. S tem mehanizmom sledilnik ANT opazno izboljša delovanje, s tem pa se potrdi tudi naša hipoteza, da sidrne predloge v opisanem načinu delovanja izboljšajo robustnost mo- dela videza in posledično kakovost sledenja. 4.2 VOT2014 Druga zbirka, ki smo jo uporabili za analizo je VOT2014, rezultate pa povzema slika 4. Čeprav gre za zahtevnejšo zbirko z novejšimi sledilniki, sta LGT in ANT glede robustnosti še vedno v vrhu. V natančnosti so rezultati nekoliko slabši še posebej pri sledilniku LGT, medtem ko se sledilnk ANT odreže primerljivo z večino drugih sledilnikov. Primerljivi sledilnik DGT se odreže bolje v natančnosti z uporabo računsko potratne segmentacije, holistični sledilniki, npr. DSST, KCF in SAMF, pa se v natančnosti odrežejo bolje, vendar ob opazno večjem številu zdrsov. Kot je jasno razvidno iz slike, sledilnik ANT z uporabo treh plasti opazno izboljša natančnost glede na sledilnik LGT, obenem pa izboljša tudi robustnost. To pomeni, da izboljšana natančnost ni zgolj rezultat kompromisa med dvema pogledoma na sledenje, ampak gre za izboljšavo modela videza. HIERARHIČNI MODELI VIDEZA V VIZUALNEM SLEDENJU 223 Slika 4: Rezultati na zbirki VOT2014 5 SKLEP V članku smo opisali problem kratkoročnega vizualnega sledenja in predstavili koncept hierarhičnega modela videza. Tak način opisa vizualne informacije nam omo- goča, da se po eni strani osredotočimo na trenutni videz objekta, vendar pa ohranimo dovolj splošne informacije, ki se uporabi kot vodilo pri posodabljanju modela. V članku smo povzeli teorijo dveh modelov videza, ki izpolnjujeta merila hierarhične ureditve, in predstavili eksperimentalne rezultate, ki kažejo na velik potencial ideje, še zlasti pri sledenju netogih objektov. Na koncu je treba poudariti, da je definicija kratkoroč- nega sledenja v trenutni obliki dokaj problematična, saj sledenje stanju poljubnega objekta zahteva integracijo veliko večje količine znanja, kot je samo trenutni videz objekta. Da bi lahko poljuben objekt zanesljivo sledili v poljubni situaciji, bi moral sistem integrirati algoritme z več področij računalniškega vida in sklepanja, kar daleč presega trenutno stanje na tem raziskovalnem področju. Po drugi strani pa že zdaj obstaja veliko možnosti za uporabo vizualnega sledenja v okviru določenih aplika- cij, kjer je scenarij sledenja bolj definiran in omejen. Prav med tema dvema pogledoma vidimo veliko pri- ložnost hierarhičnih modelov videza, saj dajejo teore- tični okvir, ki omogoča po eni strani postopen prehod s problema sledenja na druge domene računalniškega vida, kot sta kategorizacija in detekcija, po drugi strani pa na podoben način omogoča tudi intuitivno uvajanje omejitev, ki izvirajo iz aplikacije. To so zato tudi naše smernice za nadaljnje raziskovanje in delo.