1 UVOD
Vizualno sledenje je pomembno raziskovalno področje v
okviru računalniškega vida, katerega glavni cilj vizual-
nega sledenja je določitev stanja enega ali več objektov
v toku slik ob upoštevanju časovne soslednosti le-teh.
Algoritme, ki opravljajo nalogo vizualnega sledenja,
Prejet 18. avgust, 2016
Odobren 12. oktober, 2016
imenujemo vizualni sledilniki, in jih lahko uporabimo
na številnih, tako novih kot tudi že uveljavljenih, tehno-
loških področij, kot so npr. robotika [35], videonadzorni
sistemi [40], [20], interakcija med človekom in raču-
nalnikom [5], [22], [18], avtonomna vozila in analiza
športa [25]. Zaradi široke palete možnosti uporabe vizu-
alnega sledenja se je razvilo veliko podvrst formalizacije
problema, vsaka s svojimi izzivi in predpostavkami.
V tem članku obravnavamo tip vizualnega sledenja,
kjer sledimo samo enemu objektu v enem samem toku
slik, geometrijskih lastnosti objekta ne poznamo vnaprej,
predpostavljamo pa tudi, da objekt ne bo nikoli izginil iz
opazovanega območja v sliki. Takemu sledenju pravimo
kratkoročno sledenje. Poleg tega predpostavljamo, da
je tok slik potencialno neskončen in ga torej ne mo-
remo shraniti in nato obdelati v celoti z naključnim
dostopom do slik. Vizualni sledilniki za dosego cilja
naloge uporabljajo različne modele videza, ki na različne
načine opisujejo videz objekta. Ker se ta tekom sekvence
spreminja, je treba model videza posodabljati, to pa je
pogosto problem, saj neuspešna posodobitev, ki je lahko
rezultat netočne lokalizacije ali toge zasnove vizualnega
modela, vodi v počasno spiralo odklona opisa videza
objekta od realnega stanja, to pa pripelje do odpovedi
sledilnika oziroma zdrsa.
V tem članku predstavljamo napredni koncept kon-
strukcije vizualnega modela, ki temelji na hierarhičnem
združevanju vizualnih informacij. Tak način opisa videza
daje možnosti za uspešno sledenje v številnih zahtevnih
scenarijih, še zlasti pa je primeren za sledenje netogih
in artikuliranih objektov. Uporabo hierarhičnega vizu-
alnega modela smo potrdili z razvojem dveh sledilni-
218 ČEHOVIN ZAJC, LEONARDIS, KRISTAN
kov [6], [7], ki se glede na empirične primerjave uvrščata
v sam vrh raziskav na tem področju. V čanku predsta-
vljamo enovit okvir formalizacije hiearhičnih modelov,
kamor spadata [6], [7] in eksperimentalno analizo obeh
izpeljank. V poglavju 2 najprej predstavljamo razisko-
valno področje ter motiviramo naše delo. V poglavju 3
opišemo idejo hierarhičnih modelov videza ter povza-
memo podrobnosti obeh izpeljanih modelov videza. V
poglavju 4 predstaviljamo eksperimentalne rezultate, v
poglavju 5 pa sklepne ugotovitve in ideje za nadaljnje
delo.
2 PREGLED PODROČJA
Modele videza lahko razvrstimo glede na tip upora-
bljenih vizualnih značilnic za opis objekta in glede
na način hranjenja ter obdelave informacij o videzu.
Najbolj razširjena vrsta modelov so holistični modeli vi-
deza, ki hranijo monolitno reprezentacijo videza objekta.
Taki modeli videz objekta največkrat opisujejo z barv-
nimi histogrami [9], [23], slikovnimi predlogami [39],
[33], [4], [43], obrisi [19] in teksturami [38]. Pogo-
sto uporabljene metode iskanja maksimalnega ujema-
nja vizualnega modela s sliko uporabljajo sekvenčno
jedrno [9] ter optimizacijo Monte-Carlo [36], [23]. V
zadnjih dveh desetletjih je postalo popularno sledenje
z uporabo diskriminativnih modelov, kar pomeni, da
model videza vsebuje klasifikator, ki določi, ali določena
regija vsebuje objekt ali ne. Ta klasifikator mora biti med
sledenjem sproti osveževan, kar je eden izmed večjih
problemov takih pristopov. Ena izmed prvih uspešnih
implementacij sledenja z uporabo detekcije je uporabljal
kaskadni ojačevalni (boosting) klasifikator, prirejen za
sprotno osveževanje [14]. Pristop je bil kasneje večkrat
razširjen [15], [1], navdihnil pa je tudi druge prostope
k integraciji diskriminativne informacije, npr. uporabo
strukturiranih podpornih vektorjev [16] in naključnih
projekcij [45]. Kljub očitnemu uspehu holističnih mo-
delov videza pa so hitre spremembe strukture objekta
še vedno velik izziv. Pri holističnih modelih je namreč
celotna reprezentacija videza objekta osvežena naenkrat,
kar povečuje verjetnost, da bo pravilen del vizualne
informacije pokvarjen z novo informacijo. To se lahko
zgodi, ker sledilniku ne uspe določiti pravilnega po-
ložaja objekta, kar pomeni, da bo model osvežen z
informacijami, ki ne pripadajo objektu, ali ker sledilnik
ne uporablja značilnic, ki bi bile v danem scenariju
zmožne razločevati objekt od ozadja. Drugi problem
holističnih modelov videza je predpostavka, da objekt
lahko opišemo s pravokotno regijo v sliki. Čeprav je
to smiselna predpostavka v številnih praktičnih primerih
(npr. sledenje obrazov ali avtomobilov), obstaja veliko
scenarijev, kjer ta predpostavka ne drži, npr. pri netogih
in artikuliranih objektih. Vse geometrijske deformacije
tarče, ki bi jih lahko upoštevali v geometrijskem okviru,
morajo biti v holističnem vizualnem modelu obdelane s
korakom osveževanja, kar povečuje možnost zdrsa. En
od načinov obravnave nekaterih pomanjkljivosti posame-
znih holističnih sledilnikov je njihovo združevanje [41],
[29], [3], ki izvira iz opažanja, da se posamezni sle-
dilniki v določenih okoliščinah obnašajo dobro in da
lahko s pametnim preklapljanjem med njimi izboljšamo
njihovo skupno delovanje. A tudi ta pristop dejansko ne
naslavlja sledenja netogim objektom, ki se deformirajo
in spreminjajo obliko.
Po drugi strani pa je glavna ideja modelov videza,
ki temeljijo na več delih, da je videz razdeljen na več
lokalnih modelov in povezav med njimi. Vrste lokalnih
modelov in oblike povezav se lahko med modeli videza
zelo razlikujejo. Primer te vrste modelov videza temelji
na množici lokalnih značilnic, ki sledijo z ocenjevanjem
optičnega toka [22]. Optični tok je bil uporabljen tudi
v [21], kjer se robustne ocene lokalnih premikov zdru-
žijo v oceno premika z uporabo mediane. Drugi pristop k
sledenju z več deli je uporaba stabilnih regij, npr. v [44]
avtorji zaznajo stabilne dele in s predpostavljanjem
globalne afine transformacije omejijo iskanje ujemanj ter
se izognejo zdrsu. V [13] avtorji za sledenje predlagajo
uporabo posplošene Houghove transformacije, ta pristop
pa je bil kasneje razširjen v [10]. V [37] so uporabljene
značilnice SIFT[31], videz objekta pa je predstavljen kot
množica značilnic, ki se pogosto pojavijo skupaj. Na
splošno je število stabilnih regij odvisno od vizualnih
lastnosti specifičnega objekta (npr. jasnosti teksture), to
pa neposredno vpliva na uspešnost sledilnika, saj je le-
ta odvisna od števila in ponovljivosti stabilnih regij. Če
imamo opravka z barvno homogenimi objekti, značilnice
SIFT ne bodo številne in ponovljive, sledilnik pa bo zato
neuspešen.
V [11] avtorji obravnavajo problem postavitve delov
v sliko kot optimizacijski problem in predlagajo sledenje
objektu s pomočjo množice lokalnih jeder, ki so med se-
boj povezana prek omejitev v obliki afine transformacije.
V [32] je globalna afina transformacija razbita na lokalne
afine transformacije trojic delov, v [2] pa je polno
povezan graf omejitev rešen z uporabo filtra z delci za
manjše število delov. V [8] avtorji za zapis prostorskih
omejitev med deli uporabijo markovska slučajna polja.
Problem vseh omenjenih pristopov je, da morajo biti
omejitve ročno nastavljene glede na strukturne lastnosti
objekta, čemur pa je v številnih scenarijih sledenja
nemogoče zadostiti. Poleg tega je množica delov v
teh modelih fiksna in se ne more prilagajati večjim
spremembam v videzu objekta. V [34] avtorji predlagajo
sledenje artikuliranim objektom s požrešnim deljenjem
segmentacijske maske objekta na več delov. Bolj pri-
lagodljiv geometrijski model, ki omogoča dolgoročno
osveževanje, je predstavljen v [28]. Preprost zvezdast
model povezuje posamezne dele, le-te pa lahko s časom
dodajamo in odvzemamo. Novi deli so v model dodani z
uporabo globalnega barvnega modela, ki je kombiniran
z detektorjem stabilnih regij, kar pomeni, da je postopek
omejen na teksturirane objekte. Naslednji model, ki
HIERARHIČNI MODELI VIDEZA V VIZUALNEM SLEDENJU 219
uporablja višjenivojski globalni videz za postavljanje
delov, je predstavljen v [13]. Segmentacijski algoritem,
inicializiran z uporabo najdenih ujemanj lokalnih značil-
nic, rezultat segmentacije pa je nato uporabljen za učenje
novih značilnic. Uspeh tega pristopa je neposredno od-
visen od robustnosti segmentacije, ki je pri zamegljenih
ali šumnih scenah dokaj nizka. Preprostejša, hitrejša, a
tudi manj zanesljiva segmentacija je uporabljena v [10].
Uspešnost vseh teh pristopov kaže na uporabnost visoko-
nivojske informacije, saj ta omogoča daljšo življenjsko
dobo sledilnikov, ki temeljijo na kombinaciji lokalnih
opisov v scenarijih, kjer se videz objekta spreminja.
Kljub temu pa ostaja mehanizem integracije globalne in
lokalne informacije o videzu objekta le delno raziskan.
3 HIERARHIČNI MODEL VIDEZA
Kot smo omenili v prejšnjem poglavju, holistični modeli
niso primerni za vse scenarije sledenja. Zato predsta-
vljamo novo formalizacijo modela videza, ki mu pra-
vimo hierarhični model videza. Ta temelji na združeva-
nju obeh glavnih paradigem zasnove modelov videza,
torej holističnega načina opisa videza v kombinaciji z
opisom z deli. Motivacija za hierarhični opis videza
objekta izhaja iz potrebe po prostorskem in časovnem
strukturiranju teh podatkov, rezultat pa je vizualni mo-
del, ki je dovolj specifičen za učinkovito lokalizacijo
objekta v sliki ter dovolj prožen in prilagodljiv glede
na spremembe v videzu objekta. Konceptualno je hie-
rarhični model definiran kot množica plasti, vsaka od
njih opisuje videz na specifičen način. Spodnja plast
vsebuje najbolj jasno informacijo o trenutnem videzu
objekta, višje plasti pa informacijo o splošnejšem, ča-
sovno manj spremenljivem videzu. Funkcija posameznih
plasti se odraža tudi v osveževanju vizualnega modela.
Spodnje plasti pri osveževanju vodijo višje-ležeče plasti,
višje plasti pa so osveževane z izluščeno in posplo-
šeno vizualno informacijo spodnjih plasti, če je le-ta
dovolj zanesljiva. Če informacija v nekem trenutku ni
zanesljiva, se osveževanje višjih plasti ustavi, plasti pa
so tako zaščitene pred drsenjem in lahko z vodenjem
osveževanja spodnjih plasti pripomorejo k okrevanju
celotnega vizualnega modela.
Hierarhični model videza ponuja odprt in prožen teo-
retični okvir, ki je lahko vodilo za razvoj bolj robustnih
sledilnikov. Spodnja plast je najbliže videzu objekta v
danem trenutku, vendar se mora nenehno spreminjati
in prilagajati spremembam v sliki. To lahko dosežemo
z uporabo vizualnega modela z visoko stopnjo prostih
parametrov, npr. prožna konstelacija delov, vendar pa
lahko pri taki predstavitvi na dolgi rok hitro nastanejo
problemi pri iskanju optimalnega nabora vrednosti pa-
rametrov zaradi velikega števila lokalnih maksimumov.
Prav pri tem pridejo do izraza višje plasti vizualnega
modela, ki omogočajo spodnji plasti vodenje, na primer
z odvzemanjem zastarelih delov ter dodajanjem novih, s
čimer se spodnja plast prilagaja spremembam in ohranja
jasnost opisa. V nadaljevanju bomo povzeli dva modela
videza, ki ju lahko obravnavamo kot instanco predsta-
vljenega splošnega hierarhičnega koncepta modeliranja
videza.
3.1 Model dveh plasti
V tem članku kot prvi model, ki sledi ideji hierarhične
organizacije vizualne informacije. povzemamo idejo t.
i. sklopljenega modela videza, ki je bil podrobneje
predstavljen v [6]. Gre za model, ki videz objekta
hrani v dveh plasteh, v njih pa združuje lokalno in
globalno predstavitev videza objekta, kot je to prikazano
na sliki 1.
Slika 1: Shematični prikaz dvoplastnega modela videza
Spodnja plast modela sestavlja množica delov, ki
opisujejo lokalne lastnosti videza,
Lt = {〈x
(i)
t ,h
(i), w
(i)
t 〉}i=1:Nt , (1)
kjer je x(i)t položaj i-tega dela, h
(i) njegov model videza,
gre za sivinski histogram iz lokalnega območja, ki je
zajet iz slike ob postavitvi dela, w(i)t pa je utež, ki
označuje pomembnost dela znotraj modela. Za primer-
javo posameznega dela s sliko smo uporabili razdaljo
Bhattacharyja. Iskanje prileganja cele množice delov
z novo sliko v zaporedju je formalizirano kot sikanje
maksimuma verjetnostne porazdelitve nad položaji delov
in v odvisnosti od vizualne informacije in geometrijskih
omejitev,
p(Yt,Xt|Xt−1) =
Nt∑
i=1
w
(i)
t p(Yt,x
(i)
t |ε
(i)
t , z
(i)), (2)
kjer ε(i)t označuje okolico i-tega dela, torej množico
delov, s katerimi je del i povezan. Če privzamemo ne-
odvisnost geometrijskih omejitev in vizualne podobnosti
dela, lahko ujemanje posameznega dela opišemo kot
p(Yt,x
(i)
t |ε
(i)
t , z
(i)) = p(Yt|x
(i)
t , z
(i))p(x
(i)
t |ε
(i)
t ). (3)
220 ČEHOVIN ZAJC, LEONARDIS, KRISTAN
Pri tem je člen p(Yt|x
(i)
t , z
(i)) definiran kot vizualno
ujemanje prek razdalje Bhattacharyja, p(x(i)t |ε
(i)
t ) pa
kot geometrijsko ujemanje prek odstopanja od položaja,
ki ga za del i predlagajo njegovi sosedi. Iskanje op-
timuma take funkcije je problematično zaradi visoke
dimenzionalnosti in kompleksnosti prostora z veliko
lokalnimi optimumi. Algoritem, ki smo ga uporabili za
hitro in robustno reševanje problema, se opira na idejo
o postopni nekonveksnosti in razdeli iskanje optimuma
na dva koraka: globalno optimizacijo toge konstelacije
in residualne popravke posameznih delov. Podrobneje
je algoritem opisan v [6]. Poleg prilagajanja položajev
delov, kar zagotavlja kratkoročno točnost opisa, se mora
množica delov med sledenjem ustrezno prilagajati tudi
večjim spremembam videza, kar dosežemo z dodajanjem
novih in odvzemanjem starih delov. Kriterij za odstra-
njevanje starih delov je njihov majhen pomen, torej utež
w
(i)
t . Ta se spreminja na podlagi trenutnega ujemanja po-
sameznega dela s sliko in njegove oddaljenosti od drugih
delov. Pri dodajanju novih delov igra zelo pomembno
vlogo zgornja plast, ki vsebuje globalni opis objekta v
treh vizualnih modalnostih: barvi (Ct), gibanju (Mt) in
obliki (St),
Gt = {Ct,Mt, St}. (4)
Vse tri modalnosti hranijo informacije na njim lasten
način, ki je podrobneje opisan v [6], barva je pred-
stavljena z barvnim histogramom, gibanje z vektorjem
premika, oblika pa z množico poligonov. Vsem trem
modalnostim je skupno, da lahko za dano sliko gene-
rirajo verjetnostno porazdelitev, da posamezni slikovni
element x pripada objektu. Taka porazdelitev lahko nato
služi za vzorčenje območja, ki je primerno za postavitev
novega elementa. Ob predposatvki, da so vse tri modal-
nosti med seboj neodvisne, lahko skupno verjetnostno
porazdelitev zapišemo kot
p(x|Ct,Mt, St) ∝ p(Ct|x)p(Mt|x)p(St|x). (5)
V vsakem koraku se vse tri plasti posodobijo. Pri
tem s svojo informacijo o položaju sodelujejo zgolj deli
lokalne plasti z dovolj veliko pomembnostjo (utežjo),
kar zagotavlja višjo robustnost posodabljanja.
Pomembna lastnost modela videza je tudi začetni
zajem vizualne informacije, scenariji sledenja namreč
predpostavljajo, da je sledilnemu algoritmu ob njegovi
inicializaciji poleg začetne slike podana tudi bolj ali
manj natančna regija celotnega objekta. V našem pri-
meru predpostavljamo, da gre za pravokotnik, ki je tudi
edina informacija, ki jo imamo o objektu, zato dele
spodnje plasti razporedimo v mrežo znotraj podanih
mej, v katerih pridobimo tudi začetne informacije za
posamezne globalne modalnosti.
Kot je razvidno iz rezultatov primerjalnih poskusov
v poglavju 4, je predlagana kombinacija lokalne in
globalne informacije smiselna, tak opis videza objekta
sledilniku omogoča robustno in računsko učinkovito
sledenje v raznolikih pogojih, še posebno pa se model
videza izkaže pri sledenju objektov, ki se ne-togo defor-
mirajo. Kljub temu pa prinaša tak način opisa videza tudi
probleme. Vizualna informacija na obeh plasteh modela
se spreminja dokaj hitro, ob vdoru vizualne informacije
ozadja v model pa le-ta nima mehanizma, da bi si od tega
opomogel. To se v rezultatih kaže v slabi natančnosti
sledenja, še posebno v primerih, ki so dokaj preprosti
za sledilnike, ki objekt ocenjujejo z manj parametri, le-
te pa lahko tako ocenijo bolj natančno. Primeri takih
scenarijev so sledenje pretežno togih objektov v primeru
zakrivanja, kjer se zaradi prilagodljive spodnje plasti
pokvari geometrija delov, pa tudi v primeru vizualne po-
dobnosti med objektom in ozadjem, ko odpove globalna
plast. Da bi hierarhični model videza lahko kljuboval
tudi takim primerom, je treba uvesti novo plast, ki
date časovno stabilnejšo informacijo o videzu objekta
in omogoča hitro okrevanje v primeru, ko ima objekt na
sliki podoben videz, kot ga je imel že v preteklosti.
3.2 Model treh plasti
Drugi prestavljeni model videza razširja hierarhijo s
tretjo plastjo, kot je prikazano na sliki 2, prvi dve plasti
drugega vizualnega modela pa sta konceptualno zelo
podobni prvemu vizualnemu modelu in ju bomo opisali
pozneje.
Slika 2: Shematični prikaz troplastnega modela videza
Najvišja plast modela je še bolj trajna glede na
sekvenco slik ter uvaja koncept sidrnih predlog. To
je pomnilniški sistem, ki vsebuje množico holističnih
predlog videza objekta, pridobljenih čez zaporedje slik
ob različnih trenutkih Tt = {T1, T2, . . .}. V našem
primeru smo za opis zaplat uporabili korelacijske filtre
nad opisniki HOG [17]. V novi sliki zaporedja iščemo
predlogo, ki najbolje pojasni vizualno informacijo t. j.
T̂t = arg max
T∈Tt−1
d(T,Yt), (6)
kjer d(·, ·) označuje funkcijo ujemanja, ki nam vrne
najboljši odziv v okolici, Yt trenutno sliko, T̂t pa
HIERARHIČNI MODELI VIDEZA V VIZUALNEM SLEDENJU 221
označuje sidrno predlogo, torej predlogo z najboljšim
odzivom. Kakovost ujemanja predloge določa nadaljnji
način uporabe. Predloga je lahko pri visokem ujemanju
obravnavana kot detekcija, pri srednjem ujemanju je
položaj njene detekcije vodilo za nižje plasti modela
videza, pri slabem ujemanju pa se predloga ne uporablja.
Prednost tega mehanizma je, da se zaplate uporabijo
samo pri zanesljivi uporabi, lahko tudi samo za krajša
obdobja v sekvenci slik. To nam posledično dovoljuje
tudi uporabo zelo konservativnega mehanizma za poso-
dabljanje množice predlog z novimi predlogami, ki se
dodajo samo ob soglašanju spodnjih plasti modela o ve-
likosti in položaju objekta. Več podrobnosti o opisanem
mehanizmu je na voljo v [7].
Spodnja plast modela je enaka spodnji plasti mo-
dela dveh plasti, vendar pa v tem primeru namesto
stohastične optimizacije za iskanje prileganja uporabimo
deterministični algoritem, ki najprej poizkuša za posa-
mezni del oceniti optični tok, če ocena ni zanesljiva,
pa preide najprej na globalno oceno premika z uporabo
posplošene Houghove transformacije, nato pa na izbolj-
šavo z uporabo algoritma Iterated Conditional Modes
(ICM). Podrobneje je algoritem opisan v [7]. Tudi v
tem primeru se množica delov osvežuje še z odstranje-
vanjem nepomembnih delov in dodajanjem novih. Deli,
ki niso pomembni, so določeni na podlagi trenutnega
ujemanja posameznega dela s sliko in algoritma prila-
gajanja srednje vrednosti (mean-shift) [12] nad položaji
posameznih delov. V algoritmu se uporabi uniformno
jedro, ki je po velikosti enako trenutni ocenjeni velikosti
objekta. Deli, ki so za model nepomembni, ali pa celo
škodljivi, so tisti, ki jih algoritem izloči iz območja jedra
ob končni konvergenci.
Novi deli so v množico dodani na podlagi segmen-
tacije objekta na podlagi barve, kar bomo opisali v
naslednjem odstavku, pri določitvi natančnega položaja
začetne postavitve pa se upoštevajo tudi lastnosti slike,
ki bi zagotovile čim bolj kakovostno oceno optičnega
toka, s tem pa hitro določitev prilagajanja množice delov
v novi sliki. Za vzorčenje položajev se uporabi funkcija
q(x) = H(x)+αUU(x), kjer je H(x) Harrisova ocena
kotov za točko x, U(x) periodična funkcija, v našem
primeru gre za kosinusni signal v dveh dimenzijah, ki
naredi mrežast vzorec, αU pa konstanta. Funkcija q(x)
nam za teksturirane regije zagotavlja postavitev delov na
kotih, kjer je ocena optičnega toka bolj kakovostna, na
območjih z manj teksture pa postavitev delov v mrežnem
vzorcu.
Srednja plast je, podobno kot pri prvem vizualnem
modelu, namenjena določanju območij v sliki, ki pri-
padajo objektu. To se doseže s preprosto in hitro se-
gmentacijo na podlagi barvnega modela. Plast vsebuje
informacijo o barvi objekta, s katero za dano sliko
generiramo segmentacijsko masko objekta, na podlagi
te pa določimo območja, primerna za postavitev novih
delov na spodnji plasti. Konceptualno gre za podoben
pristop kot pri zgornji plasti modela dveh plasti, s tem,
da tu algoritem glede na predznanje o velikosti objekta
samodejno določi prag nad verjetnostno porazdelitvijo
in jo razdeli v binarno masko. Če prag ne more biti
določen, barvna predstavitev velja za nezanesljivo in se
v danem časovnem koraku ne uporabi. Algoritem za
določitev praga je opisan v [7].
V nasprotju z modelom dveh plasti se tudi začetni
zajem vizualne informacije zanaša na segmentacijo in
oceno kotov. Razporeditev delov je zato bolj naravna in
se prilagaja strukturi objekta. Poleg tega začetni položaj
objekta služi tudi za pridobitev prve predloge objekta v
tretji plasti.
Najpomembnejša lastnost izboljšav modela videza je
tretja plast. Ta daje spodnjim plastem zanesljivo in-
formacijo o položaju in velikosti objekta pri dobrem
ujemanju ene izmed predlog s sliko, sicer pa delovanju
modela ne škoduje. Tako torej tretja plast pripomore k
hitremu okrevanju celotnega modela, če ta delno zdrsne
na ozadje ali zgolj na del objekta. Eksperimentalna ana-
liza, predstavljena v naslednjemu poglavju, potrdi koristi
tretje plasti in predlaganega mehanizma, saj sledilnik
s takim modelom videza izboljša natančnost, pa tudi
splošno kakovost sledenja.
4 REZULTATI
Opisana sledilnka, ki ju bomo označili z oznakama
LGT [6] in ANT [7], kljub svoji konceptualni podob-
nosti do zdaj nista bila eksperimentalno ovrednotena z
enako metodologijo, zato bomo v okviru članka naredili
poenoteno analizo iz vidika hieararhičnih modelov vi-
deza ter ju testirali z uporabo dveh primerjalnih testov
za vizualne sledilnke, VOT2013 [27] in VOT2014 [26].
Oba testa določata zbirko sekvenc z ročnimi anotacijami
objektov in protokol izvedbe eksperimentov ter obdelave
rezultatov, obenem pa so na voljo tudi okolje za izvedbo
eksperimentov in rezultati za veliko sledilnih algoritmov,
kar omogoča primerjavo z referenčnimi algoritmi.
Podatki in eksperimentalni protokol. Zbirki sekvenc
sta sestavljeni iz 16 (VOT2013) in 25 (VOT2014) ročno
anotiranih sekvenc, ki vsebujejo različne scenarije, ki so
iz različnih razlogov zahtevni za nalogo sledenja, npr.
sprememba osvetlitve, deformacije objekta, hitre spre-
membe gibanja, sprememba velikosti, rotacija, zakriva-
nje. Kot je opisano v [27], [26], so bile sekvence izbrane
iz večjega nabora z metodo gručenja po lastnostih z
namenom, da dobimo reprezentativno množico sekvenc
obvladljive velikosti.
V primerjavi sledimo uradni metodologiji VOT, ki
predpisuje, da je za vsako sekvenco sledilnik najprej
postavljen na položaj, ki ga določa zlati standard v prvi
sliki sekvence. Nato sledilnik sledi objektu, dokler ne
zdrsne z njega; v tem primeru sledilnik ponastavimo
na pravilen položaj in si zapolnimo položaj odpovedi.
Končni rezultati so povzeti v obliki natančnosti (pov-
prečno prekrivanje regije zlatega standarda in trajektorije
sledilnka) in robustnosti (število zdrsov). Poskusi so bili
222 ČEHOVIN ZAJC, LEONARDIS, KRISTAN
opravljeni z uporabo uradnega okolja za izvedbo posku-
sov, ki omogoča tudi izvedbo analize z razvrščanjem. V
tem primeru se, da se izognemo pristranskosti, upošte-
vata tudi statistična in praktična razlika v natančnosti in
robustnosti. Podrobnosti metodologije so opisane v [27],
[26], [24].
Implementacija in nabor parametrov. Oba predlagana
sledilnika sta bila v okviru raziskav implementirana v
jeziku Matlab, bolj kompleksni deli algoritma pa so
implementirani v jeziku C++. Čeprav je implementacija
namenjena razvoju in razumevanju delovanja in se deli
algoritma izvedejo večkrat zavoljo jasnosti, celoten al-
goritem pa teče zaporedno kljub velikim potencialom
paralelizacije, se algoritem LGT izvaja s hitrostjo tri
slike na sekundo, algoritem ANT pa celo s petimi
slikami na sekundo na računalniku s procesorjem AMD
Opteron 6238. Algoritem LGT je bil v okrnjeni obliki
implementiran tudi v jeziku C++, ki deluje s hitrostjo 30
slik na sekundo, zato lahko trdimo, da sta oba algoritma
primerna za procesiranje slikovnih tokov v realnem času.
Kot je to predvideno v metodologiji VOT, so para-
metri obeh sledilnikov fiksni v vseh sekvencah obeh
primerjalnih testov. Pri sledilniku LGT so podrobni
parametri objavljeni v [6], parametri sledilnika ANT pa
so navedeni v [7].
4.1 VOT2013
Rezultate primerjave na zbirki VOT2013 povzema
slika 3, na kateri so prikazane surove vrednosti za
natančnost in robustnost ter razvrščanje z upoštevanjem
statistične enakovrednosti. Poleg primerjave z referenč-
nimi sledilniki, katerih rezultati so javno dostopni v
okviru zbirke, smo v okviru zbirke raziskali tudi pomen
tretje plasti modela videza, ki je vključen v sledilnik
ANT. Z manipulacijo parametrov, ki vplivajo na funkcijo
tretje plasti, smo poleg glavnega sledilnika ustvarili še tri
dodatne: sledilnik ANT-D sledi samo z eno predlogo, ki
jo dobi na začetku sekvence, in ji vedno brezpogojno
zaupa, sledilnik ANT-P uporablja samo spodnji dve
plasti in ignorira vpliv sidrne predloge, sledilnik ANT-
DP pa uporablja vse tri plasti, vendar zgornja plast deluje
le v načinu detekcije, ne upošteva pa se vmesni način
vodenja spodnjih plasti pri manj zanesljivemu ujemanju.
Iz rezultatov lahko vidimo, da sta oba sledilnika, tako
LGT kot ANT, v samem vrhu kar se tiče robustno-
sti, sledilnik ANT pa celo premaga vse sledilnike, če
upoštevamo kombinacijo natančnosti in robustnosti. Ob
tem je treba poudariti, da so nekateri sledilniki opazno
boljši v natančnosti, npr. FoT [42] in LT-FLO [30],
vendar je razlog za to v pogostih zdrsih sledilnika, ki
jim sledijo ponastavitve. To se seveda odraža v nizki
robustnosti takih sledilnikov. Analiza je pokazala tudi,
da je večina holističnih sledilnkov, npr. IVT, Struck
in EDFT, manj robustnih, ko govorimo o sledenju ne-
togih objektov, odrežejo pa se bolje pri sledenju togim
objektom, pri katerih so uspešni tudi pri zakrivanju in
spremembah osvetlitve. Po drugi strani pa sledilnik ANT
Slika 3: Rezultati na zbirki VOT2013
združuje kvalitete holističnega opisa in opisa z deli, kar
privede do izboljšav na obeh področjih. To je potrdila
tudi analiza rezultatov treh dodatnih sledilnikov. Iz nje je
razvidno, da ANT-D doseže dobro natančnost, predvsem
zato, ker uporablja zglolj začetno predlogo, ki ne more
upoštevati sprememb videza, zato tudi hitro zdrsne z
objekta. Po drugi strani sledilnik ANT-P doseže dobro
robustnost, vendar dokaj slabo natančnost, saj gre za
samonadzorovano osveževanje spodnjih dveh plasti brez
dodatnega nadzora in možnosti okrevanja, ki ga pri-
naša sistem sidrnih predlog. Sledilnik ANT-DP integrira
lastnosti ANT-D in ANT-P in tako izboljša rezultat s
preklapljanjem med detekcijo s predlogami in sledenjem
z množico delov, vendar pa ne vključuje mehanizma,
pri katerem lahko predloge ob nepopolnem ujemanju še
vedno sodelujejo pri osveževanju spodnjih plasti. S tem
mehanizmom sledilnik ANT opazno izboljša delovanje,
s tem pa se potrdi tudi naša hipoteza, da sidrne predloge
v opisanem načinu delovanja izboljšajo robustnost mo-
dela videza in posledično kakovost sledenja.
4.2 VOT2014
Druga zbirka, ki smo jo uporabili za analizo je
VOT2014, rezultate pa povzema slika 4. Čeprav gre za
zahtevnejšo zbirko z novejšimi sledilniki, sta LGT in
ANT glede robustnosti še vedno v vrhu. V natančnosti
so rezultati nekoliko slabši še posebej pri sledilniku
LGT, medtem ko se sledilnk ANT odreže primerljivo z
večino drugih sledilnikov. Primerljivi sledilnik DGT se
odreže bolje v natančnosti z uporabo računsko potratne
segmentacije, holistični sledilniki, npr. DSST, KCF in
SAMF, pa se v natančnosti odrežejo bolje, vendar ob
opazno večjem številu zdrsov.
Kot je jasno razvidno iz slike, sledilnik ANT z
uporabo treh plasti opazno izboljša natančnost glede
na sledilnik LGT, obenem pa izboljša tudi robustnost.
To pomeni, da izboljšana natančnost ni zgolj rezultat
kompromisa med dvema pogledoma na sledenje, ampak
gre za izboljšavo modela videza.
HIERARHIČNI MODELI VIDEZA V VIZUALNEM SLEDENJU 223
Slika 4: Rezultati na zbirki VOT2014
5 SKLEP
V članku smo opisali problem kratkoročnega vizualnega
sledenja in predstavili koncept hierarhičnega modela
videza. Tak način opisa vizualne informacije nam omo-
goča, da se po eni strani osredotočimo na trenutni videz
objekta, vendar pa ohranimo dovolj splošne informacije,
ki se uporabi kot vodilo pri posodabljanju modela. V
članku smo povzeli teorijo dveh modelov videza, ki
izpolnjujeta merila hierarhične ureditve, in predstavili
eksperimentalne rezultate, ki kažejo na velik potencial
ideje, še zlasti pri sledenju netogih objektov.
Na koncu je treba poudariti, da je definicija kratkoroč-
nega sledenja v trenutni obliki dokaj problematična, saj
sledenje stanju poljubnega objekta zahteva integracijo
veliko večje količine znanja, kot je samo trenutni videz
objekta. Da bi lahko poljuben objekt zanesljivo sledili v
poljubni situaciji, bi moral sistem integrirati algoritme z
več področij računalniškega vida in sklepanja, kar daleč
presega trenutno stanje na tem raziskovalnem področju.
Po drugi strani pa že zdaj obstaja veliko možnosti za
uporabo vizualnega sledenja v okviru določenih aplika-
cij, kjer je scenarij sledenja bolj definiran in omejen.
Prav med tema dvema pogledoma vidimo veliko pri-
ložnost hierarhičnih modelov videza, saj dajejo teore-
tični okvir, ki omogoča po eni strani postopen prehod
s problema sledenja na druge domene računalniškega
vida, kot sta kategorizacija in detekcija, po drugi strani
pa na podoben način omogoča tudi intuitivno uvajanje
omejitev, ki izvirajo iz aplikacije. To so zato tudi naše
smernice za nadaljnje raziskovanje in delo.