1 UVOD
Pri nekaterih realnih problemih v računalniškem vidu
se domenski strokovnjaki soočijo s težavnim snovanjem
formalnih pravil z zadostno kompleksnostjo za mode-
liranje teh problemov. V takšnih primerih je zmožnost
učenja in razpoznavanja vzorcev na avtomatizirani način
nepogrešljiva prednost. To velja zlasti tedaj, ko je za
določen problem že samo snovanje značilnic težka na-
loga. Navedeni primeri se pojavljajo pri avtomatiziranem
pregledovanju površin izdelkov, kjer kompleksnost mo-
deliranja narašča z naraščajočo kompleksnostjo objek-
tov. V danem kontekstu se kot površinske anomalije
Prejet 25. julij, 2018
Odobren 14. september, 2018
upoštevajo praske, razpoke, umazanija in udrtine, ki
se nahajajo na površini danega objekta, medtem ko
del kompleksnosti pomeni že sama pojavnost ali te-
kstura površine objekta. Avtomatizirano pregledovanje
igra ključno vlogo pri zagotavljanju kakovosti, tj. od-
krivanju anomalij na različnih površinah, kjer je med
proizvodnim procesom treba pregledati veliko količino
izdelkov z namenom detekcije izdelkov z vidnimi napa-
kami. Glavna vprašanja pri razvoju takšnih sistemov za
pregledovanje izhajajo iz dejstva, da je v nekaterih pri-
merih pridobivanje ustreznih reprezentacij, tj. modelov,
težavna naloga. Ti in drugi dejavniki dodatno otežujejo
nalogo odkrivanja površinskih anomalij ter pripomorejo
h kompleksnosti pojavitev do stopnje, da le-te ni mogoče
dovolj natančno opisati s snovanjem značilnic. Globoko
učenje rešuje to osrednjo težavo pri učenju reprezentacij
s kompleksnimi koncepti iz preprostejših konceptov.
Izraz globoko učenje se uporablja, saj učenje konceptov
poteka v hierarhičnem smislu, le-to pa lahko predsta-
vimo kot plasti v grafični predstavitvi modela. Pri sliki
se holistično razumevanje le-te doseže na hierarhičen
način skozi množico plasti naučenih značilnic. Tipičen
primer modela globokega učenja je tako imenovana
konvolucijska nevronska mreža (CNN), omenjeni pristop
pa se izkaže uporaben v primerih, kjer je že samo
snovanje primernih značilnic posebej težak problem.
Glavni prispevek članka je enovita konvolucijska ne-
vronska mreža za segmentacijo in detekcijo anomalij na
teksturiranih površinah. Za dani primer površine mreža
kot izhod poda segmentacijo anomalije, kateri priredi
oceno gotovosti. Oceno gotovosti lahko interpretiramo
kot gotovost mreže, da se na danem primeru nahaja
280 RAČKI, TOMAŽEVIČ, SKOČAJ
anomalija. Mreža se reprezentacije anomalij lahko nauči
iz majhnega nabora grobo označenih učnih primerov.
Predlagano rešitev evalviramo na različnih naborih učnih
slik podatkovne baze, sestavljene iz različno teksturira-
nih površin z znotrajrazredno variacijo tako tekstur na
ozadju kot anomalij.
2 SORODNO DELO
Klasični pristopi za detekcijo napak na površinah objek-
tov, ki ne temeljijo na globokem učenju, sledijo bolj
ali manj enaki paradigmi, tj. klasifikator, kot je SVM,
naučen na značilnicah, pridobljenih iz predprocesiranih
slik. Korak predporocesiranja zagotavlja, da je problem
dobro pogojen za ključni proces snovanja primernih
značilnic. Nadaljnja pomanjkljivost teh pristopov je, da
posebej zasnovane značilnice ni vedno mogoče uporabiti
za težave drugega tipa v podobnih domenah. Globoko
učenje se razlikuje od omenjenih pristopov z učenjem
primernih značilnic namesto ročnega snovanja primernih
in običajno suboptimalnih značilnic. In ker so značilnice
naučene, se globoke arhitekture lažje posplošijo na druge
vrste težav. Omenjena pristopa tako lahko razdelimo v
dve skupini, tj. snovanje značilnic ter učenje značilnic.
Pristope snovanja značilnic lahko v grobem razdelimo
na: (i) pristope s filtriranjem, kjer se običajno uporabljajo
matematične transformacije in filtri [1]; (ii) pristope
s strukturiranjem, ki večinoma vključujejo morfološke
operacije in detekcijo robov [2]; (iii) pristope z mode-
liranjem, ki uporabljajo model, kot je skriti markovski
model (SMM) [3]; (vi) statistične pristope, ki spadajo
med pogosteje uporabljene pristope v problemih klasifi-
kacije z uporabo preprostega upragovanja [4].
Med pristope učenja značilnic pa uvrščamo tako ime-
novane konvolucijske nevronske mreže (CNN). Motiva-
cija za uporabno CNN izhaja iz prej omenjene težave,
kjer se za nekatere realne probleme v računalniškem
vidu domenski strokovnjaki soočijo s težavnim sno-
vanjem formalnih pravil, temelječih na geometrijskih
in oblikovnih značilnicah za detekcijo anomalij. Pri
problemu detekcije anomalij na površinah v [5] avtorji
predstavijo mrežo, naučeno z nadzorovanim učenjem
na neobdelanih primerih slik jeklenih površin s priso-
tnimi defekti, s katero izboljšajo točnost detekcije v
primerjavi z uporabo značilnic, pridobljenih s klasičnimi
metodami za detekcijo napak na teksturiranih mate-
rialih. Te vključujejo večplastni perceptron (MLP) in
klasifikator SVM z jedrom RBF naučen na značilnicah,
pridobljenih s HOG, PHOG, rotacijsko invariantnimi
merami lokalne variance in lokalnimi binarnimi vzorci
(LBP, LBP-Fourier). Avtorji v [6] predstavijo pregled
različnih hevristik CNN za industrijsko pregledovanje.
V članku avtorji raziskujejo vpliv različnih hiperpara-
metrov glede na točnost detekcije. Na splošno se avtorji
poslužijo arhitektur, objavljenih v [7], in te evalvirajo
na podatkovni bazi, sestavljeni iz umetno generiranih
slik z različno teksturiranimi površinami in dodanimi
defekti v obliki pik in črt. Za učenje značilnic avtorji z
uporabo drsečega okna generirajo veliko učnih primerov
z namenom minimiziranja števila napačno klasificiranih
slikovnih elementov, upoštevajoč ročno anotirane maske
z grobo označenimi slikovnimi elementi, ki prikazu-
jejo anomalijo. Druga dela na pretežno ploskih jekle-
nih površinah, kot so detekcija napak iz fotometričnih
stereo-slik železniških tračnic [8] in ekstrahiranje ustre-
znih značilnic za detekcijo anomalij [9] kažejo, da je
uporaba globokega učenja za ekstrahiranje značilnic v
ne-trivialnih domenah mogoča in uporabna.
V literaturi na področju odkrivanja anomalij se tako
diskriminativne mreže uporabljajo večinoma kot klasifi-
kator na neobdelanih ali obdelanih slikah, ki ponazarjajo
ploskve površine z namenom določiti, ali je na dani
sliki prisotna anomalije ali ne. Izhod mreže kot take
je torej zgolj klasifikacija celotne slike. Kljub številnim
raziskavam na temo segmentacije z uporabo mrež, kot
so [10], [11], je uporaba slednjih za namen segmenti-
ranja anomalij redko obravnavana v literaturi detekcij
nepravilnosti na površinah.
3 ZASNOVA ARHITEKTURE
Pristopi, ki temelijo na globokem učenju, se izkažejo
za uspešnejše od neglobokih pristopov pri reševanju
različnih nalog, ki segajo od detekcije [5] do se-
gmentacije [10]. Običajna praksa pri uporabi globokega
učenja je prirejanje obstoječih arhitektur, kot na primer
VGG [12], za specifično nalogo na način, ki uporabi
vnaprej naučene uteži nižjih plasti na velikih učnih ba-
zah, ter douči uteži na višjih plasteh na novi problemski
domeni. Na splošno takšen pristop ni najbolj primeren
za uporabo na specifičnih problemskih domenah, kot
je detekcija napak na teksturiranih površinah. In to
zato, ker velike arhitekture implicitno kažejo potrebo
po velikih učnih množicah, ki pa jih v določenih indu-
strijskih okoljih ni na voljo, saj je lahko že sam proces
pridobivanja teh drago oz. nepraktično opravilo.
Tako lahko določimo kriterije, potrebne za mrežo,
namenjeno za uporabo v sistemih za avtomatizirano pre-
gledovanje: (i) kompaktnost, tj. zmožnost učenja poten-
cialne detekcije anomalij iz majhnega števila defektnih
učnih primerov; (ii) robustnost, tj. v podobni problemski
domeni so potrebni zgolj majhni popravki hiperparame-
trov; (iii) interpretabilnost, tj. zmožnost vizualne loka-
lizacije anomalije in razlage klasifikacije domenskemu
strokovnjaku. Glede na navedene kriterije predlagamo
enovito konvolucijsko nevronsko mrežo za detekcijo
anomalij na teksturiranih površinah, ki se sestoji iz
segmentacijskega in klasifikacijskega dela. Naloga kla-
sifikacijskega dela je, da danemu primeru priredi oceno
gotovosti, ki jo lahko interpretiramo kot gotovost mreže,
da se na danem primeru nahaja anomalija. Naloga
segmentacijskega dela je prikaz vizualne lokalizacije
anomalije in razlage klasifikacije domenskemu strokov-
njaku. Predlagano arhitekturo mreže prikazuje slika 2.
ENOVITA KONVOLUCIJSKA NEVRONSKA MREŽA ZA DETEKCIJO ANOMALIJ NA TEKSTURIRANIH POVRŠINAH 281
512× 512 256× 256 128× 128
[
11× 11
] [
11× 11
]
&
[
7× 7
] [
7× 7
]
&
[
3× 3
]
Konvolucijsko jedro Konvolucijsko jedro Konvolucijsko jedro
Slika 1: Dimenzije konvolucijskih jeder v primerjavi s ska-
lirano anomalijo površine 4, prikazane na sliki 3. Prva slika
prikazuje originalno velikost vhoda v izmeri 512 × 512 sli-
kovnih elementov, medtem ko vsaka nadaljnja slika prikazuje
podvzorčeno predhodno sliko. Rdeči kvadrat je filter v veliko-
sti 11 × 11, modri kvadrat je filter velikosti 7 × 7 in rumeni
kvadrat filter v velikosti 3× 3 slikovnih elementov.
Segmentacijski del mreže je sestavljen iz treh kon-
volucijskih blokov, vsak blok pa je sestavljen iz treh
konvolucijskih plasti. Na splošno se število filtrov pod-
voji v vsakem konvolucijskem bloku, medtem ko se
velikost filtrov zmanjša. Pri izbiri velikosti filtrov lahko
naredimo veljavne predpostavke o problemski domeni
ter jih prenesemo v zasnovo arhitekture. Velikost filtra
mora biti takšna, da pokrije del anomalije, ki jo želimo
zaznati, kot je prikazano na sliki 1. Tu izbiramo velikosti
filtrov tako, da se razmerje med soslednimi velikostmi
ohranja skozi faze podvzorčenja. Tako zagotovimo, da
filter vseskozi pokriva dovolj velik del anomalije. De-
janske reprezentacije v mreži se seveda razlikujejo od
prikazanih, ki tu služijo zgolj za ponazoritev in ob-
razložitev izbire velikosti filtrov. Na splošno podvajanje
števila filtrov in redukcija velikosti pri vsakem koraku
podvzorčenja v vsakem konvolucijskem bloku ohranja
kompaknost arhitekture v smislu števila parametrov.
Klasifikacijski del mreže se zanaša na segmentacijski
del. Ocena gotovosti za dani primer se doseže s pomočjo
maksimalne in povprečne globalne združitve, dobljene iz
segmentacijske (SegPlast) in kompresijske plasti (Kom-
pPlast), kot je prikazano na sliki 2. Segmentacijska plast
je povzeta po popolnoma konvolucijskih mrežah [10] ter
zagotavlja segmentacijski izhod iz prejšnje plasti. Kom-
presijski sloj na drugi strani služi za kompresijo volumna
prejšnje plasti, saj se s tem zmanjša število parametrov,
iz katerih se oceni gotovost in robustificira klasifikacijski
rezultat. Uporaba maksimalnega in povprečnega global-
nega združevanja se izkaže za zanesljivo v primerih,
ko bi se sicer večje območje brez napak segmentiralo
kot območje z napako. Uporaba zgolj maksimalnega
združevanja bi v tem primeru neuspešno razlikovala
med velikim in veliko manjšim potencialno defektnim
segmentiranim območjem. To je glavni razlog, zakaj
dodatno opravljamo povprečno združevanje, saj tako
lahko ugotovimo razliko v prej omenjenem primeru.
Za dano vhodno sliko teksturirane površine v velikosti
512 × 512 slikovnih elementov predlagana mreža kot
izhod poda segmentacijo v velikosti 128×128 slikovnih
KonvPlast 11x11, pomik 2
256x256x32
KonvPlast 11x11, pomik 1
256x256x32
KonvPlast 11x11, pomik 1
256x256x32
KonvPlast 7x7, pomik 2
128x128x64
KonvPlast 7x7, pomik 1
128x128x64
KonvPlast 7x7, pomik 1
128x128x64
KonvPlast 3x3, pomik 1
128x128x128
KonvPlast 3x3, pomik 1
128x128x128
KonvPlast 3x3, pomik 1
128x128x128
Vhodna slika
512x512x1
SegPlast 1x1, pomik 1
128x128x1
KompPlast 1x1, pomik 1
128x128x32
GMAXV
1x1x32
GAVGV
1x1x32
GMAXV
1x1x1
GAVGV
1x1x1
Združevanje 1x1x66
S­nevron
1x1x1
F
a
z
a
s
e
g
m
e
n
ta
ci
je
F
a
z
a
k
la
s
if
ik
a
ci
je
Segmentacija Gotovost
Slika 2: Predlagana CNN-arhitektura, ki za dani primer kot
izhod poda segmentacijo napake in oceno gotovosti, da gre za
napako. Kratice KonvPlast, SegPlast in KompPlast označujejo
konvolucijsko, segmetnacijsko in kompresijsko plast. Kratici
GMAXV ter GAVGV označujeta globalno maksimalno in
globalno povprečno vzorčenje, medtem ko S-nevron stoji za
ocenjevalni nevron.
elementov ter oceno gotovosti, da se na danem primeru
nahaja anomalija [13]. Za vsako plastjo v mreži se
uporabi aktvacijska funkcija ReLU, ki ji sledi paketna
normalizacija. Izjemi sta SegPlast in S-nevron, kjer
uporabimo linearno oz. sigmoidno aktivacijsko funkcijo.
Vse začetne uteži filtrov se inicializirajo z normalno
distribucijo, porazdeljeno okoli ničle, kot je predlagano
v [14]. Učenje mreže poteka v dveh fazah. V prvi fazi,
tj. faza segmentacije, naučimo korak segmentacije ano-
malije skozi 25 epoh. V drugi fazi, tj. faza klasifikacije,
naučimo korak ocene gotovosti anomalije skozi 10 epoh.
Ločeno učenje v dveh fazah, prikazano na sliki 2, je
ključno. Pri učenju faze segmentacije se tako zamrznejo
vse uteži faze klasifikacijske, podobno se pri učenju faze
282 RAČKI, TOMAŽEVIČ, SKOČAJ
klasifikacijske zamrznejo vse uteži faze segmentacije. S
takšnim načinom učenja zagotovimo, da se faza kla-
sifikacije uči iz smiselnih segmentiranih reprezentacij
anomalij. V obeh primerih se mreža uči napovedovanja
regresijske vrednosti v intervalu [−1, 1], ki jo priredi
vsakemu slikovnemu elementu v fazi segmentacije, oz.
vrednosti v intervalu [0, 1], ki jo priredi posameznemu
primeru v fazi klasifikacije. V prvi fazi učenja tako
minimiziramo funkcijo srednje kvadratne napake, tj.
LS =
1
np
n∑
i=1
p∑
j=1
||x〈j〉i − x̂
〈j〉
i ||
2 (1)
kjer n označuje število primerov, p številno slikovnih
elementov, xi anotirano vrednost slikovnih elementov
na sliki in x̂i napovedano vrednost slikovnih elementov.
V fazi klasifikacije minimiziramo binarno navzkrižno
entropijo, tj.
LC = −
1
n
n∑
i=1
[
yi log(ŷi) + (1− yi) log(1− ŷi)
]
(2)
kjer yi označuje anotirano vrednost danega primera in
ŷi regresijsko napoved za dani primer. Pri obeh kriterij-
skih funkcijah se uporablja optimizator Adadelta [15] z
vrednostjo parametrov kot predlaganih v članku.
4 EKSPERIMENTALNI REZULTATI
Predlagano arhitekturo smo evalvirali na javno dostopni
bazi za Industrijsko Optično Pregledovanje DAGM*, ki
se sestoji iz umetno generiranih teksturiranih površin.
Kot je razvidno s slike 3, je baza sestavljena iz desetih
različnih razredov površin z različnimi anomalijami, ki
ponazarjajo razpoke, udrtine in nečistoče. Dani primer
označimo kot pozitiven, če se na njem nahaja anomalija,
sicer dani primer označimo kot negativen. Celotna baza
se sestoji iz 8050 učnih primerov, od katerih jih 1046
vsebuje anomalijo, in 8050 testnih primerov, od katerih
jih 1056 vsebuje anomalijo. Če dana površina v velikosti
512 × 512 slikovnih elementov vsebuje anomalijo, ta
vsebuje točno eno šibko označeno anomalijo na tekstu-
riranem ozadju. Šibke labele so podane v obliki elips, ki
grobo pokrivajo območje z anomalijo na danem primeru,
toda deloma tudi vključujejo območje brez anomalije,
kot je razvidno s slike 3. V določenih primerih se lahko
izkaže, da premajhno število pozitivnih učnih prime-
rov ni dovolj reprezentativno za dano problematiko, v
takšnih primerih uporabimo dodatno bogatene pozitivne
učne primere. Natančni postopek bogatenja opišemo v
razdelku 4.2.
Čeprav označba v celoti pokriva anomalijo na tekstu-
rirani površini, je v nekaterih primerih vanjo zajet znaten
delež ozadja. Posledično je del slikovnih elementov
napačno označen kot slikovni elementi, ki pripadajo
anomaliji, kar pa lahko vpliva na učni proces. Tovrstno
∗https://hci.iwr.uni-heidelberg.de/node/3616
problematiko je sicer pričakovati v številnih realnih pro-
blemskih domenah, saj je natančno označevanje težaven
in drag postopek. Tudi sicer je dostop do industrijskih
baz, ki prikazujejo realne problemske domene otežen,
glavni razlogi za to pa ležijo v sporazumih o nerazkritju,
ki so namenjeni preprečitvi razkritja določenih procesov,
kot so procesi zajemanja slik ali drugi ključni procesi,
ki zagotavljajo konkurenčno prednost podjetja.
4.1 Vpliv različnih konfiguracij
Segmentacijski del mreže se sestoji iz treh blokov, pri
čemer se vsak blok sestoji iz treh konvolucijskih plasti,
število filtrov pa se podvoji v vsakem naslednjem bloku.
Ker sama velikost filtrov v plasti lahko vpliva na se-
gmentacijsko in klasifikacijsko točnost, naprej proučimo
pet različnih konfiguracij mreže: (i) v1173, kjer se
velikost filtrov v vsakem naslednjem bloku zmanjša,
tj. [11, 11, 11] → [7, 7, 7] → [3, 3, 3]. (ii) v3711 pomeni
obratno konfiguarcijo (i), torej se velikost filtrov poveča
v vsakem nadaljnjem bloku, tj. [3, 3, 3] → [7, 7, 7] →
[11, 11, 11]; (iii) c1173 je podoben princip kot (i), s to
razliko, da so tu filtri konfigurirani v piramidni shemi
v enem bloku, torej se velikost filtrov v vsakem bloku
spreminja od večjega proti manjšemu, tj. [11, 7, 3] →
[11, 7, 3] → [11, 7, 3]; (iv) c3711 pomeni nasprotno kon-
figuarcijo (iii), tj. [3, 7, 11] → [3, 7, 11] → [3, 7, 11]; (v)
v333 sledi principu zasnovanih arhitektur VGG [12] s
konstantno velikostjo filtrov, tj. [3, 3, 3] → [3, 3, 3] →
[3, 3, 3].
Točnost predlagane mreže evalviramo v smislu deleža
pozitivnih primerov, ki so pravilno identificirani kot
pozitivni (TPR), ter delež negativnih primerov, ki so pra-
vilno identificirani kot negativni primeri (TNR). Točnost
pogledamo tudi v smislu absolutnega števila napačno
identificiranih testnih primerov. Prikazani rezultati so
dobljeni tako, da na učni množici vzamemo TPR in
TNR pri najvišji klasifikacijski točnosti ter s tem pragom
klasificiramo primere v testni množici.
Slika 4 prikazuje izhode mreže, tj. segmentacijo ano-
malije in oceno gotovosti anomalije za različne površine.
Iz slednjih je bolj razviden vpliv različnih konfiguracij.
Pri konfiguraciji v333 opazimo artefakte pri segmentira-
nju ozadja za primer (a), medtem ko je v primeru (c)
razvidna slabo segmentirana anomalija. Druge konfigu-
racije z uporabo večjih filtrov bolje upoštevajo kontekst
ozadja, izbrano zaporedje velikost pa vpliva na točnost
segmentacije. Konfiguraciji v1173 in c1173 upoštevata
lokalni kontekst po piramidni shemi, tj. velikost filtra se
skozi arhitekturo manjša. Ker se velikost filtra manjša, s
podvzorčenjem slike opazimo natančnejše segmentacije.
Nasprotno delujeta konfiguraciji v3711 in c3711, kjer
se velikost filtra veča skozi arhitekturo, torej majhni
filtri iščejo napake na velikih slikah, večji filtri pa
na podvzorčenih reprezentacijah v mreži. V nekaterih
primerih tu opazimo precej slabo oz. celo napačno
segmentirane anomalije, kot je razvidno iz prvega in
tretjega primera. Slika 5 prikazuje grafični povzetek
ENOVITA KONVOLUCIJSKA NEVRONSKA MREŽA ZA DETEKCIJO ANOMALIJ NA TEKSTURIRANIH POVRŠINAH 283
Površina 1 Površina 2 Površina 3 Površina 4 Površina 5 Površina 6 Površina 7 Površina 8 Površina 9 Površina 10
Slika 3: Primeri različno teksturiranih površin podatkovne baze. Vsaka površina vsebuje znotrajrazredne variacije v teksturi
ozadja in anomaliji. Rdeče elipse ponazarjajo grobe labele, ki označujejo defektno območje.
(a)
Vhod Ozna ba
0.998
v1173
1.000
v3711
1.000
c1173
1.000
c3711
0.053
v333
(b)
1.000 0.000 1.000 1.000 0.075
(c)
0.999 1.000 1.000 1.000 0.985
(d)
1.000 0.736 0.203 0.002 0.998
Slika 4: Segmentacijski izhodi mreže za različne primere. Števila v spodnjem desnem kotu prikazujejo pripisano gotovost mreže,
da se na individualnem primeru nahaja anomalija.
razmerja med segmentacijo šumnega ozadja in segmen-
tacijo anomalije ter točnost mreže pri različnih konfi-
guracijah konvolucijskih blokov. Razmerje se izračuna
iz binariziranih testnih slik z izračunom razmerja med
napačno segmentiranimi slikovnimi elementi v ozadju
ter vsemi slikovnimi elementi, ki pripadajo ozadju. Slike
se binarizirajo pri pragu 0.15, razmerje pa se izračuna
kot ločeno povprečje za pozitivne in negativne primere
za vsako površino. Kot najboljša se izkaže konfigura-
cija v1173, saj z njo dosežemo najvišjo klasifikacijsko
točnost in najnižje razmerje napačno klasificiranih sli-
kovnih elementov v ozadju za negativne primere. Rezul-
tati kažejo, da je takšna konfiguracija filtrov robustna na
različne teksture v ozadju, segmentirana območja pa po
večini pripadajo defektnim regijam. Zato pri nadaljnjih
poizkusih uporabljamo to konfiguracijo.
4.2 Velikost učne množice
Pridobivanje primerov z defekti je draga, lahko pa
tudi precej zahtevna operacija v realni domeni delovanja,
medtem ko so običajno primeri brez defektov na voljo
v veliko večjih količinah. Mreža, zasnovana za kon-
trolne sisteme, bi se tako morala biti sposobna naučiti
razločevanja defektov iz majhnega nabora defektnih
primerov. V ta namen predlagano mrežno evalviramo
na različnih velikostih učnih množic, opisanih v tabeli 1.
Poizkusi se sestojijo iz učenja mreže na zgolj pozitivnih
učnih primerih, označenih s Pos, ter pozitivnih in nega-
tivnih učnih primerih, označenih s PosNeg. Ker pa se v
določenih primerih lahko izkaže, da premajhno število
pozitivnih učnih primerov ni dovolj reprezentativno za
dano problematiko, predlagano mrežo naučimo tudi na
bogatenih pozitivnih učnih primerih, označenih s Pos-
aug in PosNeg-aug. Pri slednjih se vsak dani pozitivni
učni primer rotira za 180◦ ter zrcali prek horizontalne
in vertikalne osi. Za vsak pozitivni učni primer tako
dobimo dodatne tri bogatene primere, s čimer trikrat
povečamo število pozitivnih primerov v učnih množicah
ter pustimo številno negativnih primerov nespremenjeno.
Tabela 2 prikazuje točnost mreže pri učenju z različno
velikimi množicami učnih primerov. Kot vidimo pri
284 RAČKI, TOMAŽEVIČ, SKOČAJ
v1173 v3711 c1173 c3711 v333
Konfiguracije
0.0
0.5
1.0
1.5
2.0
2.5
3.0
4.0
5.0
Performanse razli nih konfiguracij modela
La no pozitivna stopnja
La no negativna stopnja
Napa no segmentirani slikovni elementi pozitivnih primerov
Napa no segmentirani slikovni elementi negativnih primerov
Slika 5: Grafični povzetek razmerja med segmentacijo
šumnega ozadja in segmentacijo anomalije ter točnost mreže
pri različnih konfiguracijah konvolucijskih blokov
Kratica Uporabljeni učni primeri
Pos pozitivni učni primeri
PosNeg pozitivni in negativni učni primeri
Pos-aug Pos z bogatenjem podatkov
PosNeg-aug PosNeg z bogatenjem podatkov
Pozitivni primeri primeri z anomalijami
Negativni primeri primeri brez anomalij
Tabela 1: Oznake različnih velikosti učnih množic
učenju na učni množici PosNeg-aug, mreža zgreši zgolj
en pozitivni testni primer, pri čemer ohrani visoko
točnost pri detekciji negativnih primerov, tj. primerov
brez anomalij. Na splošno se opazita dva trenda pri
večanju učne množice. Z bogatenjem pozitivnih prime-
rov se precej poveča točnost detekcije pozitivnih pri-
merov. Z dodajanjem negativnih primerov pa se poveča
točnost detekcije tako pozitivnih kot negativnih primerov
ter posledično se zmanjšajo artefakti na ozadju pri
segmentiranju teksture ozadja dane površine.
Tabela 3 prikazuje primerjavo predlagane arhitek-
ture mreže z obstoječo sodobno rešitvijo, ki temelji
na globokem učenju [6], ter s klasičnimi neglobokimi
pristopi [16], [17], [18]. S predlagano mrežo izboljšamo
detekcijsko točnost pozitivnih, tj. primerov z anomali-
jami na vseh površinah, pri čemer ohranja visoko točnost
detekcije negativnih primerov, tj. primerov brez anoma-
lij. Dosedanji pristopi poleg tega za učenje zahtevajo
precej več učnih primerov ter kot del izhoda ne podajo
segmentacije anomalije, kar oteži zmožnost morebitne
vizualne verifikacije anomalije domenskemu strokov-
njaku. Čeprav so slikovni elementi, ki ponazarjajo ano-
malijo, šibko označeni, saj v določeni meri vključujejo
slikovne elemente, ki pomenijo ozadje, se predlagani
pristop izkaže kot robusten na tovrstno označevanje in
uspe doseči učinkovito segmentacijo anomalij.
5 SKLEP
V prispevku predlagamo enovito konvolucijsko ne-
vronsko mrežo za detekcijo anomalij na teksturiranih
površinah. Nevronska mreža se sestoji iz segmentacij-
skega in klasifikacijskega dela, katerih učenje poteka v
dveh ločenih fazah. Primernost kompaktne arhitekture
z manjšim številom parametrov za domeno pregledo-
vanja evalviramo na podatkovni bazi, ki se sestoji iz
različno teksturiranih površin s prisotnimi različnimi,
šibko označenimi anomalijami. S konfiguracijo v1173
se izboljšata detekcija in segmentacijska točnost pri-
merov z anomalijami na vseh površinah, pri čemer se
ohrani visoka točnost detekcije primerov brez anomalij.
Predlagana arhitektura mreže ohranja kompaknost v
smislu števila parametrov in učenja anomalij iz majh-
nega števila učnih primerov; je robustna v podobni
problemski domeni, tj. pri variaciji teksture v ozadju in
variaciji anomalij, ter daje vizualno lokalizacijo, tj. se-
gmentacijo anomalije za morebitno razlago klasifikacije
domenskemu strokovnjaku.
ZAHVALA
Raziskavo so omogočili Ministrstvo za gospodarski
razvoj in tehnologijo (MGRT) Republike Slovenije,
Evropski sklad za regionalni razvoj (ERDF) Evropske
unije v okviru programa 631-63/2017/1, ter Sensum,
sistemi z Računalniškim Vidom.