1 UVOD Pri nekaterih realnih problemih v računalniškem vidu se domenski strokovnjaki soočijo s težavnim snovanjem formalnih pravil z zadostno kompleksnostjo za mode- liranje teh problemov. V takšnih primerih je zmožnost učenja in razpoznavanja vzorcev na avtomatizirani način nepogrešljiva prednost. To velja zlasti tedaj, ko je za določen problem že samo snovanje značilnic težka na- loga. Navedeni primeri se pojavljajo pri avtomatiziranem pregledovanju površin izdelkov, kjer kompleksnost mo- deliranja narašča z naraščajočo kompleksnostjo objek- tov. V danem kontekstu se kot površinske anomalije Prejet 25. julij, 2018 Odobren 14. september, 2018 upoštevajo praske, razpoke, umazanija in udrtine, ki se nahajajo na površini danega objekta, medtem ko del kompleksnosti pomeni že sama pojavnost ali te- kstura površine objekta. Avtomatizirano pregledovanje igra ključno vlogo pri zagotavljanju kakovosti, tj. od- krivanju anomalij na različnih površinah, kjer je med proizvodnim procesom treba pregledati veliko količino izdelkov z namenom detekcije izdelkov z vidnimi napa- kami. Glavna vprašanja pri razvoju takšnih sistemov za pregledovanje izhajajo iz dejstva, da je v nekaterih pri- merih pridobivanje ustreznih reprezentacij, tj. modelov, težavna naloga. Ti in drugi dejavniki dodatno otežujejo nalogo odkrivanja površinskih anomalij ter pripomorejo h kompleksnosti pojavitev do stopnje, da le-te ni mogoče dovolj natančno opisati s snovanjem značilnic. Globoko učenje rešuje to osrednjo težavo pri učenju reprezentacij s kompleksnimi koncepti iz preprostejših konceptov. Izraz globoko učenje se uporablja, saj učenje konceptov poteka v hierarhičnem smislu, le-to pa lahko predsta- vimo kot plasti v grafični predstavitvi modela. Pri sliki se holistično razumevanje le-te doseže na hierarhičen način skozi množico plasti naučenih značilnic. Tipičen primer modela globokega učenja je tako imenovana konvolucijska nevronska mreža (CNN), omenjeni pristop pa se izkaže uporaben v primerih, kjer je že samo snovanje primernih značilnic posebej težak problem. Glavni prispevek članka je enovita konvolucijska ne- vronska mreža za segmentacijo in detekcijo anomalij na teksturiranih površinah. Za dani primer površine mreža kot izhod poda segmentacijo anomalije, kateri priredi oceno gotovosti. Oceno gotovosti lahko interpretiramo kot gotovost mreže, da se na danem primeru nahaja 280 RAČKI, TOMAŽEVIČ, SKOČAJ anomalija. Mreža se reprezentacije anomalij lahko nauči iz majhnega nabora grobo označenih učnih primerov. Predlagano rešitev evalviramo na različnih naborih učnih slik podatkovne baze, sestavljene iz različno teksturira- nih površin z znotrajrazredno variacijo tako tekstur na ozadju kot anomalij. 2 SORODNO DELO Klasični pristopi za detekcijo napak na površinah objek- tov, ki ne temeljijo na globokem učenju, sledijo bolj ali manj enaki paradigmi, tj. klasifikator, kot je SVM, naučen na značilnicah, pridobljenih iz predprocesiranih slik. Korak predporocesiranja zagotavlja, da je problem dobro pogojen za ključni proces snovanja primernih značilnic. Nadaljnja pomanjkljivost teh pristopov je, da posebej zasnovane značilnice ni vedno mogoče uporabiti za težave drugega tipa v podobnih domenah. Globoko učenje se razlikuje od omenjenih pristopov z učenjem primernih značilnic namesto ročnega snovanja primernih in običajno suboptimalnih značilnic. In ker so značilnice naučene, se globoke arhitekture lažje posplošijo na druge vrste težav. Omenjena pristopa tako lahko razdelimo v dve skupini, tj. snovanje značilnic ter učenje značilnic. Pristope snovanja značilnic lahko v grobem razdelimo na: (i) pristope s filtriranjem, kjer se običajno uporabljajo matematične transformacije in filtri [1]; (ii) pristope s strukturiranjem, ki večinoma vključujejo morfološke operacije in detekcijo robov [2]; (iii) pristope z mode- liranjem, ki uporabljajo model, kot je skriti markovski model (SMM) [3]; (vi) statistične pristope, ki spadajo med pogosteje uporabljene pristope v problemih klasifi- kacije z uporabo preprostega upragovanja [4]. Med pristope učenja značilnic pa uvrščamo tako ime- novane konvolucijske nevronske mreže (CNN). Motiva- cija za uporabno CNN izhaja iz prej omenjene težave, kjer se za nekatere realne probleme v računalniškem vidu domenski strokovnjaki soočijo s težavnim sno- vanjem formalnih pravil, temelječih na geometrijskih in oblikovnih značilnicah za detekcijo anomalij. Pri problemu detekcije anomalij na površinah v [5] avtorji predstavijo mrežo, naučeno z nadzorovanim učenjem na neobdelanih primerih slik jeklenih površin s priso- tnimi defekti, s katero izboljšajo točnost detekcije v primerjavi z uporabo značilnic, pridobljenih s klasičnimi metodami za detekcijo napak na teksturiranih mate- rialih. Te vključujejo večplastni perceptron (MLP) in klasifikator SVM z jedrom RBF naučen na značilnicah, pridobljenih s HOG, PHOG, rotacijsko invariantnimi merami lokalne variance in lokalnimi binarnimi vzorci (LBP, LBP-Fourier). Avtorji v [6] predstavijo pregled različnih hevristik CNN za industrijsko pregledovanje. V članku avtorji raziskujejo vpliv različnih hiperpara- metrov glede na točnost detekcije. Na splošno se avtorji poslužijo arhitektur, objavljenih v [7], in te evalvirajo na podatkovni bazi, sestavljeni iz umetno generiranih slik z različno teksturiranimi površinami in dodanimi defekti v obliki pik in črt. Za učenje značilnic avtorji z uporabo drsečega okna generirajo veliko učnih primerov z namenom minimiziranja števila napačno klasificiranih slikovnih elementov, upoštevajoč ročno anotirane maske z grobo označenimi slikovnimi elementi, ki prikazu- jejo anomalijo. Druga dela na pretežno ploskih jekle- nih površinah, kot so detekcija napak iz fotometričnih stereo-slik železniških tračnic [8] in ekstrahiranje ustre- znih značilnic za detekcijo anomalij [9] kažejo, da je uporaba globokega učenja za ekstrahiranje značilnic v ne-trivialnih domenah mogoča in uporabna. V literaturi na področju odkrivanja anomalij se tako diskriminativne mreže uporabljajo večinoma kot klasifi- kator na neobdelanih ali obdelanih slikah, ki ponazarjajo ploskve površine z namenom določiti, ali je na dani sliki prisotna anomalije ali ne. Izhod mreže kot take je torej zgolj klasifikacija celotne slike. Kljub številnim raziskavam na temo segmentacije z uporabo mrež, kot so [10], [11], je uporaba slednjih za namen segmenti- ranja anomalij redko obravnavana v literaturi detekcij nepravilnosti na površinah. 3 ZASNOVA ARHITEKTURE Pristopi, ki temelijo na globokem učenju, se izkažejo za uspešnejše od neglobokih pristopov pri reševanju različnih nalog, ki segajo od detekcije [5] do se- gmentacije [10]. Običajna praksa pri uporabi globokega učenja je prirejanje obstoječih arhitektur, kot na primer VGG [12], za specifično nalogo na način, ki uporabi vnaprej naučene uteži nižjih plasti na velikih učnih ba- zah, ter douči uteži na višjih plasteh na novi problemski domeni. Na splošno takšen pristop ni najbolj primeren za uporabo na specifičnih problemskih domenah, kot je detekcija napak na teksturiranih površinah. In to zato, ker velike arhitekture implicitno kažejo potrebo po velikih učnih množicah, ki pa jih v določenih indu- strijskih okoljih ni na voljo, saj je lahko že sam proces pridobivanja teh drago oz. nepraktično opravilo. Tako lahko določimo kriterije, potrebne za mrežo, namenjeno za uporabo v sistemih za avtomatizirano pre- gledovanje: (i) kompaktnost, tj. zmožnost učenja poten- cialne detekcije anomalij iz majhnega števila defektnih učnih primerov; (ii) robustnost, tj. v podobni problemski domeni so potrebni zgolj majhni popravki hiperparame- trov; (iii) interpretabilnost, tj. zmožnost vizualne loka- lizacije anomalije in razlage klasifikacije domenskemu strokovnjaku. Glede na navedene kriterije predlagamo enovito konvolucijsko nevronsko mrežo za detekcijo anomalij na teksturiranih površinah, ki se sestoji iz segmentacijskega in klasifikacijskega dela. Naloga kla- sifikacijskega dela je, da danemu primeru priredi oceno gotovosti, ki jo lahko interpretiramo kot gotovost mreže, da se na danem primeru nahaja anomalija. Naloga segmentacijskega dela je prikaz vizualne lokalizacije anomalije in razlage klasifikacije domenskemu strokov- njaku. Predlagano arhitekturo mreže prikazuje slika 2. ENOVITA KONVOLUCIJSKA NEVRONSKA MREŽA ZA DETEKCIJO ANOMALIJ NA TEKSTURIRANIH POVRŠINAH 281 512× 512 256× 256 128× 128 [ 11× 11 ] [ 11× 11 ] & [ 7× 7 ] [ 7× 7 ] & [ 3× 3 ] Konvolucijsko jedro Konvolucijsko jedro Konvolucijsko jedro Slika 1: Dimenzije konvolucijskih jeder v primerjavi s ska- lirano anomalijo površine 4, prikazane na sliki 3. Prva slika prikazuje originalno velikost vhoda v izmeri 512 × 512 sli- kovnih elementov, medtem ko vsaka nadaljnja slika prikazuje podvzorčeno predhodno sliko. Rdeči kvadrat je filter v veliko- sti 11 × 11, modri kvadrat je filter velikosti 7 × 7 in rumeni kvadrat filter v velikosti 3× 3 slikovnih elementov. Segmentacijski del mreže je sestavljen iz treh kon- volucijskih blokov, vsak blok pa je sestavljen iz treh konvolucijskih plasti. Na splošno se število filtrov pod- voji v vsakem konvolucijskem bloku, medtem ko se velikost filtrov zmanjša. Pri izbiri velikosti filtrov lahko naredimo veljavne predpostavke o problemski domeni ter jih prenesemo v zasnovo arhitekture. Velikost filtra mora biti takšna, da pokrije del anomalije, ki jo želimo zaznati, kot je prikazano na sliki 1. Tu izbiramo velikosti filtrov tako, da se razmerje med soslednimi velikostmi ohranja skozi faze podvzorčenja. Tako zagotovimo, da filter vseskozi pokriva dovolj velik del anomalije. De- janske reprezentacije v mreži se seveda razlikujejo od prikazanih, ki tu služijo zgolj za ponazoritev in ob- razložitev izbire velikosti filtrov. Na splošno podvajanje števila filtrov in redukcija velikosti pri vsakem koraku podvzorčenja v vsakem konvolucijskem bloku ohranja kompaknost arhitekture v smislu števila parametrov. Klasifikacijski del mreže se zanaša na segmentacijski del. Ocena gotovosti za dani primer se doseže s pomočjo maksimalne in povprečne globalne združitve, dobljene iz segmentacijske (SegPlast) in kompresijske plasti (Kom- pPlast), kot je prikazano na sliki 2. Segmentacijska plast je povzeta po popolnoma konvolucijskih mrežah [10] ter zagotavlja segmentacijski izhod iz prejšnje plasti. Kom- presijski sloj na drugi strani služi za kompresijo volumna prejšnje plasti, saj se s tem zmanjša število parametrov, iz katerih se oceni gotovost in robustificira klasifikacijski rezultat. Uporaba maksimalnega in povprečnega global- nega združevanja se izkaže za zanesljivo v primerih, ko bi se sicer večje območje brez napak segmentiralo kot območje z napako. Uporaba zgolj maksimalnega združevanja bi v tem primeru neuspešno razlikovala med velikim in veliko manjšim potencialno defektnim segmentiranim območjem. To je glavni razlog, zakaj dodatno opravljamo povprečno združevanje, saj tako lahko ugotovimo razliko v prej omenjenem primeru. Za dano vhodno sliko teksturirane površine v velikosti 512 × 512 slikovnih elementov predlagana mreža kot izhod poda segmentacijo v velikosti 128×128 slikovnih KonvPlast 11x11, pomik 2 256x256x32 KonvPlast 11x11, pomik 1 256x256x32 KonvPlast 11x11, pomik 1 256x256x32 KonvPlast 7x7, pomik 2 128x128x64 KonvPlast 7x7, pomik 1 128x128x64 KonvPlast 7x7, pomik 1 128x128x64 KonvPlast 3x3, pomik 1 128x128x128 KonvPlast 3x3, pomik 1 128x128x128 KonvPlast 3x3, pomik 1 128x128x128 Vhodna slika 512x512x1 SegPlast 1x1, pomik 1 128x128x1 KompPlast 1x1, pomik 1 128x128x32 GMAXV 1x1x32 GAVGV 1x1x32 GMAXV 1x1x1 GAVGV 1x1x1 Združevanje 1x1x66 S­nevron 1x1x1 F a z a s e g m e n ta ci je F a z a k la s if ik a ci je Segmentacija Gotovost Slika 2: Predlagana CNN-arhitektura, ki za dani primer kot izhod poda segmentacijo napake in oceno gotovosti, da gre za napako. Kratice KonvPlast, SegPlast in KompPlast označujejo konvolucijsko, segmetnacijsko in kompresijsko plast. Kratici GMAXV ter GAVGV označujeta globalno maksimalno in globalno povprečno vzorčenje, medtem ko S-nevron stoji za ocenjevalni nevron. elementov ter oceno gotovosti, da se na danem primeru nahaja anomalija [13]. Za vsako plastjo v mreži se uporabi aktvacijska funkcija ReLU, ki ji sledi paketna normalizacija. Izjemi sta SegPlast in S-nevron, kjer uporabimo linearno oz. sigmoidno aktivacijsko funkcijo. Vse začetne uteži filtrov se inicializirajo z normalno distribucijo, porazdeljeno okoli ničle, kot je predlagano v [14]. Učenje mreže poteka v dveh fazah. V prvi fazi, tj. faza segmentacije, naučimo korak segmentacije ano- malije skozi 25 epoh. V drugi fazi, tj. faza klasifikacije, naučimo korak ocene gotovosti anomalije skozi 10 epoh. Ločeno učenje v dveh fazah, prikazano na sliki 2, je ključno. Pri učenju faze segmentacije se tako zamrznejo vse uteži faze klasifikacijske, podobno se pri učenju faze 282 RAČKI, TOMAŽEVIČ, SKOČAJ klasifikacijske zamrznejo vse uteži faze segmentacije. S takšnim načinom učenja zagotovimo, da se faza kla- sifikacije uči iz smiselnih segmentiranih reprezentacij anomalij. V obeh primerih se mreža uči napovedovanja regresijske vrednosti v intervalu [−1, 1], ki jo priredi vsakemu slikovnemu elementu v fazi segmentacije, oz. vrednosti v intervalu [0, 1], ki jo priredi posameznemu primeru v fazi klasifikacije. V prvi fazi učenja tako minimiziramo funkcijo srednje kvadratne napake, tj. LS = 1 np n∑ i=1 p∑ j=1 ||x〈j〉i − x̂ 〈j〉 i || 2 (1) kjer n označuje število primerov, p številno slikovnih elementov, xi anotirano vrednost slikovnih elementov na sliki in x̂i napovedano vrednost slikovnih elementov. V fazi klasifikacije minimiziramo binarno navzkrižno entropijo, tj. LC = − 1 n n∑ i=1 [ yi log(ŷi) + (1− yi) log(1− ŷi) ] (2) kjer yi označuje anotirano vrednost danega primera in ŷi regresijsko napoved za dani primer. Pri obeh kriterij- skih funkcijah se uporablja optimizator Adadelta [15] z vrednostjo parametrov kot predlaganih v članku. 4 EKSPERIMENTALNI REZULTATI Predlagano arhitekturo smo evalvirali na javno dostopni bazi za Industrijsko Optično Pregledovanje DAGM*, ki se sestoji iz umetno generiranih teksturiranih površin. Kot je razvidno s slike 3, je baza sestavljena iz desetih različnih razredov površin z različnimi anomalijami, ki ponazarjajo razpoke, udrtine in nečistoče. Dani primer označimo kot pozitiven, če se na njem nahaja anomalija, sicer dani primer označimo kot negativen. Celotna baza se sestoji iz 8050 učnih primerov, od katerih jih 1046 vsebuje anomalijo, in 8050 testnih primerov, od katerih jih 1056 vsebuje anomalijo. Če dana površina v velikosti 512 × 512 slikovnih elementov vsebuje anomalijo, ta vsebuje točno eno šibko označeno anomalijo na tekstu- riranem ozadju. Šibke labele so podane v obliki elips, ki grobo pokrivajo območje z anomalijo na danem primeru, toda deloma tudi vključujejo območje brez anomalije, kot je razvidno s slike 3. V določenih primerih se lahko izkaže, da premajhno število pozitivnih učnih prime- rov ni dovolj reprezentativno za dano problematiko, v takšnih primerih uporabimo dodatno bogatene pozitivne učne primere. Natančni postopek bogatenja opišemo v razdelku 4.2. Čeprav označba v celoti pokriva anomalijo na tekstu- rirani površini, je v nekaterih primerih vanjo zajet znaten delež ozadja. Posledično je del slikovnih elementov napačno označen kot slikovni elementi, ki pripadajo anomaliji, kar pa lahko vpliva na učni proces. Tovrstno ∗https://hci.iwr.uni-heidelberg.de/node/3616 problematiko je sicer pričakovati v številnih realnih pro- blemskih domenah, saj je natančno označevanje težaven in drag postopek. Tudi sicer je dostop do industrijskih baz, ki prikazujejo realne problemske domene otežen, glavni razlogi za to pa ležijo v sporazumih o nerazkritju, ki so namenjeni preprečitvi razkritja določenih procesov, kot so procesi zajemanja slik ali drugi ključni procesi, ki zagotavljajo konkurenčno prednost podjetja. 4.1 Vpliv različnih konfiguracij Segmentacijski del mreže se sestoji iz treh blokov, pri čemer se vsak blok sestoji iz treh konvolucijskih plasti, število filtrov pa se podvoji v vsakem naslednjem bloku. Ker sama velikost filtrov v plasti lahko vpliva na se- gmentacijsko in klasifikacijsko točnost, naprej proučimo pet različnih konfiguracij mreže: (i) v1173, kjer se velikost filtrov v vsakem naslednjem bloku zmanjša, tj. [11, 11, 11] → [7, 7, 7] → [3, 3, 3]. (ii) v3711 pomeni obratno konfiguarcijo (i), torej se velikost filtrov poveča v vsakem nadaljnjem bloku, tj. [3, 3, 3] → [7, 7, 7] → [11, 11, 11]; (iii) c1173 je podoben princip kot (i), s to razliko, da so tu filtri konfigurirani v piramidni shemi v enem bloku, torej se velikost filtrov v vsakem bloku spreminja od večjega proti manjšemu, tj. [11, 7, 3] → [11, 7, 3] → [11, 7, 3]; (iv) c3711 pomeni nasprotno kon- figuarcijo (iii), tj. [3, 7, 11] → [3, 7, 11] → [3, 7, 11]; (v) v333 sledi principu zasnovanih arhitektur VGG [12] s konstantno velikostjo filtrov, tj. [3, 3, 3] → [3, 3, 3] → [3, 3, 3]. Točnost predlagane mreže evalviramo v smislu deleža pozitivnih primerov, ki so pravilno identificirani kot pozitivni (TPR), ter delež negativnih primerov, ki so pra- vilno identificirani kot negativni primeri (TNR). Točnost pogledamo tudi v smislu absolutnega števila napačno identificiranih testnih primerov. Prikazani rezultati so dobljeni tako, da na učni množici vzamemo TPR in TNR pri najvišji klasifikacijski točnosti ter s tem pragom klasificiramo primere v testni množici. Slika 4 prikazuje izhode mreže, tj. segmentacijo ano- malije in oceno gotovosti anomalije za različne površine. Iz slednjih je bolj razviden vpliv različnih konfiguracij. Pri konfiguraciji v333 opazimo artefakte pri segmentira- nju ozadja za primer (a), medtem ko je v primeru (c) razvidna slabo segmentirana anomalija. Druge konfigu- racije z uporabo večjih filtrov bolje upoštevajo kontekst ozadja, izbrano zaporedje velikost pa vpliva na točnost segmentacije. Konfiguraciji v1173 in c1173 upoštevata lokalni kontekst po piramidni shemi, tj. velikost filtra se skozi arhitekturo manjša. Ker se velikost filtra manjša, s podvzorčenjem slike opazimo natančnejše segmentacije. Nasprotno delujeta konfiguraciji v3711 in c3711, kjer se velikost filtra veča skozi arhitekturo, torej majhni filtri iščejo napake na velikih slikah, večji filtri pa na podvzorčenih reprezentacijah v mreži. V nekaterih primerih tu opazimo precej slabo oz. celo napačno segmentirane anomalije, kot je razvidno iz prvega in tretjega primera. Slika 5 prikazuje grafični povzetek ENOVITA KONVOLUCIJSKA NEVRONSKA MREŽA ZA DETEKCIJO ANOMALIJ NA TEKSTURIRANIH POVRŠINAH 283 Površina 1 Površina 2 Površina 3 Površina 4 Površina 5 Površina 6 Površina 7 Površina 8 Površina 9 Površina 10 Slika 3: Primeri različno teksturiranih površin podatkovne baze. Vsaka površina vsebuje znotrajrazredne variacije v teksturi ozadja in anomaliji. Rdeče elipse ponazarjajo grobe labele, ki označujejo defektno območje. (a) Vhod Ozna ba 0.998 v1173 1.000 v3711 1.000 c1173 1.000 c3711 0.053 v333 (b) 1.000 0.000 1.000 1.000 0.075 (c) 0.999 1.000 1.000 1.000 0.985 (d) 1.000 0.736 0.203 0.002 0.998 Slika 4: Segmentacijski izhodi mreže za različne primere. Števila v spodnjem desnem kotu prikazujejo pripisano gotovost mreže, da se na individualnem primeru nahaja anomalija. razmerja med segmentacijo šumnega ozadja in segmen- tacijo anomalije ter točnost mreže pri različnih konfi- guracijah konvolucijskih blokov. Razmerje se izračuna iz binariziranih testnih slik z izračunom razmerja med napačno segmentiranimi slikovnimi elementi v ozadju ter vsemi slikovnimi elementi, ki pripadajo ozadju. Slike se binarizirajo pri pragu 0.15, razmerje pa se izračuna kot ločeno povprečje za pozitivne in negativne primere za vsako površino. Kot najboljša se izkaže konfigura- cija v1173, saj z njo dosežemo najvišjo klasifikacijsko točnost in najnižje razmerje napačno klasificiranih sli- kovnih elementov v ozadju za negativne primere. Rezul- tati kažejo, da je takšna konfiguracija filtrov robustna na različne teksture v ozadju, segmentirana območja pa po večini pripadajo defektnim regijam. Zato pri nadaljnjih poizkusih uporabljamo to konfiguracijo. 4.2 Velikost učne množice Pridobivanje primerov z defekti je draga, lahko pa tudi precej zahtevna operacija v realni domeni delovanja, medtem ko so običajno primeri brez defektov na voljo v veliko večjih količinah. Mreža, zasnovana za kon- trolne sisteme, bi se tako morala biti sposobna naučiti razločevanja defektov iz majhnega nabora defektnih primerov. V ta namen predlagano mrežno evalviramo na različnih velikostih učnih množic, opisanih v tabeli 1. Poizkusi se sestojijo iz učenja mreže na zgolj pozitivnih učnih primerih, označenih s Pos, ter pozitivnih in nega- tivnih učnih primerih, označenih s PosNeg. Ker pa se v določenih primerih lahko izkaže, da premajhno število pozitivnih učnih primerov ni dovolj reprezentativno za dano problematiko, predlagano mrežo naučimo tudi na bogatenih pozitivnih učnih primerih, označenih s Pos- aug in PosNeg-aug. Pri slednjih se vsak dani pozitivni učni primer rotira za 180◦ ter zrcali prek horizontalne in vertikalne osi. Za vsak pozitivni učni primer tako dobimo dodatne tri bogatene primere, s čimer trikrat povečamo število pozitivnih primerov v učnih množicah ter pustimo številno negativnih primerov nespremenjeno. Tabela 2 prikazuje točnost mreže pri učenju z različno velikimi množicami učnih primerov. Kot vidimo pri 284 RAČKI, TOMAŽEVIČ, SKOČAJ v1173 v3711 c1173 c3711 v333 Konfiguracije 0.0 0.5 1.0 1.5 2.0 2.5 3.0 4.0 5.0 Performanse razli nih konfiguracij modela La no pozitivna stopnja La no negativna stopnja Napa no segmentirani slikovni elementi pozitivnih primerov Napa no segmentirani slikovni elementi negativnih primerov Slika 5: Grafični povzetek razmerja med segmentacijo šumnega ozadja in segmentacijo anomalije ter točnost mreže pri različnih konfiguracijah konvolucijskih blokov Kratica Uporabljeni učni primeri Pos pozitivni učni primeri PosNeg pozitivni in negativni učni primeri Pos-aug Pos z bogatenjem podatkov PosNeg-aug PosNeg z bogatenjem podatkov Pozitivni primeri primeri z anomalijami Negativni primeri primeri brez anomalij Tabela 1: Oznake različnih velikosti učnih množic učenju na učni množici PosNeg-aug, mreža zgreši zgolj en pozitivni testni primer, pri čemer ohrani visoko točnost pri detekciji negativnih primerov, tj. primerov brez anomalij. Na splošno se opazita dva trenda pri večanju učne množice. Z bogatenjem pozitivnih prime- rov se precej poveča točnost detekcije pozitivnih pri- merov. Z dodajanjem negativnih primerov pa se poveča točnost detekcije tako pozitivnih kot negativnih primerov ter posledično se zmanjšajo artefakti na ozadju pri segmentiranju teksture ozadja dane površine. Tabela 3 prikazuje primerjavo predlagane arhitek- ture mreže z obstoječo sodobno rešitvijo, ki temelji na globokem učenju [6], ter s klasičnimi neglobokimi pristopi [16], [17], [18]. S predlagano mrežo izboljšamo detekcijsko točnost pozitivnih, tj. primerov z anomali- jami na vseh površinah, pri čemer ohranja visoko točnost detekcije negativnih primerov, tj. primerov brez anoma- lij. Dosedanji pristopi poleg tega za učenje zahtevajo precej več učnih primerov ter kot del izhoda ne podajo segmentacije anomalije, kar oteži zmožnost morebitne vizualne verifikacije anomalije domenskemu strokov- njaku. Čeprav so slikovni elementi, ki ponazarjajo ano- malijo, šibko označeni, saj v določeni meri vključujejo slikovne elemente, ki pomenijo ozadje, se predlagani pristop izkaže kot robusten na tovrstno označevanje in uspe doseči učinkovito segmentacijo anomalij. 5 SKLEP V prispevku predlagamo enovito konvolucijsko ne- vronsko mrežo za detekcijo anomalij na teksturiranih površinah. Nevronska mreža se sestoji iz segmentacij- skega in klasifikacijskega dela, katerih učenje poteka v dveh ločenih fazah. Primernost kompaktne arhitekture z manjšim številom parametrov za domeno pregledo- vanja evalviramo na podatkovni bazi, ki se sestoji iz različno teksturiranih površin s prisotnimi različnimi, šibko označenimi anomalijami. S konfiguracijo v1173 se izboljšata detekcija in segmentacijska točnost pri- merov z anomalijami na vseh površinah, pri čemer se ohrani visoka točnost detekcije primerov brez anomalij. Predlagana arhitektura mreže ohranja kompaknost v smislu števila parametrov in učenja anomalij iz majh- nega števila učnih primerov; je robustna v podobni problemski domeni, tj. pri variaciji teksture v ozadju in variaciji anomalij, ter daje vizualno lokalizacijo, tj. se- gmentacijo anomalije za morebitno razlago klasifikacije domenskemu strokovnjaku. ZAHVALA Raziskavo so omogočili Ministrstvo za gospodarski razvoj in tehnologijo (MGRT) Republike Slovenije, Evropski sklad za regionalni razvoj (ERDF) Evropske unije v okviru programa 631-63/2017/1, ter Sensum, sistemi z Računalniškim Vidom.