1 UVOD Obrazna poza je eden od ključnih dejavnikov, ki lahko vplivajo na uspešnost razpoznavanja obrazov. Človeški obraz je najbolje viden v frontalni pozi, stranske poze pa Prejet 6. maj, 2020 Odobren 8. julij, 2020 Slika 1: Obraz, fotografiran v različnih pozah. lahko odvisno od kota bistveno spremenijo videz obraza ali celo zakrijejo dele obraza. Slika 1 prikazuje fotogra- fije istega obraza v različnih pozah, ki izrazito spreme- nijo videz slike. Največ informacije o izgledu obraza je ohranjene v sliki frontalne poze, zato je to poza, za katero so tipično prilagojeni sistemi za samodejno razpoznavanje obrazov, in poza, iz katere je najlažje prepoznati obraz na sliki. Kot korak predobdelave slik za razpoznavanje obrazov se zato tipično uporabljajo postopki poravnave obrazov, ki sliko poravnajo v to kanonično pozo glede na zaznano lokacijo in orientacijo obraza na sliki. 218 GRM Slika 2: Lokacije 68 ključnih obraznih točk po standardu MultiPIE [5]. Primer frontalne poze iz zbirke XM2VTS [14]. 2 LOKALIZACIJA IN PORAVNAVA OBRAZNIH TOČK Lokalizacija obraznih točk je postopek določitve koor- dinat slikovnih elementov na sliki obraza, ki ustrezajo ključnim obraznim točkam. Obstaja več različnih defi- nicij ključnih obraznih točk, v zadnjem času pa se je najbolj uveljavil sistem 68 obraznih točk, uporabljenih pri označitvi podatkovne zbirke Multi-PIE [5]. Diagram teh točk v kanonični frontalni pozi obraza je predstavljen na sliki 2. Če želimo novo sliko poravnati s kanonično pozo, in na podlagi sistema za zaznavo obraznih točk poznamo približek (x, y) koordinate njenih obraznih točk v obliki matrike X̂ ∈ R68×2, in je kanonična poza določena z matriko koordinat Y ∈ R68×2, lahko sliko poravnamo s kanonično pozo tako, da določimo trans- formacijsko matriko T ∈ R3×3, ki v smislu najmanjših kvadratov reši enačbo X̂′T ≈ Y′, (1) kjer sta X̂′ in Y′ matriki koordinat obraznih točk v homogenem zapisu, torej z vrsticami (x, y, 1). Enačbo (1) v smislu najmanjših kvadratov reši matrika T̂ = ( X̂′ᵀ X̂′ )−1 X̂′ᵀ Y. (2) Slika 3 prikazuje primere obraznih slik, poravnanih s tem postopkom. Postopek zagotavlja sliko obraza v isti velikosti, obliki in orientaciji, kot jih ima kanonična poza, kar je ključnega pomena za delovanje sistemov samodejnega razpoznavanja obrazov. Tudi najnovejši rezultati s področja samodejnega razpoznavanja obrazov namreč kažejo, da je obrazna poza eden izmed dejavni- kov, ki najbolj vplivajo na uspešnost razpoznavanja [15]. Slika 3: Primeri poravnave obraznih slik iz podatkovne zbirke CelebFacesA [13]. Na sliki so prikazane originalne (levo) in poravnane slike (desno). 3 SUPERRESOLUCIJA Superresolucija je družina postopkov za izboljšavo ka- kovosti slikovnih podatkov nizke ločljivosti. Problem je matematično definiran s postopkom degradacije slike, y = H(x) + n, (3) kjer y predstavlja znano sliko nizke ločljivosti, H(·) predstavlja postopek glajenja in podvzorčenja, x pred- stavlja latentno sliko visoke ločljivosti, ki jo s postop- kom superresolucije želimo rekonstruirati, in n pred- stavlja člen šuma. Postopki superresolucije sestojijo iz določitve preslikave x̂ = f(y), ki postopek degradacije do čim večje mere invertirajo. Moderni pristopi [2], [8], [9], [11], [17], [18], [4] postopek določijo kot x̂ = fθ(y), kjer fθ predstavlja globoko nevronsko omrežje, naučeno na primerih parov slik visoke in nizke ločljivosti. Postopek učenja je tak, da učno zbirko slik visoke ločljivosti umetno podvzorčimo z izbranim degradacijskim postopkom. Umetno podvzorčene slike nizke ločljivosti y nato predstavljajo učne vhode ne- vronskemu omrežju, originalne slike visoke ločljivosti x pa pričakovane učne izhode. Z nevronskim omrežjem fθ nato preko gradientne optimizacije parametrov θ minimiziramo kriterijsko funkcijo L (fθ(y),x), ki je lahko npr. srednja kvadratna napaka med dejanskimi slikami visoke ločljivosti in izhodi nevronskega omrežja. Postopek učenja in uporabe nevronskega omrežja za superresolucijo je prikazan na sliki 4. Slika 4: Prikaz učenja nevronskega omrežja za superresolucijo. Slika prikazuje generiranje parov učnih slik (1) in učenje nevronskega omrežja (2). SUPERRESOLUCIJA ZA IZBOLJŠAVO LOKALIZACIJE OBRAZNIH TOČK 219 4 EKSPERIMENTALNI PROTOKOL V tem razdelku je opisan protokol, uporabljen za vre- dnotenje vpliva postopkov superresolucije na uspešnost lokalizacije obraznih točk pri obraznih slikah nizke ločljivosti. 4.1 Podatkovne zbirke Za učenje postopkov superresolucije uporabljamo po- datkovno zbirko CASIA WebFace [16]. Gre za podat- kovno zbirko, ki vsebuje 494 414 slik obrazov 10 575 ljudi, in je pogosto uporabljena v namen učenja siste- mov za analizo in razpoznavanje obrazov. Z učenjem postopkov superresolucije izključno na slikah obrazov dosežemo, da se nevronska omrežja za superresolucijo naučijo rekonstrukcije videza obrazov, kar predstavlja bolj omejen problem od splošne resolucije poljubnih scen, s čimer je mogoča izboljšava uspešnosti superre- solucije. Za testiranje vpliva postopkov superresolucije na uspešnost lokalizacije obraznih točk uporabljamo podat- kovno zbirko Helen [10]. Testni del zbirke je sestavljen iz 330 obraznih slik z označenimi lokacijami ključnih obraznih točk po standardu s 68 točkami. 4.2 Postopki superresolucije Za vrednotenje uporabnosti postopkov superresolucije za namen izboljšave delovanja sistema za lokalizacijo obraznih točk uporabimo predlagane postopke superre- solucije Super-identity Convolutional Neural Network (SICNN) [18], Super-Resolution Convolutional Neu- ral Network (SRCNN) [2], Very Deep Super Resolu- tion Network (VDSR) [8], Perceptual-loss based SR (`p) [6], Cascading Residual Network (CARN) [1], Deep Laplacian Pyramid Super-Resolution Network (Lap- SRN) [9], Super-Resolution Generative Adversarial Ne- twork (SRGAN) [11], Enhanced Deep Residual Network (EDSR) [12], Ultra Resolving Discriminative Generative Network (URDGN) [17] in Cascaded Super-Resolution with Identity Priors (C-SRIP) [4]. Ker so bili nekateri izmed teh pristopov predlagani za splošen problem su- perresolucije in ne konkretno za problem superresolucije obrazov, vse modele naučimo od začetka na podatkovni zbirki CASIA-WebFace. 4.3 Postopek lokalizacije ključnih obraznih točk Za določitev lokacije ključnih obraznih točk upora- bljamo postopek [7]. Postopek je sestavljen iz kaskade regresijskih funkcij, ki iterativno izboljšujejo oceno lo- kacij ključnih obraznih točk na podlagi videza lokalne okolice trenutnih ocen njihovih lokacij. Postopek loka- lizacije je podan z izrazom X̂(t) = X̂(t−1) + rt ( I, X̂(t−1) ) , (4) kjer I predstavlja sliko obraza, X̂(t) predstavlja oceno lokacij ključnih obraznih točk v t-ti iteraciji, in rt(·, ·) predstavlja t-to regresijsko funkcijo, ki oceni nove lo- kacije ključnih točk na podlagi slike obraza in prejšnje ocene. Zaporedje regresijskih funkcij rt je učeno z gradien- tnim optimizacijskim postopkom za drevesa regresijskih funkcij, ki v vsakem koraku optimizira funkcije za šibko regresijo s kriterijsko funkcijo minimizacije rezidualov iz prejšnjih iteracij. 4.4 Mera za vrednotenje rezultatov Naj bodo referenčne koordinate ključnih obraznih točk dane slike obraza podane v matriki Y, in naj bodo približki teh koordinat, dobljeni s postopkom lokaliza- cije podani v matriki X̂. Odstopanje napovedi X̂ od dejanskih koordinat Y podamo z mero povprečne ev- klidske razdalje dane ključne točke od njenega približka, normirano z medočesno evklidsko razdaljo. Mera napake je podana z izrazom DIOD = 1 68 ∑68 i=1 ∣∣∣∣∣∣Yi,: − X̂i,:∣∣∣∣∣∣ 2 ||Y31,: −Y36,:||2 , (5) kjer izraz Mi,: predstavlja i-to vrstico matrike M, ter 31. in 36. ključna obrazna točka v sistemu 68 Multi-PIE [5] ključnih obraznih točk predstavljata središči levega oz. desnega očesa. 4.5 Priprava testne podatkovne zbirke Ker podatkovna zbirka Helen [10] vsebuje slike vi- soke ločljivosti, jih moramo za namen uporabe preizkusa postopkov superresolucije obdelati z ustreznim postop- kom umetne degradacije. Vpliv postopkov superresolucije na uspešnost loka- lizacije ključnih obraznih točk ovrednotimo tako, da celotni testni del podatkovne zbirke Helen podvzorčimo na ločljivost slik 24 × 24 slikovnih elementov, ki je smiselna za vhod v izbrane postopke superresolucije. V ta namen slike gladimo preko konvolucije z Gaussovim jedrom s σ = 2.0 ter jih podvzorčimo za faktor 8. Ker so koordinate referenčnih oznak ključnih obra- znih točk podane v koordinatnem sistemu slikovnih elementov, tudi oznake lokacij obraznih točk skaliramo tako, da matriko Y, pripadajočo vsaki sliki množimo z razmerjem med velikostjo originalne slike in velikostjo nove referenčne slike visoke ločljivosti, ki je 192× 192 slikovnih elementov. Te slike nizke ločljivosti nato z vsakim od omenje- nih postopkov superresolucije povečamo za faktor 8×, na ločljivost 192 × 192 slikovnih elementov. Primeri povečave so prikazani na sliki 5. Kot osnovo za primer- javo uporabimo še postopek bikubične interpolacije, ki slike poveča z interpoliranjem vrednosti med sosednjimi slikovnimi elementi brez učenja degradacije. Rezultate preizkusa uspešnosti lokalizacije obraznih točk primerjamo tudi z uspešnostjo na originalnih slikah visoke ločljivosti. Rezultate uspešnosti lokalizacije pri uporabi vsakega izmed postopkov superresolucije preko celotnega testnega dela podatkovne zbirke Helen [10] 220 GRM Slika 5: Prikaz superresolucije slike s postopkom C-SRIP [4]. Slika nizke ločljivosti je povečana za faktor povečave 8×. Levo: Slika nizke ločljivosti. Sredina: Rezultat postopka superresolucije. Desno: Referenčna slika visoke ločljivosti. podamo v obliki statistike(µ± σ), tj. s srednjo vre- dnostjo in standardnim odklonom, izračunanim preko rezultatov na 330 slikah v testni podatkovni zbirki. 5 REZULTATI V tabeli 1 so z mero odstopanja DIOD podani re- zultati preizkusa lokalizacije obraznih točk. Statistiko mere preko celotne podatkovne zbirke podamo v obliki intervala zaupanja (µ± σ). Iz rezultatov je razvidno, da vsi preizkušeni postopki superresolucije izboljšajo delovanje postopka lokaliza- cije ključnih obraznih točk, saj je postopek bikubične interpolacije, ki smo ga uporabili kot osnovo za pri- merjavo v smislu izbrane mere napake lokalizacije v povprečju najslabši in glede na standardni odklon mere napake DIOD med najmanj konsistentnimi. Med postopki superresolucije k uspešnosti lokalizacije ključnih obraznih točk najbolj pripomorejo tisti, ki pri postopku učenja nevronskega omrežja za superresolucijo na različne načine eksplicitno vključujejo znanje o vi- dezu obrazov (C-SRIP, `p), sledijo pa jim postopki, ki vključujejo metode nenadzorovanega in nasprotniškega učenja (EDSR, SRGAN) po postopku učenja generativ- nih nasprotniških omrežij [3]. Med najslabšimi postopki so zastopani predvsem tisti, pri katerih učenje mode- lov za superresolucijo poteka zgolj na podlagi kriterija naivne rekonstrukcije učnih slik visoke ločljivosti v smislu najmanjših kvadratov (SRCNN, VDSR). Kvan- titativni rezultati v tabeli 1 kažejo, da napredki na področju superresolucije v zadnjih letih, ki se v literaturi tipično merijo s kakovostjo rekonstrukcije testnih slik in kvalitativnim videzom rezultatov, močno korelirajo z uspešnostjo teh postopkov na področju uporabe za izboljšavo lokalizacije obraznih točk. Na sliki 6 so prikazani tudi kvalitativni vizualni Tabela 1: Rezultati preizkusa uspešnosti lokalizacije obra- znih točk pri uporabi postopkov superresolucije. Postopki so razvrščeni v padajočem redu povprečne napake lokalizacije. Postopek Napaka (DIOD, µ± σ) Bikubična interpolacija 0.0531± 0.0052 SRCNN 0.0502± 0.0057 VDSR 0.0502± 0.0048 URDGN 0.0487± 0.0042 LapSRN 0.0449± 0.0050 SICNN 0.0431± 0.0036 CARN 0.0417± 0.0035 EDSR 0.0409± 0.0045 SRGAN 0.0405± 0.0034 `p 0.0396± 0.0052 C-SRIP 0.0380± 0.0028 Originalne slike 0.0344± 0.0025 visoke ločljivosti rezultati dveh primerov lokalizacije ključnih obraznih točk pri uporabi vsakega od preizkušenih postopkov superresolucije. Tudi iz kvalitativnih primerov je raz- vidno, da kakovost rekonstrukcije slike postopka su- perresolucije jasno pripomore k uspešnosti lokalizacije obraznih točk. Na zgornjem primeru vidimo, da pri uporabi slabših superresolucijskih postopkov (kot je SRCNN) postopek lokalizacije obraznih točk popolnoma zgreši ključne obrazne točke na ustih in pri lokalizaciji obrisa obraza naredi veliko večjo napako, kot jo naredi pri uporabi novejših postopkov superresolucije (kot je `p). Na spodnjem primeru zaradi boljšega kontrasta slike postopek lokalizacije obraznih točk neodvisno od postopka superresolucije v večini primerov zadane obris obraza, obenem pa pri uporabi slabših izmed postopkov superresolucije zgreši ključne obrazne točke na nosu in na ustih. 6 ZAKLJUČKI Pravilna poravnava obraznih slik je ključnega pomena v biometričnih sistemih. Zanesljiv sistem za poravnavo obrazov nam lahko bistveno olajša delo z obraznimi slikami, kjer je obraz slikan pod pozo, ki predstavlja problem za sisteme samodejnega razpoznavanja obrazov. Ta scenarij je pogost npr. v sistemih za varnostni nadzor, kjer so kamere tipično nameščene na način, ki čimbolj učinkovito pokriva prostor, ne zagotavlja pa slik obrazov pod primernimi pozami. V temu delu smo pokazali, da pri predobdelavi slik nizke ločljivosti korak uporabe postopkov superresolucije lahko bistveno pripomore k pravilni lokalizaciji ključnih obraznih točk, ki jih upo- rabljamo za poravnavo obraznih slik. Zato se delu s podatki nizke ločljivosti, kjer je potrebna poravnava slik priporoča uporabo postopkov superresolucije. SUPERRESOLUCIJA ZA IZBOLJŠAVO LOKALIZACIJE OBRAZNIH TOČK 221 Bicubic SICNN SRCNN VDSR p CARN LapSRN SRGAN EDSR URDGN C-SRIP HR Bicubic SICNN SRCNN VDSR p CARN LapSRN SRGAN EDSR URDGN C-SRIP HR Slika 6: Kvantitativni prikaz uspešnosti postopka lokalizacije obraznih točk pri uporabi različnih postopkov superresolucije, v primerjavi z rezultati na originalnih slikah visoke ločljivosti. Na vsaki izmed slik zelene točke prikazujejo referenčne oznake koordinat ključnih obraznih točk, Y, rdeče točke pa prikazujejo napovedi postopka za lokalizacijo obraznih točk, X̂, pri uporabi danega postopka superresolucije.