1 UVOD Uporabniki (porabniki) multimedijskih (MM) vsebin so v čedalje težjem položaju, saj v veliki količini vse- bin težko najdejo zanje primerne. Pomagajo si s pri- poročilnimi sistemi, ki na podlagi osebnih preferenc uporabnikov izberejo manjšo količino relevantnih MM vsebin, med katerimi uporabnik laže izbira. Noben danes znan priporočilni sistem ne zadošča v celoti potrebam uporabnikov, saj je izbor priporočenih vsebin običajno nezadovoljive kakovosti [10]. Cilj tega članka je pred- staviti metode emotivno pogojenega računalništva (ang. affective computing - glej [12]) za izboljšanje kakovosti priporočilnih sistemov in utrditi za slovenski prostor novo terminologijo. 1.1 Opis problema Za izboljšanje kakovosti priporočilnih sistemov sta na voljo dve poti: (i) optimizacija algoritmov ali (ii) uporaba boljših značilk, ki bolje razložijo neznano Prejet 13. oktober, 2010 Odobren 1. februar, 2011 varianco [8]. V tem članku predstavljamo izboljšanje priporočilnih sistemov z uporabo novih značilk, ki te- meljijo na emotivnih odzivih uporabnikov in na njiho- vih osebnostnih lastnostih. Te značilke razložijo velik del uporabnikovih preferenc, ki se izražajo v obliki ocen posameznih vsebin (npr. Likertova lestvica, binarne ocene itd.). Ocene vsebin se pri priporočilnih sistemih zajemajo eksplicitno (ocena) ali implicitno, pri čemer o oceni sklepamo na podlagi opazovanj (npr. čas gledanja kot indikator všečnosti [7]. Izboljšanja učinkovitosti priporočilnih sistemov smo se lotili na treh področjih: (i) uporaba emotivnega modeliranja uporabnikov v vsebinskem priporočilnem sistemu, (ii) neinvazivna (implicitna) detekcija emocij za emotivno modeliranje in (iii) uporaba osebnostne mere podobnosti v skupinskem priporočilnem sistemu. Slika 1 prikazuje arhitekturo emotivnega priporočilnega sistema in mesta, kjer smo vnesli opisane izboljšave. Preostanek članka je strukturiran tako: v razdelku 2 je predstavljen zajem podatkov. V razdelku 3 je predstavljen vsebinski priporočilni sistem z emotivnimi metapodatki. V razdelku 4 je predstavljen skupinski priporočilni sistem, ki uporablja mero podobnosti na podlagi osebnosti, v razdelku 5 pa algoritem za razpo- znavo emocij. Vsak od teh razdelov je sestavljen iz opisa eksperimenta in predstavitve rezultatov. V razdelku 6 so predstavljeni sklepi. 1.2 Sorodno delo Najbolj groba delitev priporočilnih sistemov je na vse- binske, skupinske ter hibridne sisteme [1]. Z izjemo vse- binskih priporočilnih sistemov, ki sta ga razvila Arapakis [2] in Tkalčič [14], sorodnega dela na področju emotivno pogojenih priporočilnih sistemov takorekoč ni. Pantić in UPORABA EMOTIVNEGA RAČUNALNIŠTVA V PRIPOROČILNIH SISTEMIH 13 Razpoznavanje emocij Vsebinski priporočilni sistem emocij DB sistem Emotivno modeliranje uporabnikov Emotivno modeliranje vsebin Skupinski priporočilni sistem Mera podobnosti na podlagi osebnostnih parametrov Določanje osebnostnih parametrovparametrov Slika 1: Arhitektura emotivnega priporočilnega sistema. Vinciarelli priporočata označevanje multimedijskih vse- bin z uporabo neinvazivnih metod za zajem emotivnih stanj [11]. Obstaja vrsta priporočilnih sistemov na pod- lagi generičnega modeliranja, ki so opisani v preglednem članku [1]. Veliko raziskav se ukvarja z detekcijo emocij iz različnih modalnosti (obraz, fiziološki senzorji ipd.) [17]. TV Anytime standard je že predvideval emotivne metapodatke [13]. 2 ZAJEM PODATKOV Za izvedbo eksperimentalne verifikacije pravilnosti hi- potez je potrebna ustrezna podatkovna baza. Kljub ob- stoju baz s posnetki, opremljenimi z emotivnimi parame- tri (npr. baza Kanade-Cohn [6] ali baza AvID [5]), le-te niso povezane s priporočilnimi sistemi in smo morali ustrezno bazo zgraditi sami. Zahteve za novo bazo so bile naslednje: (i) nabor MM-vsebin z generičnimi in emotivnimi metapodatki, (ii) vzorec testnih uporabnikov s podatki o osebnostnih lastnosti po sistemu velikih pet (ang. FFM - Five Factor Model) [9], (iii) video posnetki uporabnikov med porabo MM-vsebin ter (iv) eksplicitne ocene uporabnikov za MM-vsebine. Za nabor MM-vsebin smo izbrali barvne slike iz baze IAPS [3], ki so opremljene z emotivnimi me- tapodatki o odzivih uporabnikov v prostoru za zapis emocij VAD (ang. valence-arousal-dominance, valenca- vzburjenje-dominanca). Izbrali smo nabor 70 slik in vsako sliko ročno označili z žanrom. Izbrane slike so predstavljale emotivne stimuluse za uporabnike. Zajem podatkov smo izvedli s pomočjo aplikacije, ki je upo- rabniku prikazala sliko, ta pa je doživel emotivni odziv, ki smo ga posneli s spletno kamero, nameščeno nad zaslonom. Vsaki sliki je uporabnik dal še eksplicitno oceno s petstopenjske Likertove lestvice. Ta eksperimen- talni pristop se imenuje indukcija emocij (ang. emotion induction ali emotion elicitation) [4]. Pri zajemu je sodelovalo 52 uporabnikov, ki so, poleg interakcije z računalniško aplikacijo, izpolnili tudi vprašalnik IPIP (http://ipip.ori.org) za oceno osebnostnih parametrov ve- likih pet. Tako smo za vsakega uporabnika dobili vektor petih skalarnih vrednosti, ki opisujejo pet osebnostnih lastnosti: sprejemljivost, vestnost, odprtost, nevroticizem in ekstravertiranost (ang. Agreeableness, Conscientiou- sness, Openness, Neuroticism, Extraversion). Bazo smo poimenovali LDOS-PerAff-1 [15] in je dosegljiva vsem zainteresiranim raziskovalcem. Pogoji uporabe so določeni na spletni strani http://slavnik.fe.uni-lj.si/PerAff. 3 VSEBINSKI PRIPOROČILNI SISTEM Z UPORABO EMOTIVNIH METAPODATKOV V vsebinskih priporočilnih sistemih so vsebine (npr. filmi, glasba, slike ipd.) opisane z metapodatki (npr. žanr, igralci, tema ipd.). Podatkovna struktura, ki vsebuje me- tapodatke o eni vsebini, to oznčimo s h, se imenuje profil vsebine (ang. item profile) in ga označimo z md(h). Vse- binski priporočilni sistem izbere uporabniku primerne vsebine na podlagi nagnjenj, ki jih ima uporabnik, tega označimo z u, do določenih vrednosti metapodatkov (npr. uporabnik ima rad žanr znanstvene fantastike). Uporabnikove preference se shranjujejo v podatkovni strukturi, ki jo imenujemo uporabniški profil (ang. user profile) in jo označimo z up(u). Ključen element pri načrtovanju vsebinskega priporočilnega sistema je dobra izbira metapodatkov za profile vsebin in uporabnikov. Ti metapodatki morajo vsebovati dovolj informacije za uspešno ločevanje primernih vsebin od neprimernih za vsakega uporabnika. Ocene, ki jih uporabniki dajo vse- binam, označimo z e(u, h), in predstavljajo osnovo za določanje primernih in neprimernih vsebin. Predlagana rešitev za izboljšanje ločevanja primernih in neprimernih vsebin je uporaba emotivnih metapodat- kov. Predpostavljamo, da nosijo emotivni parametri več informacije o varianci ocen uporabnikov, saj naj bi se uporabniki med seboj razlikovali v tem, katera emotivna stanja zasledujejo pri porabi multimedijskih vsebin. Na primer, znani sliki Edvarda Muncha in Clauda Moneta, prikazani na sliki 2, zbujajo v gledalcih zelo različna emotivna stanja. Vsaka ima svoje privržence, kar je od- raz zgoraj opisane predpostavke. Hipotezo smo preverili tako, da smo zgradili vsebinski priporočilni sistem za barvne slike, opremljene z emotivnimi parametri. a. E. Munch b. C. Monet Slika 2: Dve znani sliki, ki izzoveta različna emotivna odziva (vir: wikipedia.org). Primerjali smo kakovost priporočenih vsebin na pod- lagi generičnih metapodatkov (GM) in emotivnih me- tapodatkov (EM). Generična metapodatka sta bila žanr 14 TKALČIČ, KOŠIR, TASIČ g in povprečni čas gledanja t̄w. Emotivni metapodatki pa so bili povprečje in standardna deviacija zajetih emotivnih odzivov uporabnikov na posamezne vsebine. Emotivni odziv uporabnikov lahko zapišemo na več načinov: v obliki osnovnih emocij, z dimenzionalnim modelom in s cirkumpleksnim modelom [14]. Najpre- prostejši način zapisa emocij je v obliki šestih no- minalnih oznak: veselje, jeza, gnus, strah, žalost in presenečenje. V dimenzionalnem modelu vsako emo- cijo zapišemo s tremi skalarnimi dimenijami: valenca, vzburjenje in dominanca (ang. VAD - valence, arousal, dominance). Cirkumpleksni model pa povezuje osnovne emocije z dimenzionalnim modelom, saj vsaki osnovni emociji pripiše področje v dimenzionalnem modelu (največkrat v ravnini valenca-vzburjenje). V naši raziskavi smo uporabili dimenzionalni model za zapis emotivnega odziva uporabnika u na vsebino h. Emotivni odziv smo označili z er(u, h) = (v, a, d), kjer so v, a, in d vrednosti valence, vzburjenosti in dominance. Skupino uporabnikov, ki je porabila vse- bino h, označimo z Uh, njihove emotivne odzive pa z ERh = {er(u, h) : u ∈ Uh}. Predlagamo uporabo profila vsebin v obliki prvih dveh statističnih momentov (povprečne vrednosti in standardnega odklona) za vsako od dimenzij v, a, in d. Tak profil vsebin vsebuje šest metapodatkov: V = (v̄, σv, ā, σa, d̄, σd). Uporabnike smo modelirali z uporabo metod strojnega učenja, ki so navedene v naslednjem razdelku. Vsak upo- rabniški profil up(h) je sestavljen iz vrednosti parame- trov naučenega algoritma strojnega učenja. Podatkovna struktura uporabniškega modela je torej močno odvisna od metode strojnega učenja, ki smo jo uporabili. Na podlagi uporabniškega modela smo s pomočjo ustrezne metode strojnega učenja ocenili uporabniške ocene za vsebine, ki jih uporabnik še ni ocenil. Te ocene označimo z ê(u, h). Tako eksplicitne ocene uporabnikov e(u, h) kot ocenjene ê(u, h) lahko zavzamejo dve vre- dnosti, C0 ali C1, ki pomenijo neprimerne oz. primerne (relevantne) vsebine. 3.1 Eksperiment Z eksperimentom smo preverjali hipotezo, da je ka- kovost priporočenih vsebin z emotivnimi metapodatki boljša kot z generičnimi metapodatki. Zato smo izvedli simulacijo vsebinskega priporočilnega sistema tako, da smo ocenjevali uporabniške ocene vsebin s profili na podlagi generičnih in nato na podlagi emotivnih me- tapodatkov. V obeh primerih smo ocenjene vrednosti primerjali z dejanskimi ocenami, ki so jih podali upo- rabniki, in jih zapisali v tabelo pravilno in napačno razvrščenih ocen (ang. confusion matrix). Iz te tabele smo nato izračnali mere uspešnosti precision P , recall R in F mero. Simulacije vsebinskega priporočilnega sistema smo izvedli s štirimi različnimi postopki stroj- nega učenja: Bayesov razvrščevalnik, razvrščevalnik AdaBoost, drevesni razvrščevalnik C4.5 in metoda pod- pornih vektorjev. Simulacijsko skripto smo izvedli v Matlabu, razvrščevalne algoritme pa smo poganjali s paketom Weka (http://www.cs.waikato.ac.nz/ml/weka/). Uporabili smo navzkrižno preverjanje. 3.2 Rezultati Rezultati so prikazani v tabeli 1. Izvedli smo Pearso- nov χ2 test, ki je pokazal, da so vrednosti v matrikah razvrščanja značilno različni za generične in emotivne metapodatke. Izračunali smo tudi mero kakovosti po- sameznih emotivnih metapodatkov za uporabo v pri- poročilnem sistemu. Rezultati so pokazali, da je prvi sta- tistični moment valence (v̄) najprimernejši metapodatek za ločevanje primernih vsebin od neprimernih. Metode strojnega učenja so pokazale različne rezultate, najbolje pa se je odrezala metoda podpornih vektorjev. metapodatki razvrščevalnik γ P R F A AdaBoost 0.57 0.42 0.48 C4.5 0.60 0.46 0.52 NaiveBayes 0.58 0.58 0.58 SVM 0.61 0.55 0.58 A× V AdaBoost 0.63 0.56 0.59 C4.5 0.64 0.57 0.60 NaiveBayes 0.57 0.64 0.61 SVM 0.65 0.61 0.63 V AdaBoost 0.64 0.56 0.60 C4.5 0.62 0.54 0.58 NaiveBayes 0.57 0.60 0.58 SVM 0.68 0.55 0.61 Tabela 1: Mere P, R in F za tri nabore metapodatkov in štiri razvrščevalnike. Nabor V je sestavljen iz povprečja in standardne deviacije zajetih vrednosti VAD. 4 MERA PODOBNOSTI UPORABNIKOV NA PODLAGI OSEBNOSTNIH PARAMETROV Skupinski priporočilni sistemi delujejo tako, da uporab- niku predlagajo vsebine, ki so bile všeč podobnim upo- rabnikom. Ključni element takega sistema je mera po- dobnosti uporabnikov. Večina sistemov podobnost med uporabniki določi tako, da primerja ocene istih vsebin. Uporabniki, ki so podobno ocenjevali iste vsebine, so sosedi. Iz ocen sosedov se nato izračuna predikcija všečnosti neke vsebine opazovanemu uporabniku. Pro- blem pa nastane, ko neki uporabnik začne uporabljati sistem in še ni posredoval dovolj ocen, na podlagi katerih bi se poiskali dobri sosedi. To imenujemo problem novega uporabnika (ang. new user problem) kot pose- ben primer problema hladnega zagona (ang. cold start problem). Za rešitev tega problema predlagamo uporabo osebnostnih parametrov za izračun mer podobnosti upo- rabnikov. Osebnost uporabnikov najpogosteje opisujemo s siste- mom petih faktorjev (ang. FFM - five factor model), ime- novanim tudi velikih pet. Osebnost vsakega uporabnika UPORABA EMOTIVNEGA RAČUNALNIŠTVA V PRIPOROČILNIH SISTEMIH 15 je zapisana s petimi skalarnimi vrednostmi, ki opisujejo naslednje osebnostne lastnosti: ekstravertnost, prijetnost, vestnost, nevroticizem in odprtost. Ti faktorji pojasnju- jejo varianco v človekovem razmišljanju, občutjih, mo- tivaciji in obnašanju [9]. Motivacija za izbiro osebnosti za mero podobnosti je predpostavka, da imajo ljudje s podobno osebnostjo podobne okuse in bodo posledično podobno ocenjevali vsebine. 4.1 Eksperiment Simulacijo hladnega zagona smo izvedli tako, da smo upoštevali le prvih s ocen uporabnika, kjer smo s povečevali od 1 do števila vseh ocen J . Nato smo izvedli isti priporočilni sistem in namesto mere podobnosti na podlagi ocen uporabili mero podobnosti na podlagi osebnosti. S pomočjo ustrezne mere podobnosti smo za vsakega uporabnika določili k najbližjih sosedov, kjer smo izbrali k = 7. Nato smo s pomočjo enačbe ê(u, h) = αēNN (u, h) + (1− α)ēP (u, h) (1) izračunali predikcijo neocenjene vsebine ê(u, h). Po- dobno kot pri vsebinskem sistemu smo tudi tu izračunali matriko pravilno in napačno razvrščenih vsebin (ang. confusion matrix). Za mero podobnosti na podlagi ocen smo uporabili Evklidovo mero podobnosti. Predlagano mero podobnosti na podlagi osebnosti smo dobili takole: najprej smo za vsakega uporabnika določili osebnostni vektor ~b = (b1, . . . , b5), kjer skalarni elementi vektorja bl ∈ [0, 1] predstavljajo stopnje fak- torjev osebnostnega modela. Vrednosti ~b smo določili s pomočjo vprašalnika IPIP, opisanega v razdelku 2. Nato smo kot mero podobnosti med dvema uporabnikoma ui in uj uporabili uteženo evklidovo razdaljo med vektor- jema ~bi in ~bj dW (~bi, ~bj) = √ √ √ √ 5 ∑ l=1 wl(bil − bjl)2 (2) 4.2 Rezultati Primerjava F mer, prikazana v sliki 3, je pokazala, da je kakovost priporočenih vsebin s predlagano osebnostno mero podobnosti značilno boljša kot pri standardni meri osebnosti v primerih, ko je število ocen, ki smo jih upoštevali pri računanju sosedov s < 50. Ta rezultat pomeni, da je predlagana mera podobnosti uporabnikov primerna za odpravo težav hladnega zagona pri skupin- skih priporočilnih sistemih. Slabost predlagane mere je v tem, da je težavno določanje osebnostnih parametrov, saj je le to zamudno, postavlja pa se tudi vprašanje varovanja osebnih podatkov. 5 ALGORITEM ZA RAZPOZNAVANJE EMOCIJ IZ VIDEOPOSNETKOV OBRAZOV SPONTANIH IZRAZOV Vsebinski priporočilni sistem, ki smo ga predstavili v tem članku, bi v realnem svetu zahteval implici- ten, neintruziven zajem emotivnih odzivov uporabnikov. Razpoznavanje emocij lahko poteka prek ene ali več modalnosti (glas, videoposnetek obraza, videoposnetek drže telesa, fiziološki odzivi - npr. prevodnost kože ipd.) [17]. Mi smo se odločili za razpoznavanje emocij iz videoposnetkov obraza, saj se intuitivno zdi to najpri- mernejši način v našem scenariju porabe multimedijskih vsebin. V sorodnem delu avtorji navajajo dva različna pri- stopa: na igranih bazah in na spontanih bazah. Pri igra- nih bazah igralci odigrajo vnaprej dogovorjen emotivni odziv. Pri spontanih bazah se uporablja metoda indukcije emocij, kjer se uporabnik spontano odzove na neko vzbujanje. 5.1 Eksperiment Uporabili smo metodo indukcije emocij. Za vzbujanje emocij smo uporabili nabor 72 slik iz baze IAPS, kjer je vsaka slika označena s povprečjem in standardnim odklonom emotivnih odzivov na samo sliko v prostoru VAD. Uporabnike smo snemali s spletno kamero, po- datke o povprečnem emotivnem odzivu pa uporabili kot referenco za učenje sistema za razpoznavanje emocij. Za primerjavo smo razviti sistem testirali še na znani igrani bazi Kanade-Cohn. Prostor VAD smo razdelili na osem razredov tako, da smo vsako os (v, a in d) razdelili na pol. Ker nekateri razredi niso imeli predstavnikov v naši bazi, smo razpoznavanje emocij izvajali s šestimi razredi. Videoposnetke obrazov smo najprej razrezali na po- snetke odzivov na eno vzbujanje. Tako smo dobili pare videoposnetek-(v, a, d), ki so primerni za učenje sistema. Na vseh slikah v videoposnetkih smo najprej izločili obraz uporabnika s pomočjo algoritma Viola- Jones [16]. Nato smo obraze registrirali in normirali (glej sliko 4). Slika 4: Predobdelava slik obrazov. Emocije smo razpoznavali tako, da smo primerjali sliko obraza v polni izraznosti in nevtralno sliko obraza. Pri igrani bazi Kanade-Cohn smo uporabili prvo in zadnjo sliko sekvence, vezane na en emotivni odziv. Pri bazi LDOS-PerAff-1 pa smo najprej določili nevtralno sliko tako, da smo izračunali povprečje vseh slik enega uporabnika. 16 TKALČIČ, KOŠIR, TASIČ Slika 3: Porazdelitev F mer za različne vrednosti hladnega zagona s. Skrajno leva porazdelitev (pri indeksu s = 0) predstavlja F mere pridobljene s predlagano osebnostno mero podobnosti uporabnikov. Vsak pravokotnik predstavlja porazdelitev F mer za različne uporabnike med 25im in 75im percentilom pri fiksnem indeksu s. Nato smo izločili nizkonivojske značilke nevtralne in maksimalne slike obraza s pomočjo Gaborjevega filtriranja. Uporabili smo algoritem kNN za učenje in razpoznavanje. Učinkovitost algoritma smo ocenili s pomočjo matrike pravilno in napačno razvrščenih vzor- cev in skalarne mere natančnosti (ang. accuracy). 5.2 Rezultati Natančnost algoritma na igrani bazi Kanade-Cohn je bila 92% , pri spontani bazi LDOS-PerAff-1 pa 62% (tabela 2 prikazuje pravilno in napačno razvrščene vzorce), kar je primerljivo s sorodnimi raziskavami. razvrščeno kot 1 2 3 4 5 6 1 15 3 0 4 5 6 2 4 456 18 19 107 48 3 0 57 98 10 51 29 4 2 42 3 156 41 13 5 2 101 19 28 477 64 6 1 82 11 21 104 240 Tabela 2: Matrika pravilno in napačno razvrščenih videopo- snetkov v šest emotivnih razredov za bazo spontanih videopo- snetkov LDOS-PerAff-1. Povzamemo lahko, da je predstavljena metoda za raz- poznavanje emotivnega stanja iz videoposnetkov obraza uporabnikov neprimerna za neintruzivno zaznavo in upo- rabo pridobljenih rezultatov pri profiliranju vsebin in uporabnikov v priporočilnih sistemih. 6 SKLEP Predstavljena pristopa za izboljšanje priporočilnih sis- temov sta se izkazala kot uspešna. Uporaba emotivnih metapodatkov v vsebinskem priporočilnem sistemu je dala značilno boljše rezultate kot uporaba generičnih metapodatkov. Predlagana mera podobnosti uporabnikov na podlagi osebnosti je dala značilno boljše rezultate skupinskega priporočilnega sistema kot navadna mera, ki temelji na preteklih ocenah. Žal pa je algoritem za razpoznavo emocij na spontanih videoposnetkih še pre- slab, da bi ga lahko uporabili za implicitno označevanje vsebin pri vsebinskem priporočilnem sistemu. Da bi se emotivni priporočilni sistemi lahko uporabili v praksi, je torej ključnega pomena izboljšati metode razpoznave emocij za implicitno označevanje multime- dijskih vsebin. ZAHVALA Delo je nastalo v okviru programa P2-0246, ki ga financira ARRS. Avtorji se zahvaljujejo dijakom in zaposlenim na Gimnaziji Poljane, ker so ommogočili zajem podatkov, potrebnih za to raziskavo. Hvaležni smo tudi kolegom, ki so pomagali pri izvedbi eksperimenta.