1 UVOD S stališča uporabnika predstavlja veliko število ter tudi hitra rast števila uporabniku dostopnih multimedi- jskih vsebin in storitev velik problem. Delo in upravl- janje z modernimi komunikacijskimi sistemi ter vsebi- nami, ki jih nudijo, je še vedno neprijetno oziroma v Prejet 9. december, 2011 Odobren 16. december, 2011 nekaterih primerih za širšo množico uporabnikov celo neizvedljivo. Osnovni pristop k reševanju tega prob- lema je personalizacija in prilagajanje uporabnikom. Večina pristopov s tega področja temelji na napove- dovanju uporabnikovih dejanj, najpogosteje ocen, ki jih bo uporabnik dodelil določeni vsebini. V zadnjih letih se uveljavlja kontekstualna person- alizacija, saj kontekst vpliva na način, kako uporabnik dostopa do izbrane vsebine in kakšne odločitve sprejme v zvezi z njo. Kontekstualni podatki lahko vsebujejo tako informacije o situaciji kot tudi informacije o uporab- nikovem stanju, ko dostopa do vsebine [1]. Kontekst je tako lahko podatek o času, vremenu, socialnem statusu, razpoloženju itd. [2], [3]. Vendar pa je povezava med kontekstom in dejanskimi uporabnikovimi odločitvami zelo kompleksna in kot takšna tudi zahtevna za mod- eliranje. Prav tako pa je težavno zbrati kontekstualne podatke, saj proces zbiranja le-teh pogosto moti proces odločanja in lahko tako vpliva ali celo uniči zbrane kontekstualne podatke. Za čim boljši zajem kontekstualnih podatkov je potrebno proces zajema približati uporabniku. Primerna osnova za to so filmske vsebine, ki jih uporabniki (zlasti mlajša generacija) pogosto gledajo na osebnih računalnikih. Prednost naše podatkovne baze je v tem, da so kontekstualni podatki, ki jih vsebuje, zajeti med samim dostopanjem do vsebine in so zato bolj zanesljivi. Poleg tega smo zajeli 12 različnih tipov (potencialnih) kontekstualnih podatkov, kar omogoča obširne raziskave TEST SET FOR CONTEXTUAL PERSONALIZATION 271 več odprtih problemov s področja kontekstualne person- alizacije. A priori analiza statistične moči kaže, da pred- stavljena podatkovna baza zadošča osnovnim zahtevam glede velikosti (števila uporabnikov, ocen itd.). V prispevku predstavljamo podatkovno bazo za razvoj aplikacij na področju kontekstualne personalizacije. Po- dali bomo osnovne statistične podatke o izbranih spre- menljivkah. Proces zajema podatkov je še vedno v teku, saj je spletna aplikacija še vedno dostopna. Menimo, da je za razvoj pomembno dejstvo, da so podatki, vsebovani v predstavljeni, bazi zajeti med procesom dostopa do vsebine in so zato bolj natančni in relevantni. 2 PODATKOVNA BAZA ZA KONTEKSTUALNO PERSONALIZACIJO Dostop do zanesljive podatkovne baze za kontekstualno personalizacijo je postal kritičnega pomena za razvoj postopkov na področju personalizacije. Kontekst ima velik vpliv na proces uporabnikovega odločanja in po- datkovna baza, ki jo predstavljamo v tem prispevku, nam omogoča študijo tega vpliva. Poleg same podatkovne baze bomo predstavili tudi ovire in zahteve, ki jih je potrebno upoštevati pri postavitvi take baze. V sledečih podpoglavjih bomo opisali splošna navodila, ki jih je potrebno upoštevati pri zajemu kontekstualnih podatkov. V naslednjem poglavju pa bomo podrobneje prestavili našo podatkovno bazo in postopke, ki smo jih uporabili med njenim nastankom. V okviru tega prispevka uporabljamo pojem ”zajem podatkov o uporabniku” za celotni proces zajema in vnosa podatkov v podatkovno bazo. Pojem ”aplikacija za zajem podatkov” pa opisuje dodatne funkcionalnosti (gumbi in tekstovna polja), ki smo jih dodali plat- formi, na kateri je uporabnik dostopal do vsebin (osebni računalnik), z namenom, da uporabniku omogočimo vnos kontekstualnih informacij. 2.1 Kako izbrati in motivirati uporabnike za zbi- ranje kontekstualnih informacij? Kot smo že omenili, je pri zajemu kontekstualnih informacij zelo pomembno, da ima sam zajem čim manjši vpliv na proces uporabnikovega odločanja. To pomeni, da mora biti proces zajema vgrajen v okolje, v katerem uporabnik dostopa do vsebin in sprejema odločitve. Pomembno je tudi, da uporabnik sodeluje zaradi pravih razlogov. Naše mnenje je, da je najboljši motiv pomoč pri razvoju personaliziranih aplikacij zase ter za druge uporabnike [4]. Če povzamemo - med procesom zajema kontekstu- alnih informacij naj se uporabnik čim bolj drži svojih navad in okoliščin, v katerih običajno dostopa do vsebin. Če uporabnik na primer gleda film na svojem osebnem računalniku, naj se kontekstualni podatki zajemajo tako, da uporabnika ne motijo oziroma da se jih po možnosti niti ne zaveda. Pri izgradnji naše podatkovne baze smo zato izbrali uporabnike, ki so vešči dela z računalniki in že sami po sebi uporabljajo računalnik za dostop do multimedijskih vsebin. 2.2 Katere vsebine ponuditi? Prav tako kot ne želimo vplivati na uporabnika in na okoliščine, v katerih dostopa do vsebin, moramo poskrbeti za to, da tudi ponudba vsebin ostane nespre- menjena. Najboljši način, s katerim to zagotovimo je, da se ponudba vsebin ter storitev, ki te vsebine ponujajo, ne spremenijo, kadar poteka zajem podatkov o uporabnikih. Zato je aplikacija za zajem kontekstualnih informacij običajno samostojna in neodvisna od storitve za dostop do vsebin. 2.3 Kako zajemati podatke? Da lahko dosežemo neinvaziven zajem podatkov, moramo podatke zbirati preko komunikacijskih naprav in storitev, ki se uporabljajo v realnem okolju. Do- datne funkcionalnosti, ki so potrebne za zajem podatkov, morajo biti enostavne, uporabniku prijazne in predvsem za uporabnika čim bolj nevidne. Idealna rešitev je avtonomni proces zajema podatkov, katerega poteka se uporabnik niti ne zaveda. Če se želimo čimbolj približati idealni rešitvi, moramo aplikacijo za zajem podatkov vgraditi v napravo, s katero uporabnik dostopa do vsebin, na tak način, da le-ta ne moti uporabnika in mu omogoča, da napravo uporablja tako, kot je navajen. Uporabnikovi vedenjski vzorci se ne smejo spremeniti tudi v situaciji, ko v sistem vnaša kontekstualne informacije v drugačni socialni situaciji (ko je na primer pri prijatelju ali z družino). 2.4 Katere dodatne informacije potrebujemo, če želimo, da bo podatkovna baza koristna za raziskave? Če želimo podatkovno bazo uporabiti za raziskave na področju kontekstualne personalizacije, potrebujemo podatke o uporabnikih, vsebinah in kontekstu. Če želimo podatke tudi statistično ovrednotiti, potrebujemo še splošne podatke o uporabnikih (spol, starost) ter po- datke o uporabnikovih vedenjskih vzorcih pri dostopanju do vsebin (pogostost uporabe....). Vsebine je potrebno opremiti z metapodatki ali pa vsaj vgraditi mehanizem, ki bi kasneje omogočal dostop do metapodatkov, kot so naslov filma, žanr, igralci itd. Primer filmskih metapo- datkov se nahaja na spletni strani IMDB [5]. 2.5 Kateri načrti poskusov naj bodo podprti? Večina postopkov, s katerimi lahko natančno ocen- imo uspešnost in natančnost personalizacijskih postop- kov, temelji na statističnih metodah. Primeri pred- stavitve testnih rezultatov so matrika razvrščanja, ROC krivulja, metoda za primerjavo učinkov in statistično testiranje hipotez. Če želimo te metode uporabiti za vrednotenje sistema, je potrebno poskus pravilno zas- novati. Predvsem mora biti poskus zasnovan tako, da ga lahko izvedemo na izbrani podatkovni bazi. Zasnova je 272 ANDREJ KOŠIR, ANTE ODIĆ, MATEVŽ KUNAVER, MARKO TKALČIČ odvisna predvsem od zajetih spremenljivk ter njihovih lastnosti. Vsako izmed spremenljivk lahko uvrstimo med kategorične, ordinalne ali numerične spremenljivke. Tipi spremenljivk nas omejujejo pri izbiri metod vrednotenja. Pomembna je tudi velikost podatkovne baze. Z uporabo apriori analize moči testov [6] lahko za vsako zasnovo poskusa ugotovimo, koliko podatkov je potrebnih za načrtovano interpretacijo rezultatov. Število potrebnih podatkov se lahko nanaša na število uporabnikov, vse- bin, ocen ali polnost podatkovne baze (število ocen na vsebino). Nadaljnje podrobnosti o zasnovi poskusa so odvisne od problema, ki ga želi raziskava analizirati. Očitno je, da ni možno vedno zadostiti vsem zahtevam. Zato je toliko bolj pomembno, da nam podatkovne baze, ki so na voljo, omogočijo, da vnaprej preverimo, če je določena zahteva izpolnjena ali ne. 3 KONTEKSTUALNA PODATKOVNA BAZA (LDOS-COMODA ) V tem poglavju bomo podrobneje opisali LDOS- CoMoDa podatkovno množico. Na kratko bomo opisali postopek zajema podatkov, kateri podatki so nam na voljo ter njihove lastnosti. Opisali bomo tudi statistične lastnosti podatkov z namenom, da omogočimo čim lažjo uporabo podatkovne baze. Vsebine v naši podatkovni bazi so filmi, naprava za dostop do vsebin pa je osebni računalnik, na katerem se nahaja tudi spletna aplikacija za zajem kontekstualnih informacij. Podrobnejši podatki so na voljo v naslednjih podpoglavjih. 3.1 Uporabniki, vsebine, kontekstualne informacije ter metapodatki LDOS-CoMoDa podatkovna baza je bila zasnovana tako, da bi čim bolj zadostila zahtevam, ki smo jih opisali v prejšnjem poglavju. Vsebuje 30 spremenljivk izmed katerih jih je 12 kontekstualne narave. Ostale spremenljivke vsebujejo splošne podatke o uporabniku (starost, spol, mesto, država) ali pa metapodatke o filmskih vsebinah (direktor, država izvora, jezik, leto izdaje, žanr1, žanr2, žanr3, igralec1, igralec2, igralec3, proračun). Ker so kontekstualne spremenljivke za nas še posebej pomembne, jih podrobneje opisujemo v tabeli 1. Vse kontekstualne spremenljivke so kategoričnega ali nu- meričnega tipa. Nekatere so kategorične že zaradi same narave svojih vrednosti (npr. vreme), ostalim pa je bil tip izbran med zasnovo podatkovne baze. To je bilo potrebno določiti na samem začetku, da bi omejili število razredov, s katerimi bo sistem operiral med procesom zajema podatkov ter da bi s primerno izbiro tipov tudi lahko poenostavili analizo podatkov v procesu reševanja problemov s področja kontekstualne personalizacije. Osnove statistike LDOS-CoMoDa podatkovne baze v trenutku oddaje prispevka (15.12.2011) so podane v tabeli 2. Ime spremen. |Rg| MVR Opis time 4 0.017 jutro, popoldne, večer, noč daytype 3 0.015 delovni dan, vikend, počitnice season 4 0.017 pomlad, poletje, jesen, zima location 3 0.016 doma, javni prostor, pri prijateljih weather 5 0.021 sončno / jasno, deževno, nevihtno, snežno, oblačno social 7 0.013 sam, partner, prijatelji, sodelavci, starši, javnost, družina endEmo 7 0 žalosten, vesel, prestrašen, presenečeni, jezni, zgrožen, nevtralen dominantEmo 7 0 žalosten, vesel, prestrašen, presenečeni, jezni, zgrožen, nevtralen mood 3 0 pozitivno, nevtralno, negativno physical 2 0.022 zdrav, bolan decision 2 0.021 lastna izbira, izbira drugih interaction 2 0.020 prvič, že večkrat Tabela 1: Kontekstualne spremenljivke in njihove osnovne lastnosti, imena navajamo v originalni obliki. |Rg| predstavlja število ordinalnih ali kategoričnih razredov posamezne spre- menljivke, MVR pa delež manjkajočih vrednosti Tabela 2: Osnovni podatki podatkovne baze število uporabnikov 95 število vsebin 961 število ocen 1665 povprečna starost 27.0 število držav 6 število mest 18 največ ocen podanih s strani enega uporabnika 220 najmanj ocen podanih s strani enega uporabnika 1 Ko pričakujemo posplošitev rezultatov statističnih postopkov na populacijo, je pomembna reprezentativnost analiziranega vzorca. Znano je, da je starost uporabnika zelo pomemben parameter v procesu napovedovanja njegovega vedenja in njegove uporabe modernih komu- nikacijskih naprav. Histogram starosti uporabnikov je podan na sliki 1. Distribucija uporabnikov in ocen je prikazana na slikah 2 in 3. Polnost podatkovne baze je prikazana na sliki 4. Svetlost posameznih točk je odvisna od števila ocen, do- deljenih izbranemu podsklopu vsebin (en stolpec za vsak podsklop vsebin) s strani vsakega posameznega uporab- nika (vsak uporabnik je predstavljen s svojo vrstico). Iz analize je razvidna visoka raznolikost med uporabniki in vsebinami. Ker so se uporabniške identifikacijske številke generirale zaporedno, lahko opazimo, da so uporabniki, ki so z ocenjevanjem vsebin začeli kasneje v podatkovno bazo prispevali manj ocen, kot tisti, ki so TEST SET FOR CONTEXTUAL PERSONALIZATION 273 sodelovali od samega začetka zajema podatkov. 10 20 30 40 50 60 70 0 5 10 15 Histogram starosti Starost Slika 1: Histogram starosti uporabnikov. Večina se jih nahaja med 18 in 35 letom, kar reprezentativnost baze omejuje na ta starostni interval. 0 200 400 600 800 1000 0 5 10 15 20 25 Ocene na vsebino Id vsebine Slika 2: Število ocen na vsebino. Večino vsebin je prejelo 2 do 3 ocene. 3.2 Zajem podatkov Proces zajemanja kontekstualnih informacij o uporab- niku je zelo občutljiv na kontekstualne motnje. Zato je pravilna interpretacija zajetih podatkov težaven in kompleksen proces. Kot smo prikazali v poglavju 2, lahko že sam proces zajema podatkov moti uporabnika in tako spremeni zajete kontekstualne informacije. Podatke v podatkovni bazi smo zajemali s pomočjo posebej za ta namen zasnovane uporabniku prijazne spletne aplikacije. Pri tem se je pomembno zavedati, da smo uporabnikom naročili, da vnesejo ocene in kon- tekstualne informacije takoj zatem, ko so dostopali do vsebin (filmov). Tako vnesene kontekstualne informacije so veliko bolj natančne kot tiste, ki jih uporabnik vnaša po spominu za vsebino, do katere je dostopal pred nekaj dnevi ali meseci. Uporabnike smo dodatno motivirali s tem, da smo jim pojasnili, da z vnosom ocen poma- gajo pri razvoju novih postopkov in si izboljšujejo svoj 0 20 40 60 80 100 0 50 100 150 200 250 Ocene na uporabnika Id uporabnika Slika 3: Število ocen na uporabnika. Med uporabniki opaz- imo velike razlike glede števila podanih ocen, kjer je veliko število uporabnikov podalo manj kot 10 ocen, medtem ko je skupina uporabnikov s 50 in več podanimi ocenami prav tako sorazmerno velika. Vsebine U p o ra b n ik i 20 40 60 80 10 20 30 40 50 60 70 80 90 Gostota testne množice Slika 4: Gostota testne množice. Svetlost točk je premoso- razmerna s številom podanih ocen. uporabniški model [4]. Poleg zajema podatkov spletna aplikacija nudi tudi sledenje ogledanih filmov, iskalnik po nekaterih kontekstualnih podatkih (čas dneva, so- cialni status...) ter skupinski priporočilni sistem. Slika 5 prikazuje rast števila uporabnikov s časom. Opazimo, da hitrosti rasti s časom upadajo, kar je pričakovano, lahko pa zaznamo določene hitrejše lokalne porasti števila uporabnikov. Spletna aplikacija še vedno deluje in je na voljo na http://212.235.187.145/ spletnastran/raziskave/um/emotions/login.php. 3.3 Dostop do LDOS-CoMoDa podatkovne baze Raziskovalci, zainteresirani za uporabo podatkovne baze LDOS-CoMoDa , bodo na zahtevo po elektron- 274 ANDREJ KOŠIR, ANTE ODIĆ, MATEVŽ KUNAVER, MARKO TKALČIČ 0 50 100 150 200 250 300 350 0 500 1000 1500 Ocene po uporabnikih Čas ocene vsebine uporabniki Slika 5: Potek zajema testnih podatkov v času. ski pošti prejeli z geslom zaščiteno povezavo, potem ko bodo vzpostavili kontakt preko spletne pošte na naslovu ldos-comoda@ldos.si. Poleg podatkovne baze bo raziskovalcem posredovana tudi posodobljena verzija osnovnih podatkov o bazi ter navodila za dostop do podatkov. 4 ZAKLJUČEK Z več kot 90 uporabniki, 900 vsebinami ter 1600 ocenami nudi LDOS-CoMoDa podatkovna baza okolje, primerno za raziskave več odprtih problemov na po- dročju kontekstualne personalizacije [7], [8], [9]. Na- jpomembnejši del podatkovne baze so kontekstualne spremenljivke, ki opisujejo uporabnikova čustva itd, in nudijo dokaj natančen opis uporabnikovega dejanskega konteksta med dostopanjem do vsebine. Podatkovna baza je javno dostopna na podlagi predhodne zahteve preko elektronske pošte. Glavna prednost naše podatkovne baze je v tem, da vsebuje kontekstualne informacije iz faze uporab- nikovega dostopa do vsebin, za katere mislimo, da so na- jbolj natančne. Vsebuje 12 tipov potencialno kontekstu- alnih informacij. Na podlagi apriori analize moči testov smo ugotovili, da je velikost in polnost podatkovne baze zadostna, da jo lahko uporabimo v raziskavah na področju več odprtih problemov kontekstualne person- alizacije. Kljub vsemu pa ima podatkovna množica tudi nekaj slabosti, kar je hkrati tudi razlog, da je proces za- jema kontekstualnih informacij še vedno aktiven. Apriori analiza statistične moči testov [6] je pokazala, da je ob tipični velikosti učinka (ang. effect size) potrebno število uporabnikov okoli 1400. Naša podatkovna baza ta prag preseže, vendar je pri določenih uporabniških poskusih bazo potrebno razdeliti na podskupine, ki pa praga ne presežejo več. Zato bo potrebno zagotoviti še več uporabnikov in njihovih ocen ter tako izboljšati velikost in polnost podakovne baze. REFERENCES [1] A. Dey, G. Abowd, Towards a better understanding of context and context-awareness, Proceedings of the 1st international sym- posium on Handheld and Ubiquitous Computing (1999) 304–307. [2] L. Baltrunas, B. Ludwig, S. Peer, F. Ricci, Context relevance assessment and exploitation in mobile recommender systems, Per- sonal and Ubiquitous Computing (2011) 1–20doi:10.1007/s00779- 011-0417-x. [3] F. Dı́ez, J. E. Chavarriaga, P. G. Campos, A. Bellogı́n, Movie Recommendations based in explicit and implicit features extracted from the Filmtipset dataset, in: Proceedings of the Workshop on Context-Aware Movie Recommendation, 2010, pp. 45—-52. [4] J. Herlocker, J. Konstan, L. Terveen, J. Riedl, Evaluating collabo- rative filtering recommender systems, ACM Transactions on Infor- mation Systems 22 (1) (2004) 5–53. doi:/10.1145/963770.963772. [5] The internet movie database (imdb) @ONLINE (Dec. 2011). URL http://www.imdb.com/ [6] J. Cohen, Statistical Power Analysis for the Behavioral Sciences, Lawrence Erlbaum, 1988. [7] A. Odić, M. Kunaver, J. Tasič, A. Košir, Open issues with contextual information in existing recommender system databases, in: ERK 2010 Proceedings, 2010. [8] G. Adomavicius, R. Sankaranarayanan, S. Sen, A. Tuzhilin, In- corporating contextual information in recommender systems using a multidimensional approach, ACM Transactions on Information Systems (TOIS) 23 (1) (2005) 103–145. [9] Z. Yujie, W. Licai, Some Challenges for Context-aware Recom- mender Systems, in: Computer Science and Education (ICCSE), 2010 5th International Conference on, 2010, pp. 362–365. Andrej Košir je izredni profesor na Fakulteti za elektrotehniko Univerze v Ljubljani. Njegov raziskovalni interes vključuje operacijske raziskave v telekomunikacijah, uporabniško modeliranje in procesir- anje socialnih signalov. Ante Odić je mladi raziskovalec na Fakulteti za elektrotehniko Univerze v Ljubljani. V okviru doktorskega študija raziskuje uporabo kontekstualnih informacij v personaliziraih storitvah. Matevž Kunaver je raziskovalec in asistent na Fakulteti za elek- trotehniko Univerze v Ljubljani. Njegove raziskave vključujejo skupinske in hibridne priporočilne sisteme za različne aplikacije v telekomunikacijah. Marko Tkalčič je raziskovalec na Fakulteti za elektrotehniko Univerze v Ljubljani. Njegov raziskovalni interes vključuje uporabo emotivnih in osebnostnih parametrov pri modeliranju uporabnikov in vsebin v telekomunikacijskih aplikacijah. Jurij F. Tasič je redni profesor na Fakulteti za elektrotehniko Uni- verze v Ljubljani. Raziskovalni interes obsega napredne algoritme v komunikacijskih sistemih, obdelavo večdimenzionalnih signalov in vzporedne algoritme.