200 likes | 432 Views
SVEUČILIŠTE U ZAGREBU FAKULTET ELEKTROTEHNIKE I RAČUNARSTVA. Konferencija „Strojno učenje 2010”. Automatsko predviđanje ocjena filmova metodama strojnog učenja. Mladen Marović, Marko Mihoković, Mladen Mikša, Siniša Pribil, Alan Tus. Uvod Srodni radovi Metode Sadržajne Suradničke
E N D
SVEUČILIŠTE U ZAGREBUFAKULTET ELEKTROTEHNIKE I RAČUNARSTVA Konferencija „Strojno učenje 2010” Automatsko predviđanje ocjena filmova metodama strojnog učenja Mladen Marović, Marko Mihoković, Mladen Mikša, Siniša Pribil, Alan Tus
Uvod • Srodni radovi • Metode • Sadržajne • Suradničke • Hibridne • Mjere i skupovi • Rezultati • Zaključak Sadržaj Sadržaj
Brojne usluge – ocjenjivanje predmeta • Predviđanje nepoznatih ocjena iskoristivo u praktične svrhe: • Internet prodaja – kupcu prikazani proizvodi koje bi mogao kupiti • Javne baze podataka – prikazuju se podaci zanimljivi korisniku radi olakšavanja pretrage • Sustavi za automatsko predviđanje ocjena • Korišteni u brojnim poznatim uslugama • Primjenjivi na različite vrste predmeta Uvod Uvod
Metode temeljene na sadržaju • Li i Yamada (2005) – stablo odluke • Pazzani i Billsus (1997) – neuronska mreža • Suradničke metode • Resnick et al. (1994) – k najbližih susjeda • Pennock et al. (2000) – dijagnoza osobnosti • Hofmann (2003) – latentne varijable • Hibridne metode • Spiegel et al. (2009) – SVD-kNN Predviđanje ocjene filma Srodni radovi
Skup svih korisnika U Skup svih filmova I Skup svih ocjena R Procijeniti funkciju: g: U × I→R Metode za predviđanje ocjena Metode
Metoda temeljena na sadržaju • Značajke: • žanrovi, glumci, redatelji i scenaristi • organizirane u binarni vektor • Kriterij – minimizacija kvadratne pogreške Regresijsko stablo Metode - sadržajne
Metoda temeljena na sadržaju • Unaprijedna višeslojna neuronska mreža • skriveni sloj – sigmoidalne jedinice • izlazni sloj – linearne jedinice • Značajke: žanrovi, glumci i redatelji • Levenberg-Maquardtova modifikacija povratnog rasprostiranja pogreške (Hagan i Menhaj, 2002) Umjetna neuronska mreža Metode - sadržajne
Suradnička metoda, ocjenu računa na temelju ocjena k najsličnijih korisnika • Sličnost među korisnicima: • Pearsonov koeficijent korelacije • Kosinus kuta u vektorskom prostoru • Ocjena se predviđa prema izrazu: K najbližih susjeda Metode - suradničke
Modelira osobnost korisnika Gaussov šum u ocjenama korisnika: Reprezentativna distribucija tipova osobnosti Samo jedan parametar – devijacija σ Dijagnoza osobnosti Metode - suradničke
Modeliraju uzrok ocjene Grupiranje korisnika Normalna razdioba Normalizacija ocjena Maksimizacija očekivanja Latentne varijable Metode - suradničke
SVD-kNN Metode - hibridne
Skupovi • podatci prikupljeni sa stranice IMDb • naziv, žanr, godina, redatelji, scenaristi i glumci • metoda SviOsimJednog (Hofmann, 2003) • Mjere • prosječna apsolutna devijacija (AAD) • korijen srednje kvadratne pogreške Mjere i skupovi Mjere i skupovi
Rezultati Rezultati
Metode temeljene na sadržaju • problem malog broj primjera i rijetke distribucije značajki • Suradničke metode • bolji rezultati • optimalna formula: • Hibridna metoda • osrednja uspješnost Rezultati - komentar Rezultati
Proučavan problem Usporedba nekoliko metoda Najbolja metoda s jednostavnim izrazom Ispitati na reprezentativnijem skupu podataka Isprobati druge metode Kombiniranje klasifikatora Zaključak Zaključak
Pearsonov koeficijent korelacije: Kosinus kuta u vektorskom prostoru: K najbližih susjeda – računanje sličnosti Dodatak
SVD-kNN - formule • SVD – poopćenje svojstvenih vrijednosti i vektora • dva različita koncepta pogodna za suradničke metode • predviđanje Dodatak
Pripadnost tipu osobnosti Vjerojatnost ocjene Dijagnoza osobnosti – formule Dodatak
E-korak M-korak Latentne varijable – EM koraci Dodatak