300 likes | 502 Views
Bayesovo učenje (Bayesian Learning). Petar Djerasimović. Sadržaj prezentacije. Bayesov teorem Učenje koncepata Brute-Force algoritmom ML i metode kvadratne pogreške MDL (Minimum Description Length) Principle Bayes Optimal Classifier Naive Bayes Classifier Bayesian Belief Networks.
E N D
Bayesovo učenje(Bayesian Learning) Petar Djerasimović
Sadržaj prezentacije • Bayesov teorem • Učenje koncepata Brute-Force algoritmom • ML i metode kvadratne pogreške • MDL (Minimum Description Length) Principle • Bayes Optimal Classifier • Naive Bayes Classifier • Bayesian Belief Networks
Dva razloga za Bayesov pristup: Algoritmi bazirani na računju eksplicitnih vjerojatnosti hipoteza su najpraktičniji u primjeni za rješavanje nekih problema Bayesove metode omogučavaju razumijevanje i usporedbu mnogih algoritama koji ne rade direktno s vjerojatnostima hipoteza
Bayesov Teorem Uz oznake: P(h) – a priori vjerojatnost da hipoteza h drži (tj da je upravo hipoteza h ciljni koncept) P(D) – vjerojatnost opažanja primjera D P(D|h) – vjerojatnost opažanja primjera D ako je ispunjena hipoteza h P(h|D) – a posteriori vjerojatnost da hipoteza h drži
Brute Force Bayes Learning Osnovna shema zaključivanja: učenik promatra skup H mogućih hipoteza i traži najvjerojatniju (ili skup najvjerojatnijih) uz dani skup primjera D Takve se hipoteze nazivaju MAP (maximum a posteriori) hipoteze Zahtjevi za računalnim resursima su očit nedostatak za praktičnu primjenu
Koje vrijednosti koristiti? • Pretpostavke: • Primjeri za učenje D ne sadrže šum • Ciljni koncept je sadržan u prostoru hipoteza H • Sve su hipoteze jednako vjerojatne • P(h) = 1/|H| za svaki h iz H • - zbog (3) i jer im suma mora biti jednaka jedinici • P(D|h) = 1 za di=h(xi) za sve di u D • 0 inače • - zbog (1) • P(D) = 1/|VSH,D| ako je h konzistentna sa D • 0 inače
A posteriori vjerojatnost je dakle P(h|D) = 1/|VSH,D| ako je h konzistentna s D 0 inače Gore korištena vrijednost za P(D) dobiva se iz teorema totalne vjerojatnosti i pretpostavke da su hipoteze međusobno isključive:
Hipoteze konzistentne s primjerima za učenje: 0<Pi<1, Pi=Pj nekonzistentne: Pi=0 Algoritam uz gornje pretpostavke na P(h) i P(D|h) daje kao rezultat prostor inačica VSH,D –isti rezultat kao i CE algoritam za učenje koncepata Uz pretpostavku distribucije koja favorizira specifičnije hipoteze nad općenitijima (tj p(hi)>p(hj) za hi<hj), algoritam daje najspecifičniju hipotezu konzistentnu s primjerima za učenje – isto kao i FS algoritam Bayesovim algoritmom može se opisati rad algoritama za učenje, a odabirom P(h) i P(D|h) mogu se opisati pretpostavke o traženom konceptu koje ti algoritmi implicitno sadrže
ML i metode kvadratne pogreške ML (maximum likelihood) je hipoteza za koju vrijedi: hML = argmaxheH p(D|h) D=(d1,...,dm) gdje je di=f(xi)+ei – niz ciljnih vrijednosti primjera za učenje, uz greške ei koje su Normalno distribuirane uz varijancu s2 i srednju vrijednost 0 Pretpostavka: primjeri su uz danu h međusobno neovisni, pa je p(D|h)=p(d1|h)*...*p(dm|h) Dakle hML = argmax Pip(di|h)
Šum – varijanca =s2, srednja =0 di – varijanca =s2, srednja =f(xi) p(di|h) – Normalna distribucija uz s2, m=f(xi¸)=h(xi)
hML je upravo ona hipoteza koja minimizira sumu kvadrata pogrešaka ciljnih vrijednosti di u odnosu na vrijednosti koje daje sama hipoteza Vrijedi uz pretpostavke postavljene na vrijednosti di: da su generirane uz dodavanje slučajnog iznosa šuma na ciljnu vrijednost Vidljivo je da kvadratna vrijednost pogreške slijedi direktno iz izraza za Normalnu razdiobu - za druge razdiobe dobivaju se na sličan način druge vrijednosti grešaka za minimizaciju
Može se tumačiti kao preferiranje kraćih hipoteza (uz određene uvijete), slično Occamovoj britvi Naime u problemu odabira optimalnog koda za slanje slučajno odabranih poruka s vjerojatnostima pi su Shannon i Weaver 1949. pokazali da takav kod opisuje svaku poruku sa log2pi bitova, pa se izrazi u gornjoj jednadžbi mogu interpretirati kao: log2P(h) je duljina od h uz optimalno kodiranje prostora H log2P(D|h) je duljina podataka za učenje D uz hipotezu h (optimalno kodiranje ako i pošiljatelj i primatelj znaju h)
MDL princip glasi: • Bira se ona hipoteza hMDL za koju je ispunjeno: • hMDL=argminLC1(h)+LC2(D|h) • LC(i) - broj bitova potrebnih za kodiranje poruke i korištenjem koda C • očito je potrebno prvo izabrati kodove C1 i C2 • hMDL = hMAP ako se izaberu C1 i C2 takvi da optimalno kodiraju h i D uz poznati h, respektivno
Ovime naravno nije dokazana prirodna ispravnost ideje Occamove britve (što je filozofsko pitanje - iliti neće ni biti odgovora), već samo: ako se izabere prezentacija hipoteza H, tako da duljina hipoteze h iznosi –log2P(h) i ako se izabere prezentacija ciljnih vrijednosti D uz poznat h tako da je duljina od d –log2P(D|h), tada MDL princip daje MAP hipotezu
Bayes Optimal Classifier Dosadašnji pristup – pronaći najvjerojatniju hipotezu uz dane primjere Bolje od toga – pronaći najbolju klasifikaciju novog objekta uzevši u obzir primjere za učenje primjer: Prostor H sadrži 3 hipoteze: h1, h2 i h3 s aposteriornim vjerojatnostima .4, .3, .3. Novi primjer x negativno je klasificiran od hipoteze h1, a pozitivno od h2 i h3.
Prema dosadašnjim razmatranjima – MAP hipoteza klasificira primjer kao negativan Uzevši sve hipoteze u obzir: ne - 0.4; da - 0.6 Općenito ako novi primjer poprima neku vrijednost vj iz skupa vrijednosti V, najvjerojatnija klasifikacija je: P(vj|D) = SP(vj|hi)P(hi|D) Kombiniraju se sve hipoteze, utežene svojim a posteriori vjerojatnostima
Bayes Optimal Classifier: argmaxvjeVShieHP(vj|hi)P(hi|D) Nijedna druga metoda klasifikacije ne može nadmašiti Bayesov optimalni klasifikator uz isti prostor hipoteza i prethodno (a priori) znanje Svojstvo BOC-a je da klasifikacije koje dodjeljuje na cjelovitom skupu X ne mora odgovarati niti jednoj hipotezi iz H, tj BOC de facto promatra prostor H’ koji sadrži linearne kombinacije hipoteza iz H
Gibbs Algorithm Računska cijena BOC-a je ekstremno visoka (računaju se aposteriori vjerojatnosti za sve h iz H) Manje zahtjevna alternativa je Gibbsov algoritam: • Biraj h iz H slučajno, ravnajući se po distribuciji a posteriori vjerojatnosti • Koristi h za predviđanje slijedećeg primjera x Uz neke uvjete na pretpostavljenu i stvarnu distribuciju vjerojatnosti, pokazuje se da je greška ovakvog algoritma najviše dva puta veća nego BOC-a
Naive Bayes Classifier Vrlo praktičan i efikasan algoritam (u nekim primjenama usporediv s NN) Koristi se u primjenama gdje su primjeri opisani konjunkcijom vrijednosti atributa, a ciljna funkcija poprima vrijednosti iz konačnog skupa
Bayesovom pristup će novom primjeru dodijeliti najvjerojatniju ciljnu vrijednost na temelju niza (a1,...an) atributa promatranog primjera: vMAP=argmaxvjeVP(vj|a1,...an) Sto je ekvivalentno (po Bayesovoj formuli): vMAP=P(a1,...an|vj)P(vj) P(vj) – lako procijeniti pebrajanjem kroz primjere P(a1,...an|vj) teško procijniti osim za jako velik skup za učenje (velik broj mogućih vrijednosti)
NBC pretpostavlja da su vrijednosti atributa i međusobno neovisne, uz danu ciljnu vrijednost primjera, odnosno vrijedi pravilo množenja: P(a1,a2,...,an|vj)=PiP(ai|vj) Pa je Naive Bayes Clasifier: vNB= argmaxvjeVP(vj)PiP(ai|vj)
Ukupan broj izraza P(ai|vj) koji se mora procijeniti na temelju skupa za učenje je broj različitih vrijednosti atributa množen s brojem različitih ciljnih vrijednosti Ako je pretpostavka o međusobnoj neovisnosti vrijednosti atributa ispunjena, NBC daje MAP hipotezu NBC ne pretražuje prostor mogućih hipoteza (za razliku od dosadašnjih algoritama), veš samo procjenjuje vrijednosti na temelju frekvencija u skupu za učenje
Bayesian Belief Networks • Uzima u obzir postojanje nekih međuovisnosti među podskupovima varijabli (atributa) • Međurješenje između NBC-a koji sve varijable tretira međusobno uvjetno neovisnima i općenitog slučaja BOC-a Definicija Varijabla X je uvjetno neovisna od Y uz datu Z ako vrijedi (čćxi, yj, zk)P(X=xi|Y=yj,Z=Zk)=P(X=xi, Y=Yj)
Zaključivanje u BBN • Uz poznate vrijednosti ostalih čvorova (roditelja) trivijalno • Za zaključivanje vjerojatnosne raspodjele ciljne varijable uz poznate samo neke čvorove: mnogo metoda predloženo i u istraživanju, uključujući egzaktne i aproksimativne (npr. Monte Carlo metode)
Gradient ascent training of BBF • Pretražuje prostor hipoteza koji je skup svih mogućih kombinacija vrijednosti u tablicama uvjetnih vjerojatnosti • Maksimizira se vjerojatnost P(D|h) dobivenih podataka D uz pretpostavljenu hipotezu h, što odgovara traženju ML hipoteze za vrijednosti u tablici
EM algoritam • Može se koristiti i za varijable čije vrijednosti nisu u potpunosti utvrđene, već im je poznata samo vjerojatnosna distribucija • Radi u ciklusima od dva koraka: procjena i maksimizacija • Radi s funkcijom Q(h’|h) :=E[lnp(Y|h’),X] koja se računa za svaku moguću hipotezu (korak 1) i potom bira ona hipoteza koja maksimira tu funkciju (korak 2)