1 / 30

Bayesovo učenje (Bayesian Learning)

Bayesovo učenje (Bayesian Learning). Petar Djerasimović. Sadržaj prezentacije. Bayesov teorem Učenje koncepata Brute-Force algoritmom ML i metode kvadratne pogreške MDL (Minimum Description Length) Principle Bayes Optimal Classifier Naive Bayes Classifier Bayesian Belief Networks.

yitro
Download Presentation

Bayesovo učenje (Bayesian Learning)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Bayesovo učenje(Bayesian Learning) Petar Djerasimović

  2. Sadržaj prezentacije • Bayesov teorem • Učenje koncepata Brute-Force algoritmom • ML i metode kvadratne pogreške • MDL (Minimum Description Length) Principle • Bayes Optimal Classifier • Naive Bayes Classifier • Bayesian Belief Networks

  3. Dva razloga za Bayesov pristup: Algoritmi bazirani na računju eksplicitnih vjerojatnosti hipoteza su najpraktičniji u primjeni za rješavanje nekih problema Bayesove metode omogučavaju razumijevanje i usporedbu mnogih algoritama koji ne rade direktno s vjerojatnostima hipoteza

  4. Bayesov Teorem Uz oznake: P(h) – a priori vjerojatnost da hipoteza h drži (tj da je upravo hipoteza h ciljni koncept) P(D) – vjerojatnost opažanja primjera D P(D|h) – vjerojatnost opažanja primjera D ako je ispunjena hipoteza h P(h|D) – a posteriori vjerojatnost da hipoteza h drži

  5. Brute Force Bayes Learning Osnovna shema zaključivanja: učenik promatra skup H mogućih hipoteza i traži najvjerojatniju (ili skup najvjerojatnijih) uz dani skup primjera D Takve se hipoteze nazivaju MAP (maximum a posteriori) hipoteze Zahtjevi za računalnim resursima su očit nedostatak za praktičnu primjenu

  6. Koje vrijednosti koristiti? • Pretpostavke: • Primjeri za učenje D ne sadrže šum • Ciljni koncept je sadržan u prostoru hipoteza H • Sve su hipoteze jednako vjerojatne • P(h) = 1/|H| za svaki h iz H • - zbog (3) i jer im suma mora biti jednaka jedinici • P(D|h) = 1 za di=h(xi) za sve di u D • 0 inače • - zbog (1) • P(D) = 1/|VSH,D| ako je h konzistentna sa D • 0 inače

  7. A posteriori vjerojatnost je dakle P(h|D) = 1/|VSH,D| ako je h konzistentna s D 0 inače Gore korištena vrijednost za P(D) dobiva se iz teorema totalne vjerojatnosti i pretpostavke da su hipoteze međusobno isključive:

  8. Hipoteze konzistentne s primjerima za učenje: 0<Pi<1, Pi=Pj nekonzistentne: Pi=0 Algoritam uz gornje pretpostavke na P(h) i P(D|h) daje kao rezultat prostor inačica VSH,D –isti rezultat kao i CE algoritam za učenje koncepata Uz pretpostavku distribucije koja favorizira specifičnije hipoteze nad općenitijima (tj p(hi)>p(hj) za hi<hj), algoritam daje najspecifičniju hipotezu konzistentnu s primjerima za učenje – isto kao i FS algoritam Bayesovim algoritmom može se opisati rad algoritama za učenje, a odabirom P(h) i P(D|h) mogu se opisati pretpostavke o traženom konceptu koje ti algoritmi implicitno sadrže

  9. ML i metode kvadratne pogreške ML (maximum likelihood) je hipoteza za koju vrijedi: hML = argmaxheH p(D|h) D=(d1,...,dm) gdje je di=f(xi)+ei – niz ciljnih vrijednosti primjera za učenje, uz greške ei koje su Normalno distribuirane uz varijancu s2 i srednju vrijednost 0 Pretpostavka: primjeri su uz danu h međusobno neovisni, pa je p(D|h)=p(d1|h)*...*p(dm|h) Dakle hML = argmax Pip(di|h)

  10. Šum – varijanca =s2, srednja =0  di – varijanca =s2, srednja =f(xi)  p(di|h) – Normalna distribucija uz s2, m=f(xi¸)=h(xi)

  11. hML je upravo ona hipoteza koja minimizira sumu kvadrata pogrešaka ciljnih vrijednosti di u odnosu na vrijednosti koje daje sama hipoteza Vrijedi uz pretpostavke postavljene na vrijednosti di: da su generirane uz dodavanje slučajnog iznosa šuma na ciljnu vrijednost Vidljivo je da kvadratna vrijednost pogreške slijedi direktno iz izraza za Normalnu razdiobu - za druge razdiobe dobivaju se na sličan način druge vrijednosti grešaka za minimizaciju

  12. Minimum Description Length Principle

  13. Može se tumačiti kao preferiranje kraćih hipoteza (uz određene uvijete), slično Occamovoj britvi Naime u problemu odabira optimalnog koda za slanje slučajno odabranih poruka s vjerojatnostima pi su Shannon i Weaver 1949. pokazali da takav kod opisuje svaku poruku sa log2pi bitova, pa se izrazi u gornjoj jednadžbi mogu interpretirati kao: log2P(h) je duljina od h uz optimalno kodiranje prostora H log2P(D|h) je duljina podataka za učenje D uz hipotezu h (optimalno kodiranje ako i pošiljatelj i primatelj znaju h)

  14. MDL princip glasi: • Bira se ona hipoteza hMDL za koju je ispunjeno: • hMDL=argminLC1(h)+LC2(D|h) • LC(i) - broj bitova potrebnih za kodiranje poruke i korištenjem koda C •  očito je potrebno prvo izabrati kodove C1 i C2 • hMDL = hMAP ako se izaberu C1 i C2 takvi da optimalno kodiraju h i D uz poznati h, respektivno

  15. Ovime naravno nije dokazana prirodna ispravnost ideje Occamove britve (što je filozofsko pitanje - iliti neće ni biti odgovora), već samo: ako se izabere prezentacija hipoteza H, tako da duljina hipoteze h iznosi –log2P(h) i ako se izabere prezentacija ciljnih vrijednosti D uz poznat h tako da je duljina od d –log2P(D|h), tada MDL princip daje MAP hipotezu

  16. Bayes Optimal Classifier Dosadašnji pristup – pronaći najvjerojatniju hipotezu uz dane primjere Bolje od toga – pronaći najbolju klasifikaciju novog objekta uzevši u obzir primjere za učenje primjer: Prostor H sadrži 3 hipoteze: h1, h2 i h3 s aposteriornim vjerojatnostima .4, .3, .3. Novi primjer x negativno je klasificiran od hipoteze h1, a pozitivno od h2 i h3.

  17. Prema dosadašnjim razmatranjima – MAP hipoteza klasificira primjer kao negativan Uzevši sve hipoteze u obzir: ne - 0.4; da - 0.6 Općenito ako novi primjer poprima neku vrijednost vj iz skupa vrijednosti V, najvjerojatnija klasifikacija je: P(vj|D) = SP(vj|hi)P(hi|D) Kombiniraju se sve hipoteze, utežene svojim a posteriori vjerojatnostima

  18. Bayes Optimal Classifier: argmaxvjeVShieHP(vj|hi)P(hi|D) Nijedna druga metoda klasifikacije ne može nadmašiti Bayesov optimalni klasifikator uz isti prostor hipoteza i prethodno (a priori) znanje Svojstvo BOC-a je da klasifikacije koje dodjeljuje na cjelovitom skupu X ne mora odgovarati niti jednoj hipotezi iz H, tj BOC de facto promatra prostor H’ koji sadrži linearne kombinacije hipoteza iz H

  19. Gibbs Algorithm Računska cijena BOC-a je ekstremno visoka (računaju se aposteriori vjerojatnosti za sve h iz H) Manje zahtjevna alternativa je Gibbsov algoritam: • Biraj h iz H slučajno, ravnajući se po distribuciji a posteriori vjerojatnosti • Koristi h za predviđanje slijedećeg primjera x Uz neke uvjete na pretpostavljenu i stvarnu distribuciju vjerojatnosti, pokazuje se da je greška ovakvog algoritma najviše dva puta veća nego BOC-a

  20. Naive Bayes Classifier Vrlo praktičan i efikasan algoritam (u nekim primjenama usporediv s NN) Koristi se u primjenama gdje su primjeri opisani konjunkcijom vrijednosti atributa, a ciljna funkcija poprima vrijednosti iz konačnog skupa

  21. Bayesovom pristup će novom primjeru dodijeliti najvjerojatniju ciljnu vrijednost na temelju niza (a1,...an) atributa promatranog primjera: vMAP=argmaxvjeVP(vj|a1,...an) Sto je ekvivalentno (po Bayesovoj formuli): vMAP=P(a1,...an|vj)P(vj) P(vj) – lako procijeniti pebrajanjem kroz primjere P(a1,...an|vj) teško procijniti osim za jako velik skup za učenje (velik broj mogućih vrijednosti)

  22. NBC pretpostavlja da su vrijednosti atributa i međusobno neovisne, uz danu ciljnu vrijednost primjera, odnosno vrijedi pravilo množenja: P(a1,a2,...,an|vj)=PiP(ai|vj) Pa je Naive Bayes Clasifier: vNB= argmaxvjeVP(vj)PiP(ai|vj)

  23. Ukupan broj izraza P(ai|vj) koji se mora procijeniti na temelju skupa za učenje je broj različitih vrijednosti atributa množen s brojem različitih ciljnih vrijednosti Ako je pretpostavka o međusobnoj neovisnosti vrijednosti atributa ispunjena, NBC daje MAP hipotezu NBC ne pretražuje prostor mogućih hipoteza (za razliku od dosadašnjih algoritama), veš samo procjenjuje vrijednosti na temelju frekvencija u skupu za učenje

  24. Bayesian Belief Networks • Uzima u obzir postojanje nekih međuovisnosti među podskupovima varijabli (atributa) • Međurješenje između NBC-a koji sve varijable tretira međusobno uvjetno neovisnima i općenitog slučaja BOC-a Definicija Varijabla X je uvjetno neovisna od Y uz datu Z ako vrijedi (čćxi, yj, zk)P(X=xi|Y=yj,Z=Zk)=P(X=xi, Y=Yj)

  25. Zaključivanje u BBN • Uz poznate vrijednosti ostalih čvorova (roditelja) trivijalno • Za zaključivanje vjerojatnosne raspodjele ciljne varijable uz poznate samo neke čvorove: mnogo metoda predloženo i u istraživanju, uključujući egzaktne i aproksimativne (npr. Monte Carlo metode)

  26. Gradient ascent training of BBF • Pretražuje prostor hipoteza koji je skup svih mogućih kombinacija vrijednosti u tablicama uvjetnih vjerojatnosti • Maksimizira se vjerojatnost P(D|h) dobivenih podataka D uz pretpostavljenu hipotezu h, što odgovara traženju ML hipoteze za vrijednosti u tablici

  27. EM algoritam • Može se koristiti i za varijable čije vrijednosti nisu u potpunosti utvrđene, već im je poznata samo vjerojatnosna distribucija • Radi u ciklusima od dva koraka: procjena i maksimizacija • Radi s funkcijom Q(h’|h) :=E[lnp(Y|h’),X] koja se računa za svaku moguću hipotezu (korak 1) i potom bira ona hipoteza koja maksimira tu funkciju (korak 2)

More Related