Bayesovo učenje (Bayesian Learning)

Bayesovo učenje(Bayesian Learning) Petar Djerasimović

Sadržaj prezentacije • Bayesov teorem • Učenje koncepata Brute-Force algoritmom • ML i metode kvadratne pogreške • MDL (Minimum Description Length) Principle • Bayes Optimal Classifier • Naive Bayes Classifier • Bayesian Belief Networks

Dva razloga za Bayesov pristup: Algoritmi bazirani na računju eksplicitnih vjerojatnosti hipoteza su najpraktičniji u primjeni za rješavanje nekih problema Bayesove metode omogučavaju razumijevanje i usporedbu mnogih algoritama koji ne rade direktno s vjerojatnostima hipoteza

Bayesov Teorem Uz oznake: P(h) – a priori vjerojatnost da hipoteza h drži (tj da je upravo hipoteza h ciljni koncept) P(D) – vjerojatnost opažanja primjera D P(D|h) – vjerojatnost opažanja primjera D ako je ispunjena hipoteza h P(h|D) – a posteriori vjerojatnost da hipoteza h drži

Brute Force Bayes Learning Osnovna shema zaključivanja: učenik promatra skup H mogućih hipoteza i traži najvjerojatniju (ili skup najvjerojatnijih) uz dani skup primjera D Takve se hipoteze nazivaju MAP (maximum a posteriori) hipoteze Zahtjevi za računalnim resursima su očit nedostatak za praktičnu primjenu

Koje vrijednosti koristiti? • Pretpostavke: • Primjeri za učenje D ne sadrže šum • Ciljni koncept je sadržan u prostoru hipoteza H • Sve su hipoteze jednako vjerojatne • P(h) = 1/|H| za svaki h iz H • - zbog (3) i jer im suma mora biti jednaka jedinici • P(D|h) = 1 za di=h(xi) za sve di u D • 0 inače • - zbog (1) • P(D) = 1/|VSH,D| ako je h konzistentna sa D • 0 inače

A posteriori vjerojatnost je dakle P(h|D) = 1/|VSH,D| ako je h konzistentna s D 0 inače Gore korištena vrijednost za P(D) dobiva se iz teorema totalne vjerojatnosti i pretpostavke da su hipoteze međusobno isključive:

Hipoteze konzistentne s primjerima za učenje: 0<Pi<1, Pi=Pj nekonzistentne: Pi=0 Algoritam uz gornje pretpostavke na P(h) i P(D|h) daje kao rezultat prostor inačica VSH,D –isti rezultat kao i CE algoritam za učenje koncepata Uz pretpostavku distribucije koja favorizira specifičnije hipoteze nad općenitijima (tj p(hi)>p(hj) za hi<hj), algoritam daje najspecifičniju hipotezu konzistentnu s primjerima za učenje – isto kao i FS algoritam Bayesovim algoritmom može se opisati rad algoritama za učenje, a odabirom P(h) i P(D|h) mogu se opisati pretpostavke o traženom konceptu koje ti algoritmi implicitno sadrže

ML i metode kvadratne pogreške ML (maximum likelihood) je hipoteza za koju vrijedi: hML = argmaxheH p(D|h) D=(d1,...,dm) gdje je di=f(xi)+ei – niz ciljnih vrijednosti primjera za učenje, uz greške ei koje su Normalno distribuirane uz varijancu s2 i srednju vrijednost 0 Pretpostavka: primjeri su uz danu h međusobno neovisni, pa je p(D|h)=p(d1|h)*...*p(dm|h) Dakle hML = argmax Pip(di|h)

Šum – varijanca =s2, srednja =0  di – varijanca =s2, srednja =f(xi)  p(di|h) – Normalna distribucija uz s2, m=f(xi¸)=h(xi)

hML je upravo ona hipoteza koja minimizira sumu kvadrata pogrešaka ciljnih vrijednosti di u odnosu na vrijednosti koje daje sama hipoteza Vrijedi uz pretpostavke postavljene na vrijednosti di: da su generirane uz dodavanje slučajnog iznosa šuma na ciljnu vrijednost Vidljivo je da kvadratna vrijednost pogreške slijedi direktno iz izraza za Normalnu razdiobu - za druge razdiobe dobivaju se na sličan način druge vrijednosti grešaka za minimizaciju

Minimum Description Length Principle

Može se tumačiti kao preferiranje kraćih hipoteza (uz određene uvijete), slično Occamovoj britvi Naime u problemu odabira optimalnog koda za slanje slučajno odabranih poruka s vjerojatnostima pi su Shannon i Weaver 1949. pokazali da takav kod opisuje svaku poruku sa log2pi bitova, pa se izrazi u gornjoj jednadžbi mogu interpretirati kao: log2P(h) je duljina od h uz optimalno kodiranje prostora H log2P(D|h) je duljina podataka za učenje D uz hipotezu h (optimalno kodiranje ako i pošiljatelj i primatelj znaju h)

MDL princip glasi: • Bira se ona hipoteza hMDL za koju je ispunjeno: • hMDL=argminLC1(h)+LC2(D|h) • LC(i) - broj bitova potrebnih za kodiranje poruke i korištenjem koda C •  očito je potrebno prvo izabrati kodove C1 i C2 • hMDL = hMAP ako se izaberu C1 i C2 takvi da optimalno kodiraju h i D uz poznati h, respektivno

Ovime naravno nije dokazana prirodna ispravnost ideje Occamove britve (što je filozofsko pitanje - iliti neće ni biti odgovora), već samo: ako se izabere prezentacija hipoteza H, tako da duljina hipoteze h iznosi –log2P(h) i ako se izabere prezentacija ciljnih vrijednosti D uz poznat h tako da je duljina od d –log2P(D|h), tada MDL princip daje MAP hipotezu

Bayes Optimal Classifier Dosadašnji pristup – pronaći najvjerojatniju hipotezu uz dane primjere Bolje od toga – pronaći najbolju klasifikaciju novog objekta uzevši u obzir primjere za učenje primjer: Prostor H sadrži 3 hipoteze: h1, h2 i h3 s aposteriornim vjerojatnostima .4, .3, .3. Novi primjer x negativno je klasificiran od hipoteze h1, a pozitivno od h2 i h3.

Prema dosadašnjim razmatranjima – MAP hipoteza klasificira primjer kao negativan Uzevši sve hipoteze u obzir: ne - 0.4; da - 0.6 Općenito ako novi primjer poprima neku vrijednost vj iz skupa vrijednosti V, najvjerojatnija klasifikacija je: P(vj|D) = SP(vj|hi)P(hi|D) Kombiniraju se sve hipoteze, utežene svojim a posteriori vjerojatnostima

Bayes Optimal Classifier: argmaxvjeVShieHP(vj|hi)P(hi|D) Nijedna druga metoda klasifikacije ne može nadmašiti Bayesov optimalni klasifikator uz isti prostor hipoteza i prethodno (a priori) znanje Svojstvo BOC-a je da klasifikacije koje dodjeljuje na cjelovitom skupu X ne mora odgovarati niti jednoj hipotezi iz H, tj BOC de facto promatra prostor H’ koji sadrži linearne kombinacije hipoteza iz H

Gibbs Algorithm Računska cijena BOC-a je ekstremno visoka (računaju se aposteriori vjerojatnosti za sve h iz H) Manje zahtjevna alternativa je Gibbsov algoritam: • Biraj h iz H slučajno, ravnajući se po distribuciji a posteriori vjerojatnosti • Koristi h za predviđanje slijedećeg primjera x Uz neke uvjete na pretpostavljenu i stvarnu distribuciju vjerojatnosti, pokazuje se da je greška ovakvog algoritma najviše dva puta veća nego BOC-a

Naive Bayes Classifier Vrlo praktičan i efikasan algoritam (u nekim primjenama usporediv s NN) Koristi se u primjenama gdje su primjeri opisani konjunkcijom vrijednosti atributa, a ciljna funkcija poprima vrijednosti iz konačnog skupa

Bayesovom pristup će novom primjeru dodijeliti najvjerojatniju ciljnu vrijednost na temelju niza (a1,...an) atributa promatranog primjera: vMAP=argmaxvjeVP(vj|a1,...an) Sto je ekvivalentno (po Bayesovoj formuli): vMAP=P(a1,...an|vj)P(vj) P(vj) – lako procijeniti pebrajanjem kroz primjere P(a1,...an|vj) teško procijniti osim za jako velik skup za učenje (velik broj mogućih vrijednosti)

NBC pretpostavlja da su vrijednosti atributa i međusobno neovisne, uz danu ciljnu vrijednost primjera, odnosno vrijedi pravilo množenja: P(a1,a2,...,an|vj)=PiP(ai|vj) Pa je Naive Bayes Clasifier: vNB= argmaxvjeVP(vj)PiP(ai|vj)

Ukupan broj izraza P(ai|vj) koji se mora procijeniti na temelju skupa za učenje je broj različitih vrijednosti atributa množen s brojem različitih ciljnih vrijednosti Ako je pretpostavka o međusobnoj neovisnosti vrijednosti atributa ispunjena, NBC daje MAP hipotezu NBC ne pretražuje prostor mogućih hipoteza (za razliku od dosadašnjih algoritama), veš samo procjenjuje vrijednosti na temelju frekvencija u skupu za učenje

Bayesian Belief Networks • Uzima u obzir postojanje nekih međuovisnosti među podskupovima varijabli (atributa) • Međurješenje između NBC-a koji sve varijable tretira međusobno uvjetno neovisnima i općenitog slučaja BOC-a Definicija Varijabla X je uvjetno neovisna od Y uz datu Z ako vrijedi (čćxi, yj, zk)P(X=xi|Y=yj,Z=Zk)=P(X=xi, Y=Yj)

Zaključivanje u BBN • Uz poznate vrijednosti ostalih čvorova (roditelja) trivijalno • Za zaključivanje vjerojatnosne raspodjele ciljne varijable uz poznate samo neke čvorove: mnogo metoda predloženo i u istraživanju, uključujući egzaktne i aproksimativne (npr. Monte Carlo metode)

Gradient ascent training of BBF • Pretražuje prostor hipoteza koji je skup svih mogućih kombinacija vrijednosti u tablicama uvjetnih vjerojatnosti • Maksimizira se vjerojatnost P(D|h) dobivenih podataka D uz pretpostavljenu hipotezu h, što odgovara traženju ML hipoteze za vrijednosti u tablici

EM algoritam • Može se koristiti i za varijable čije vrijednosti nisu u potpunosti utvrđene, već im je poznata samo vjerojatnosna distribucija • Radi u ciklusima od dva koraka: procjena i maksimizacija • Radi s funkcijom Q(h’|h) :=E[lnp(Y|h’),X] koja se računa za svaku moguću hipotezu (korak 1) i potom bira ona hipoteza koja maksimira tu funkciju (korak 2)

Bayesovo učenje (Bayesian Learning)

Bayesovo učenje (Bayesian Learning)

Presentation Transcript

PRAĆENJE, ISPITIVANJE I OCJENJIVANJE UČENIKA

Bayesian models of inductive learning

Bayesian Perception

Bayesian models of inductive learning

Computer Science CPSC 502 Uncertainty Probability and Bayesian Networks (Ch. 6)

Naïve Bayes

Coupled Bayesian Sets Algorithm for Semi-supervised Learning and Information Extraction

REVOLUCIJA 1848.-1849. U EUROPI I HRVATSKOJ

Sampling Bayesian Networks

Chapter 11 Supervised Learning: STATISTICAL METHODS

Mehanizmi nastajanja onečišćujućih tvari Pristup problemima vezanim uz onečišćenje zraka

Inferring gene regulatory networks with non-stationary dynamic Bayesian networks

Building Bayesian Networks

A Tutorial on Bayesian Speech Feature Enhancement

Bayesian models of human inductive learning Josh Tenenbaum MIT

Introduction to Bayesian Learning

Zakonodavstvo, propisi, standardi, kriteriji

Prevencija i liječenje sindroma hiperstimulacije ovarija (OHSS)

Prof. dr Slobodan Savić

Inference in Bayesian Networks

Fundamentals of Bayesian Inference

Mini-course on Artificial Neural Networks and Bayesian Networks