1 / 44

Generatív (Bayesi) modellezés

Generatív (Bayesi) modellezés. 2013. ápr. 17. Slides by (credit to ): David M. Blei Andrew Y. Ng, Michael I. Jordan , Ido Abramovich , L . Fei -Fe i, P . Perona , J . Sivic , B . Russell, A. Efros , A . Zisserman , B . Freeman , Tomasz Malisiewicz , Thomas Huffman,

hova
Download Presentation

Generatív (Bayesi) modellezés

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Generatív (Bayesi) modellezés 2013. ápr. 17.

  2. Slides by (credit to): David M. Blei Andrew Y. Ng, Michael I. Jordan, IdoAbramovich, L. Fei-Fei, P. Perona,J. Sivic, B. Russell, A. Efros, A. Zisserman, B. Freeman,Tomasz Malisiewicz, Thomas Huffman, Tom Landauer and Peter Foltz, Melanie Martin, Hsuan-Sheng Chiu, HaiyanQiao, Jonathan Huang Thankyou!

  3. Generatív modellezés • Felügyelet nélküli tanulás • … túl a klaszterzésen • Hogyan írjuk le/modellezzük a világot a számítógépnek? • Bayes háló!

  4. Generatív (Bayesi) modellezés Találjuk meg a paramétereket amikkel a modell a legjobban „rekonstruálja” a megfigyelt adatot Modell „Generatív sztori” ADAT

  5. A dokumentum klaszterzés/osztályozás probléma • Szöveges dokumentumokat sorolunk be témákba vagy • Képekről tanuljuk meg, hogy mi szerepel rajtuk • „Szózsák modell” • A term-dokumentum mátrix:

  6. Kép „Szavak” zsákja

  7. N db dokumentum: D={d1, … ,dN} • A szótár M db szót tartalmaz • W={w 1 , … ,w M} • A term-dokumentummátrixmérete N * M, az egyes szavak (termek) dokumentumbeli előfordulását tartalmazza • term lehet 1 szó, többszavas frázis vagy képrészlet is • Előfordulást jellemezhetjük gyakorisággal, binárisan stb.

  8. A szózsák modell problémái • Sorrendiség és pozíció elveszik • Szinonímák: sok féleképen hivatkozhatunk egy objektumra (fogalomra), pl: álmos-kialvatlan → gyenge fedés • Poliszémia: a legtöbb szónak több jelentése van, pl: körte, puska → gyenge pontosság

  9. képi poliszémia

  10. Dokumentumok klaszterezése • Minden dokumentumhoz rendeljünk egy „topic”-ot

  11. Generatív sztori az „unigram modell”hez • Hogyan generálódik(ott) egy dokumentum? • „Dobjunk” egy topicot • Minden kitöltendő szópozícióra „dobjunk” egy szót a kiválasztott topichoz TOPIC ... szó szó

  12. Valószínűségi LSApLSA ProbabilisticLatentSemanticAnalysis • Minden dokumentumot egy valószínűségi eloszlás ír le a topicok felett • Minden topicot egy valószínűségi eloszlás ír le a szavak felett • Az eloszlások interpretálhatóak

  13. Viszony a klaszterzéshez… • A dokumentumok nem pontosan egy klaszterbe sorolódnak be • Topicok egy eloszlását határozzuk meg minden dokumentumhoz → sokkal flexibilisebb

  14. Generatív sztori a pLSA-hoz • Hogyan generálódik(ott) egy dokumentum? • Generáljunk egy topic-eloszlást • Minden kitöltendő szópozícióra „dobjunk” egy topicot a topic-eloszlából • „Dobjunk” egy szót a kiválasztott topichoz TOPIC eloszlás ... TOPIC TOPIC ... szó szó

  15. Példa money money loan bank DOCUMENT 1: money1 bank1 bank1 loan1river2 stream2bank1 money1river2 bank1 money1 bank1 loan1money1 stream2bank1 money1 bank1 bank1 loan1river2 stream2bank1 money1river2 bank1 money1 bank1 loan1bank1 money1 stream2 .8 loan bank bank loan .2 TOPIC 1 .3 DOCUMENT 2: river2 stream2 bank2 stream2 bank2money1loan1 river2 stream2loan1 bank2 river2 bank2bank1stream2 river2loan1 bank2 stream2 bank2money1loan1river2 stream2 bank2 stream2 bank2money1river2 stream2loan1 bank2 river2 bank2money1bank1stream2 river2 bank2 stream2 bank2money1 river bank .7 river stream river bank stream TOPIC 2

  16. A modell illesztése (tanulása) ? DOCUMENT 1: money? bank? bank? loan? river? stream? bank? money? river? bank? money? bank? loan? money? stream? bank? money? bank? bank? loan? river? stream? bank? money? river? bank? money? bank? loan? bank? money? stream? ? TOPIC 1 DOCUMENT 2: river? stream? bank? stream? bank? money?loan? river? stream? loan? bank? river? bank? bank? stream? river?loan? bank? stream? bank? money?loan? river? stream? bank? stream? bank? money?river? stream?loan? bank? river? bank? money?bank? stream? river? bank? stream? bank? money? ? TOPIC 2

  17. pLSA Megfigyelt adat- eloszlások topicokeloszlása dokumentumonként termek eloszlása a topicok felett Slide credit: Josef Sivic

  18. Generatív sztori a pLSA-hoz • Hogyan generálodott egy dokumentum? • Generáljunk egy topic-eloszlást • Minden kitöltendő szópozícióra „dobjunk” egy topicot a topic-eloszlából • „Dobjunk” egy szót a kiválasztott topichoz TOPIC eloszlás ... TOPIC TOPIC ... szó szó

  19. pLSA – modell-illesztés

  20. Az „expectation-maximisation”, EMalgoritmus • Iteratív módszer maximum likelihood becslésre • rejtett változók esetén • E-lépés • Rejtett változók várható értékének kiszámítása, úgy hogy fixáljuk a keresett paramétereket • M-lépés • Frissítsük a paramétereket úgy, hogy a rejtett változók értékét rögzítjük. • Maximalizáljuk a (likelihood) célfüggvényt

  21. pLSA – E-lépés A paraméterek ismerete mellett, mi a rejtett változók (z, topicok) eloszlása

  22. pLSA – M-lépés Rögzítsükp(z|d,w)-ket és

  23. EM algoritmus • Lokális maximumhoz konvergál • Megállási feltétel? • Adatbázis és/vagy ismeretlen példákra való illeszkedés?

  24. pLSA problémái • Korábban nem látott dokumentumokra újra kell számítani a teljes halmazon. • A paraméterek száma az adathalmaz méretével nő • d tulajdonképpen csak egy index, nem illik a generatív sztoriba

  25. LDA

  26. Unigram modell Zi wi1 w2i w3i w4i Minden M db dokumentumhoz, • dobjunk egy z topicot. • Dobjunk N szót, egymástól függetlenül multinomiális eloszlásból z függvényében Minden dokumentumhoz egy topicot rendelünk

  27. pLSA modell Minden d dokumentum minden szópozíciójára: • Dobjunk egy z témát egy multinominális eloszlásból ami a d indextől függ • Dobjunk egy szót multinomális eloszlásból, ami z-től függ. pLSA-ban a dokumentumokhoz topicok egy eloszlását rendeljünk. d zd1 zd2 zd3 zd4 wd1 wd2 wd3 wd4

  28. LDA modell  • Minden dokumentumra, • dobjunk~Dirichlet() • Minden nszópozícióra : • dobjunk egy zntopicot zn ~ Multinomial() • dobjunk egy wnszót p(wn|zn,)multinomiális eloszlásból    z1 z2 z3 z4 z1 z2 z3 z4 z1 z2 z3 z4 w1 w2 w3 w4 w1 w2 w3 w4 w1 w2 w3 w4 b

  29. LDA modell • Minden dokumentumra, • dobjunk~Dirichlet() • Minden nszópozícióra : • dobjunk egyzntopicotzn~ Multinomial() • dobjunk egywnszót p(wn|zn,)multinomiális eloszlásból

  30. pLSA példa z d w N D “szem” Sivic et al. ICCV 2005

  31. LDA példa “part”  z c w N D Fei-Fei et al. ICCV 2005

  32. A dirichlet eloszlás • Egy eloszlás a multinominális eloszlások felett. • A k dimenziós  Dirichlet valószínűségi változó elemei nem negatívak és 1-re összegződnek (k-1 szimplex) • ipozitív (nem összegződik 1-re, az abszolút értékei is számítanak, nem csak a relatívak!) • A dirichlet eloszlás a multinominális eloszlás konjugált priorja (ha a likelihoddmultinominálisdirichlet priorral akkor a posterior is dirichlet) • Aziparaméterre gondolhatunk úgy, mint az i. topic gyakoriságára vonatkozó priorra

  33. 0 Példák Dirichlet(5,5,5) Dirichlet(0.2, 5, 0.2) 1 0 Dirichlet(0.5,0.5,0.5)

  34. Dirichlet példák

  35. 1 =2 =3 = a

  36. LDA

  37. Következtetés Egzakt optimalizáció nem kivitelezhető

  38. KövetkeztetésGibbs mintavételezéssel • közelítő valószínűségi következtetés • dobjunk a Bayes hálónak megfelelően mintákat • a felvett változóértékek gyakoriságával becsüljük az együttes eloszlásokat • Markov Lánc Monte Carlo módszer • a következő minta függ az előző mintáktól (azaz ne véletlenül és egymástól függetlenül dobáljunk mintákat) • Gibbs mintavételezés • a következő mintát úgy kapjuk, hogy az egyes változókat kidobjuk a többi változó aktuális értékének rögzítése mellett

  39. pLSA és LDAösszehasonlítás • pLSA problémái • új dokumentumokat nem tudja kezelni • adatbázis méretével nő a paraméterek száma (kezelhetőség, túlillesztés) • LDA mindkét problémát kezeli azzal, hogy a topic-eloszlásokat rejtett változóként kezeli • k+kVparaméter

  40. LDA zárszó • Az LDA egy flexibilis generative valószínűségi modell • Ekzaktkövetkeztetés nem kivitelezhető, de a közelítő megoldások (pl. variációs következtetés, MCMC) használhatóak és a gyakorlatban jól működnek

  41. 1990 1999 2003

  42. Objektumok azonosítása képekről Találjuk meg milyen objektumok szerepelnek a képgyűjteményben, felügyelet nélküli módon! Ezeket utána új képeken is ismerjük fel! Automatikusan találjuk meg, hogy milyen jellemzők fontosak az egyes tárgyak azonosításához!

More Related