1 / 44

Kivonatolás, kérdés megválaszolás, dialógus rendszerek

Kivonatolás, kérdés megválaszolás, dialógus rendszerek. 2010. november. 16. Kivonatolás. Automatic text summarization Kivonat: rövid , de pontos reprezentánsa a dokumentum tartalmának rövid: kevesebb, mint az eredeti fele tartalom: legfontosabb tartalomnak át kell jönnie

Download Presentation

Kivonatolás, kérdés megválaszolás, dialógus rendszerek

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Kivonatolás, kérdés megválaszolás,dialógus rendszerek 2010. november. 16.

  2. Kivonatolás • Automatic text summarization • Kivonat: rövid, de pontos reprezentánsa a dokumentum tartalmának • rövid: kevesebb, mint az eredeti fele • tartalom: legfontosabb tartalomnak át kell jönnie „Olvastam a Háború és Békét… Oroszországról szól…” Woody Alen

  3. A kivonatolás alkalmazásai • újságcikkek • TV műsor/mozi előzetes • tudományos publikációk • önéletrajzok • sport közvetítések • egyetemi jegyzetek 

  4. Miért kivonatoljunk • információrobbanás, Internet • szöveges adatok, számítógép gyorsabb • ha a cél általános szövegek összefoglalása, nem konkrét információtípus (IE eredménye nem mindig értelmezhető hétköznapi embereknek) • mobil, PDA

  5. Kivonat típusok • megközelítés: kinyerés vs. absztrakt • általános, query alapú, felhasználó alapú • szakértői vagy bevezető jellegű • single vs. multi document • input típusa (pl. részben strukturált) • nyelvközi kivonatolás

  6. Problémák a kivonatolásban • A szöveg tartalmát kell megragadni • Hogyan határozzuk meg a kivonat hosszát (rövid dokumentumok nehezebb összefoglalni)? • Automatikus rendszerek kiértékelése • Jelenlegi rendszerek közel sem olyan jók, mint az ember

  7. Mondat kinyerés • Alapegységek a mondatok (vagy?) • Cél: legfontosabb mondatok kiválogatása a szövegből • Legelső kezdeményezések (’58) • fontossági sorrend felállítása a mondatok közt (szignifikáns szavak előfordulásainak száma) • bináris osztályozás: állító/magyarázó mondat • domain-specifikus rendszerek • kiértékelés: pontosság, fedés

  8. Hasznos jellemzők • kulcsszavak/tulajdonnevek • szövegbeli pozíció • bevezetés/konklúzió • bekezdésen belüli pozíció • mondat hossza • mondatok közti szemantikus távolság

  9. A mondatkinyerés hátrányai • A kohézió hiánya (kohézió analízis) • Következetesség hiánya Supermarket A announced a big profit for the third quarter of the year. The directory studies the creation of new jobs. Meanwhile, B’s supermarket sales drop by 10% last month. The firm is studying closing down some of its stores. (DOCUMENT) Supermarket A announced a big profit for the third quarter of the year. The firm is studying closing down some of its stores. (EXTRACT)

  10. Mondat realizálás • Tömörítés/egyszerűsítés When it arrives sometime new year in new TV sets, the V-chip will give parents a new and potentially revolutionary device to block out programs they don’t want their children to see. • Felügyelt szekvenciajelölő megközelítés • tanító adatbázis: kézi összefoglalók • párhuzamosítás

  11. Absztrakt kivonatolás • „új” mondatok generálása a „megértett” tartalom alapján • Anafóra feloldás/szintaktikai elemzés/WSD • query alapú kivonatolás: IE eredményből generálás

  12. Absztrakt kivonat értékelése • kohézió, következetesség • eltalálja a témát? • fontos információ nem marad ki? • Helyettesítheti a kivonat a dokumentumot? (osztályozhatóság, kérdések megválaszolása) • Automatikus kiértékelés: ROUGE, emberi kivonatokhoz hasonlítás (hasonló a BLUE-höz, de fedés-alapú)

  13. A multi dokumentum kivonatolásról… • Motiváció: „tegnapi sporthírek” • A dokumentumok stílusa különböző (még ha témájában meg is egyezik) • Redundáns információ/Kiegészítő info • Ellentmondó információ négyen haltak meg 3 embert öltek meg

  14. A multi dokumentum kivonatolásról… • Lépései: • Mondatok kinyerése (megegyező mondatok) • Sorrend felállítása • kronológia • kohézió • klaszterzés + „átlagos” sorrend • Realizáció • Tisztítás, összevonás, co-refereciák

  15. Realizáció Presidential advisers do not blame O’Neill, but they’ve long recognized that a shakeup of the economic team would help indicate Bush was doing everything he could to improve matters. U.S. President George W. Bush pushed out Treasury Secretary Paul O’Neill and top economic adviser Lawrence Lindsey on Friday, launching the first shake - up of his administration to tackle the ailing economy before the 2004 election campaign.

  16. Főcím generálás • A fő gondolat megtalálása (ált. rövidebb mint egy mondat) • Különbözik a folyó szövegtől • egyszerű nyelvtan • figyelemfelkeltő stílus • ML (legvalószínűbb főcím) • szó választás (jellemző, átfogó) • generálás

  17. Címkézés • tagging, kulcsszó kinyerés • címkehalmaz = kivonat • ugyanazok a problémák, mint mondatoknál • kiválasztás • kohézió • absztrakt címkék • egyszerűbb feladat • használhatóság?

  18. Címkézés alkalmazásai • blogokhoz ajánlás • újsághírek címkézése • tudományos cikkeknél kulcsszó kinyerés • más NLP alkalmazásokhoz bemenet • dokumentum osztályozás/klaszterezés • információ visszakeresés

  19. Címke ajánlás • Kézzel címkézett halmaz rendelkezésre áll (pl. blog) • címkézetlen dokumentumokhoz leghasonlóbbak megtalálása • címkék átvétele (kapcsolódás mértéke, kohézió) • hátrány: fix címke halmaz

  20. Kulcsszó kinyerés • Egyetlen dokumentumra fókuszál • címkejelöltek azonosítása • főnévi szerkezetek • absztrakt címkék • végső címkézés szűrése jelöltek szöveg- és korpuszbeli • előfordulása • gyakorisága • együtt-előfordulása • hátrány: dokumentumközi koherencia

  21. Próbáljuk ki! • Kivonatolás http://cimkezes.origo.hu/cimkefelho/ • Q&A http://ask.com • Dialógus rendszerek http://www.lafoxka.hu/ http://www.ikea.hu

  22. Kérdés megválaszolás

  23. Kérdés megválaszolás • Question answering (Q&A) • Input: egy természetes nyelvi kérdés • Output: választ tartalmazó dokumentumok halmaza (ugyanaz, mint IR) • Vagy releváns bekezdés… (kivonat?) • Vagy a válasz… • Következő generációs kereső rendszerek? • Ki használ speciális karaktereket? • Ki fog kérdést begépelni?

  24. Kérdések típusai • Tények (nevek, dátumok, helyek stb.) • Listák • Definíciók • Eldöntendő • Hogyan? Miért?

  25. Architektúra • kulcsszó alapú rendszer (kérdés szavai) • Azokat a mondatokat vizsgálja ahol megjelennek ezek a szavak • A mondatok rangsorolás (pozíció, sorrend, relevancia) • A kérdés átformálása működik ha elég nagy az adathalmaz: Hol született Petőfi? „Petőfi * született”

  26. Egy Q&A rendszer felépítése (Moldovan – TREC 2004) • Kérdés feldolgozás • Keresőszavak előállítása • Dokumentum szűrés és rangsorolás • Válasz feldolgozása

  27. Kérdés feldolgozás • Kérdés típus azonosítás • ML: bag-of-words, tulajdonnevek stb. • Válasz típusának meghatározása (kérdéstípuson belül) • A kérés fókuszának behatárolása Melyik a leghosszabb folyó Európában? általában szabály alapú rendszerrel

  28. Kérdések típusai

  29. Keresőkifejezések előállítása • Heurisztikák: • nem gyakori szavak • tulajdonnevek • jelzős főnévi szerkezetek • igék • a kérdés fókusza • Szinonimák

  30. Dokumentumok szűrése • A kulcsszavaknak egymáshoz közel kell elhelyezkedniük (pl. egymást követő bekezdésekben) • Túl gyakori/túl ritka kulcsszavak • Rangsorolás: • dokumentum forrása (Wiki, hivatalos) • kérdés szavainak száma • nem illesztett kulcsszavak

  31. Válasz mondat kiválasztása • Válasz lokalizálása a dokumentumban (bekezdés/mondat) • Nyelvi elemzés (elsősorban szintaktikai) • Ellenőrzés, hogy a válasz típusának megfelel-e a találat (pl. WordNet hyponímia) • Legjobb válaszok listája(?)

  32. Q&A kiértékelése • MRR (mean recoprical rank) • adott: • tesztkérdések • dokumentumhalmaz • emberi válaszok a dokhalmaz alapján • Minden rendszer N db rangsorolt választ ad minden kérdésre • metrika: jó válasz rangsorának reciproka

  33. Próbáljuk ki! • Kivonatolás http://cimkezes.origo.hu/cimkefelho/ • Q&A http://ask.com • Dialógus rendszerek http://www.lafoxka.hu/ http://www.ikea.hu

  34. Dialógus rendszerek

  35. Dialógus rendszerek • beszélgető ágensek • Ember-gép interakció • Tutoring • Adatbázis keresések • Információkinyerés dialógusokból • Tárgyalás követés

  36. Alkalmazások • Döntéstámogató rendszerek • Navigációs rendszerek • Ügyfélszolgálatok (irányítás) • Vizsgáztatás

  37. Példák [19:31:22] <TCH> öcsémnél lefagyott a firefox [19:31:23] <TCH> és erre írt a készítőknek [19:31:29] <TCH> hogy "lefagyott ez a szar„ [19:31:44] <TCH> erre visszaírtak magyarul, hogy "na jó, de hogy fagyott le ez a szar?„ [19:32:06] <TCH> szal fx-nél legalább support van

  38. Példák 17:03 < no_screen> 3 honapos macska vkinek?17:03 < no_screen> free17:03 < no_screen> :)17:04 < Steven_> :DDDDDDDD17:04 < no_screen> ne rohogj :)17:04 < no_screen> :)17:05 < reflexx> no_screen: gari? allapot?17:05 < no_screen> :) allapot alig hasznalt17:05 < no_screen> gari azt valalok 1 evet17:05 < no_screen> :)17:05 < reflexx> csipas verzio?17:05 < no_screen> csak ha teljesen tonkremegy akkor cserelem17:05 < reflexx> :))17:05 < no_screen> :))17:06 < reflexx> szin?17:06 < no_screen> szurke csikos17:06 < reflexx> marka?17:06 < no_screen> homemade

  39. Problémák a dialógusoknál • Számítógépes nyelvészet • Kérdés vagy információközlés megértése (szemantikai reprezentáció) • NL generálás • Mesterséges Intelligencia • ha nem értem a kérdést visszakérdezzek (pontosítás)? • mikor váltsak át kérdezőbe/információ közlőbe? • ha nincs válasz az nemet jelent? meddig várjak? • „Visszacsatolásos tanulás”: a dialógus ágens céljait milyen kérdések/közlések sorozatával érheti el a leghatékonyabban

  40. Jelenleg működő rendszerek • Lehetséges kérdések halmaza rögzített • ügyfélszolgálatok, tutoring • szűk domainen működik! • bejövő kérdéshez leghasonlóbb mintakérdés kiválasztása (egyébként „nem értem mire gondolsz”) és az előre megadott válasz (szöveges vagy navigáció) megadása

  41. Jelenleg működő beszélgető ágensek • néhány beépített (gyakori) kérdésre válasz • próbálják a kérdező szerepét átvenni (ált. eldöntendő kérdések) • a válaszok egyszerű elemzésével (bag-of-words) tudnak „reagálni” • céljuk általában: beszélgetési/kérdés/válasz sablonok gyűjtése későbbi (gépi) tanuláshoz

  42. Turing teszt Kínai szoba

  43. Próbáljuk ki! • Kivonatolás http://cimkezes.origo.hu/cimkefelho/ • Q&A http://ask.com • Dialógus rendszerek http://www.lafoxka.hu/ http://www.ikea.hu

More Related