1 / 32

Nyelvtechnológiai problémák

Nyelvtechnológiai problémák. Farkas Richárd PhD hallgató. 2009. március 10. Áttekintés. Információ visszakeresés Dokumentum klasszifikáció Információ kinyerés Gépi fordítás Kivonatolás Kérdés megválaszolás Dialógus rendszerek. Számítógép vs. emberi agy.

ronalee
Download Presentation

Nyelvtechnológiai problémák

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Nyelvtechnológiai problémák Farkas Richárd PhD hallgató 2009. március 10.

  2. Áttekintés Információ visszakeresés Dokumentum klasszifikáció Információ kinyerés Gépi fordítás Kivonatolás Kérdés megválaszolás Dialógus rendszerek

  3. Számítógép vs. emberi agy A számítógép képes lehet-e az emberi nyelv megértésére? Villanyirógép

  4. Információ visszakeresés(Information Retrieval) • Feladat: • Adott dokumentumok egy halmaza, • a cél a felhasználó által megfogalmazott lekérdezésnek leginkább megfelelő dokumentumok megtalálása.

  5. Vektor Tér Modell (VTM) • Minden dokumentumot egy vektorral írunk le, ahol a vektor elemei az egyes term-ek előfordulási gyakoriságát jelzik • Azokat a term-eket vizsgáljuk amelyek legalább egyszer előfordulnak legalább egy dokumentumban • bag-of-words

  6. Vektor Tér Modell Lekérdezés: „Brutus” AND „Caesar”

  7. Információ visszakeresés problémái • Adatbáziskezelés • Yahoo ~25 milliárd oldalt indexel (deep web?) • Google 5PB RAMot használ • Indexelés, Folyamatos frissítés • Többtagú és logikai kifejezések • Egyéb problémák • Rangsorolás (PageRank) • Szótövesítés • Összefoglaló elkészítése (kivonatolás?)

  8. Dokumentum klasszifikáció • Feladat: • Adott dokumentumok egy felcímkézett halmaza, a cél olyan modell megalkotása ami új, korábban nem látott dokumentumokat automatikusan felcímkéz.

  9. Dokumentum klasszifikációs alkalmazások • Spam detektálás • e-mail irányítás • hírfigyelés (üzleti, sport stb) • Vélemény detektálás • Szerző azonosítás • Dolgozat javítás 

  10. Dokumentum klasszifikációs megoldások • TFIDF-VTM • Minél többször fordul elő a term a dokumentumban annál reprezentatívabb (tf) • Minél több dokumentumban fordul elő a term annál kevésbé segít az egyes dokumentum-osztályok szétválasztásában (inverse df)

  11. Dokumentum klasszifikáció problémái • Dimenzió csökkentés • Szűrések, egyesítések • Bizonyos típusú szavak (pl. igék) • Tulajdonnevek (SZEMÉLYNÉV a „Kovács” helyett) • Elírások kezelése • Egyéb jellemzők kiaknázása • Dokumentumon belüli pozíció • Dokumentum jellemzők (pl. hossza)

  12. Információ kinyerés(Information Extraction) • Feladat: • A feladat szempontjából fontos információ automatikus kigyűjtése a szöveg mélyelemzésével. Az információ kinyerés inputja egy szöveg (strukturálatlan adat), az outputja pedig strukturált információ.

  13. Információ kinyerés példa

  14. IE vs IR • Az output gépileg is feldolgozható • Jóval nehezebb feladat (domain-függő)

  15. IE alkalmazások • Automatikus adatbázis és tudásbázis generálás (field search, range based queries) • Sajtófigyelő szolgáltatás (pl. egy cég ügyleteinek nyomon követése) • Orvosi zárójelentésekből betegséghez kapcsolódó statisztikák gyűjtése • Szabadalmak figyelése (pl. fehérje interakciók)

  16. Gondolatébresztő alkalmazások • Álláshirdetések összegyűjtése cégek honlapjairól (flipdog.com) • Személyek adatainak (végzettségek, munkahelyek stb.) gyűjtése a Web-ről (zoominfo.com) • Citeseer.org • Automatikus címlista gyűjtés e-mailekből (Carnegie Mellon University) • E-mailekből naptár bejegyzések generálása (Fair Isaac Corporation)

  17. Információ típusok

  18. Információ kinyerés főbb problémái • Szemantikai elemzés „Ford” autó vagy cég vagy „Henry Ford” • Említés feloldás, normalizálás „a 3.-os Kovács István” … „Pistike” • Predikátum-argumentum szerkezetek „A Nagyhal kft. megvásárolta a Kishal Bt-t” „A Nagyhal kft.-t megvásárolta a Kishal Bt.” • Domain adaptáció a modell ami kigyűjti a cégek igazgatóit nem fogja az országok fővárosait megtalálni

  19. Gépi fordítás Feladat: Teljes, természetes nyelvű szövegek automatikus fordítása forrásnyelvről célnyelvre. Például angolról magyarra. www.babelfish.com www.google.com/translate www.webforditas.hu

  20. Problémák a Gépi fordításban • Szintaktikai többértelműség • Szemantikai többértelműség • Többszavas kifejezések knightly gymnastics • Idiómákas happy as dog with two tails • Összetett szavak cross dad, snow vomit • Stílus, Szakterületek winchester • Szabad szórend • Hogyan mérhetjük egy gépi fordítás jóságát? pl. BLUE-score

  21. Szabályalapú rendszerek

  22. Statisztikai fordítás • Párhuzamos korpuszok • Ha átlagosan egy szónak 3 fordítási lehetősége van és 10 szóból áll egy mondat akkor 310 lehetőségünk van *szórend *hiányzó/bejövő szavak • Fordítási modell: bag-of-words fordítás • Nyelvi modell: értelmes mondatok argmax P(m|a)=argmax P(m)*P(a|m)

  23. Kivonatolás(Summarisation) Feladat: Rövid, de pontos reprezentálása a dokumentum tartalmának. • hírek, tudományos publikációk • mobil, PDA

  24. Kivonatolási megközelítések • Mondat kivonatolás • Legfontosabb mondatok • kohézió, következetesség, teljesség • Absztrakt kivonatolás • Főcím generálás • Kivonatolás dokumentum halmazokból

  25. Kérdés megválaszolás Feladat: Egy természetes nyelven megfogalmazott kérdésre a dokumentumhalmazban megtalálható válasz megtalálása. pl. Melyik a leghosszabb folyó Európában? Következő generációs kereső rendszerek? www.ask.com

  26. Q&A részproblémái • Kérdés típus azonosítás • A kérés fókuszának behatárolása • Válasz típusának meghatározása • Irreleváns dokumentumok kiszűrése • Lehetséges válaszok megtalálása • Normalizáció

  27. Dialógus rendszerek Feladat: Ember-gép interakció megvalósítása természetes nyelvi beszélgetéssel. • Döntés-támogató, navigációs rendszerek • Adatbázis lekérdezések • Ügyfélszolgálatok • e-learning www.nemtom.hu

  28. Trendek • Megközelítések: • ’90 szabályalapú rendszerek • 2000- gépi tanulási megközelítések • Ipari alkalmazások: • Információ visszakeresés • Dokumentum klaszterezés • Információ kinyerés • Gépi fordítás

  29. Folytatás… !? „Nyelvtechnológiai problémák” speckoll. Diplomamunka/TDK rfarkas@inf.u-szeged.hu

More Related