1 / 24

MI 2003/13 - 1

MI 2003/13 - 1. Néhány probléma: - Hogyan fordítanánk angolra? - Hogyan érthetnénk meg egy rövid törénetet? - Miként lehetne kigyűjteni az MTI hírekből a cégek egyesítéséről szólókat? - Hogyan kezdenénk egy (magyarul kimondott) számokat felismerő program fejlesztéséhez?. MI 2003/13 - 2.

rosa
Download Presentation

MI 2003/13 - 1

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. MI 2003/13 - 1 • Néhány probléma: - Hogyan fordítanánk angolra? - Hogyan érthetnénk meg egy rövid törénetet? - Miként lehetne kigyűjteni az MTI hírekből a cégek egyesítéséről szólókat? - Hogyan kezdenénk egy (magyarul kimondott) számokat felismerő program fejlesztéséhez?

  2. MI 2003/13 - 2 Két nagyobb terület • Természetes-nyelv feldolgozás, folyamatban levő projektek • Beszédfeldolgozás, folyamatban levő projektek

  3. MI 2003/13 - 3 • Nyelvfeldogozás: - Nagyon sok elektronikusan hozzáférhető szöveg (például a MEK, a Magyar Nemzeti Szövegtár), sokféle formátum. - Első lépés: szegmentálás (eredmény: tagolt szöveg, mondatok, szavak, tokenek). Legfontosabb problémák.

  4. MI 2003/13 - 4 • Morfo-szintaktikai elemzés (morfológia-alaktan). Lexikon. A magyar agglutináló (toldalékoló) nyelv, amelyben a szótőhöz képzőket, ragokat illeszthetünk (az angolban szinte nincsenek ragok). Feladat: szótövek+illesztések meghatározása. Különböző kódrendszerek, általában fix pozíciókkal (MSD - ablak: Ncsn főnév, köznév, egyes szám, alanyeset). 1984.

  5. MI 2003/13 - 5 • Egyértelműsítés: az előző címkézési eljárás nem egyértelmű - szótár, toldalékok. Szeged korpusznál (1 millió szó) 52% többértelmű. Hogyan válasszuk ki a megfelelő jelentést? Kézzel, pontosan elemzett minta + tanuló eljárások. Bayes döntés, Markov láncok, szabályok alkalmazása. Legjobb eredmények: 3-4 % hiba marad.

  6. MI 2003/13 - 6 • Más nyelveknél is szükség van erre az előfeldolgozásra, például angolban a Brown korpusz (1961) az első elkészült nagy anyag. • A szövegben további jelek kellenek - speciális formátumok: XML (Extensible Markup Language, 1998), SGML (Standard Generalized …) a leggyakoribb standard fogalmak. HTML.

  7. MI 2003/13 - 7 • Szintaxis (mondattan). Kezdés: főnévi szerkezetek kijelölése (NP, noun phrase). Pl. egy nagy piros ház (főnév + balról jelzős szerkezet és determináns). • Névszói szerkezetek. Melléknevek, számnevek, névmások. • Igei vonzáskeretek (magyar igéknek 0, 1, 2, 3, 4 bővítménye lehet).

  8. MI 2003/13 - 8 • Teljes szintaktikus elemzés. Mondatfa. mondat(Láttam tárgy(fn-csoport(egyigei-csop(tárgy(fn-csoport(hordó tokaji)t) hordó tokaji)t). • Általában szabályokat keresünk, azokat próbáljuk alkalmazni morfológiailag már egyértelműsített szövegen. Chomsky: generatív grammatikák. • Alulról felfelé, felülről lefelé elemzés.

  9. MI 2003/13 - 9 • A mondatok jelentése: atomi jelentések, kombinálási szabályok. Montague nyelvtanok. • Szematika (jelentéstan). Fogalmi hálók, wordnet. Keretek. • A Szeged korpusz szintaktikai feldolgozása. • Gazdasági hírek szemantikus feldolgozása.

  10. MI 2003/13 - 10 • Vissza: tudásábrázolás • Szabályalakú rendszerek: ha A akkor B alakú mondatok. • Példa: nyolcas kirakós játék. Előre haladó (adatvezérelt). Visszafelé haladó (célvezérelt).

  11. MI 2003/13 - 11 • Szemantikus (vagy asszociatív) hálók. Formálisan címkézett irányított gráfok, ahol a gráfok csúcsai fogalmakat vagy objektumokat reprezentálnak, az élek pedig a közöttük meglevő viszonyoknak, kapcsolatoknak felelnek meg, például: tagja (eleme) (instance of), ekvivalens (is equivalent of), tulajdonságú (has property of, színe, mérete), részosztálya (subclass of), ez egy (típusa) (is a ), részhalmaza (has part of).

  12. MI 2003/13 - 12 • Nincs szabványos szintaxis, szemantika. Példa. A szemantikus háló felépítése. Öröklődés. Előnyök (explicit és tömör ábrázolás), hátrányok (nagy méretnél nehéz áttekinteni, nehéz szabványosítani a keresést). Következtetések a szemantikus hálón: tényháló, célháló. Kivételek és ellentmondások kezelése, prioritások.

  13. MI 2003/13 - 13 • (Tudás)keret (frame): valamely fogalom vagy objektum strukturált modellje. A tulajdonságokat (attribútumokat) a keret rekeszei vagy bejegyzései nevezik meg – szemantikus háló továbbfejlesztése (érték megadása, alapértelmezése, forrása, a változáskor végrehajtandó eljárások (démonok)). Keretnyelv. Példa.

  14. MI 2003/13 - 14 • Lényegesnek tűnő különbség a szemantikus hálókhoz képest: formális leírás létezik (keretnyelv). Valójában nem sok eltérés. Legegyszerűbb: a szemantikus háló átírása az adott keretnyelvre. • Példa. • Osztályok (legfelső szint) és példányok. • Öröklődés.

  15. MI 2003/13 - 15 • Attribútumok megadása relációkkal. Bejegyzések: domain (ért. tart.), range (ért. készl.), constraint (megszorítás az értkészl-re), default (alapértelmezés), inverse, inheritance. Gráfos ábrázolás mellett további lehetőségek, például űrlappal (adatbázissal).

  16. MI 2003/13 - 16 • Előnyök: esemény-vezérelt végrehajtás (démonok), világos, áttekinthető szerkezet, deklaratív és procedurális ismeretek együttes ábrázolása lehetséges. • Hátrányok: prototípustól való eltérés nehéz lehet, bővítés is.

  17. MI 2003/13 - 17 • Beszédfelismerés • Fonéma: a legkisebb olyan részlet, amiben két szó eltérhet egymástól (gép-kép). - fonetikai változatosság - akusztikai változatosság - beszélők közötti változatosság - adott beszélő esetén levő változatosság

  18. MI 2003/13 - 18 • Beszédértelmezés szintjei - fonetika - fonológia - morfológia (lexika) - szintaktika - szemantika - pragmatika

  19. MI 2003/13 - 19 • Felismerők csoportosítása - beszédjel minősége - beszéd módja - beszélőfüggőség - szótár mérete - nyelvi kötöttség foka

  20. MI 2003/13 - 20 • Általános struktúra - előfeldolgozás - szegmentálás - címkézés - lexikális elemzés (szótár) - nyelvi elemzés (szintaxis) - szemantikai elemzés

  21. MI 2003/13 - 21 • Szegedi alkalmazások - számjegyek felismerése - halláskárosult gyerekek tanítása - beszédszintézis

  22. MI 2003/13 -

  23. MI 2003/13 -

  24. MI 2003/13 -

More Related