1 / 11

Magyar nyelvi szintaktikai elemzőrendszerek

Magyar nyelvi szintaktikai elemzőrendszerek. Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport. A magyar nyelv helyzete a digitális korban – Magyar nyelv- és beszédtechnológiai nap 2013. január 18. Bevezetés.

Download Presentation

Magyar nyelvi szintaktikai elemzőrendszerek

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Magyar nyelvi szintaktikai elemzőrendszerek Vincze Veronika Szegedi Tudományegyetem Informatikai Tanszékcsoport A magyar nyelv helyzete a digitális korban – Magyar nyelv- és beszédtechnológiai nap 2013. január 18.

  2. Bevezetés • Szintaxis: mondat szavai között levő nyelvtani kapcsolatok (alany-ige, főnév-névutó stb.) azonosítása (gépi úton) • Szövegek nyelvtechnológiai feldolgozásának egy lépése

  3. Szintaxis az alkalmazásokban • A szintaktikai elemzés általában előfeldolgozó lépés egy magasabb rendű feladathoz • Gépi fordítás Tegnap az irodában Péter öt levelet írt. TEMP LOC SUBJ OBJ VERB Peter wrote five letters in the office yesterday. SUBJ VERB OBJ LOC TEMP

  4. Számítógépes szintaxis • Szabályalapú elemzés • Statisztikai elemzés • Nagyméretű adatbázisok (treebankek) • Elemzők (parserek) • Konstituens-nyelvtan • Függőségi nyelvtan

  5. Statisztikai szintaktikai elemzés • Angol nyelvre kifejlesztett technológiák • Konstituens- és függőségi alapú elemzők • Kötött szórend vs. szabad szórend • Nehezebb-e a magyar, mint az angol?

  6. Magyar nyelvű szintaktikai elemzés • Magyar: • Ragozó nyelv (gazdag morfológia) • Szabad szórend • Szeged (Dependencia) Treebank • 1,2M szövegszó • 82 000 mondat • Konstituensalapú és függőségi kézi elemzés • Statisztikai elemzők betanítása és kiértékelése

  7. Kísérletek • Angol elemzők magyar nyelvre történő adaptálása • Konstituens- és függőségi elemző is elfogadható eredményeket nyújt • Nyelvspecifikus hibák

  8. Virtuális csomópontok • létige kijelentő mód jelen idő E/3. alakja nem jelenik meg a felszínen: András katona (*van). András legyen katona! András katona lesz. • azonos kezelési mód: András VAN katona.

  9. Távoli függőségek • Összetartozó elemek távol helyezkednek el egymástól A fiúnak látta a kutyáját. • Melléknévi igenevek és főnévi igenevek módosítói A század elején jól bevált módszerhez próbálnak meg visszatérni. Meg kívánta ragadni az alkalmat.

  10. Összegzés • Magyar nyelvű szintaktikai elemzés • Viszonylag jók a magyar eredmények – nem nehezebb nyelv a magyar • Nyelvspecifikus sajátosságokra érdemes koncentrálni

More Related