1 / 8

Natural Language Processing

Natural Language Processing. Motivační přehled problémů, řešení a aplikací. Prague Arabic Dependency Treebank Otakar Smrž koordinátor projektu. … zpracování přirozeného jazyka. Natural Language Processing (NLP) oblast témat a úloh, spojení mnoha vědních oborů

chaim
Download Presentation

Natural Language Processing

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Natural Language Processing Motivační přehled problémů, řešení a aplikací Prague Arabic Dependency Treebank Otakar Smrž koordinátor projektu

  2. … zpracování přirozeného jazyka • Natural Language Processing (NLP) • oblast témat a úloh, spojení mnoha vědních oborů • moderní, nutné, mimořádně složité • rozšíření a aplikace dnešní IT, její původní motivace • Computer/Computational Linguistics(CL) • počítačová/komputační lingvistika • teoretická/formální lingvistika, korpusová lingvistika … • Artificial Intelligence (AI) • umělá inteligence, automatické učení, strojové vnímání Natural Language Processing: Motivační přehled problémů, řešení a aplikací

  3. Proč je jazyk složitý? • Systém a jeho projevy (langue vs. parole) • přístupy pravidlové, korpusové, rozumové, statistické • Nekonečnost, produktivita, Zipfův zákon • omezený počet hodně častých/očekávaných jevů • nekonečně výčtem nepopsatelných řídkých jevů • Homonymie, synonymie, elipsa, aktuální kontext • May I watch TV? – It’s bath time, honey. • Znalost světa, neverbální komunikace, humor • čas, společenské zvyklosti, vlastní jména … Natural Language Processing: Motivační přehled problémů, řešení a aplikací

  4. Hlavní oblasti výzkumu • Speech recognition and synthesis • rozpoznávání/generování mluvené řeči • Information retrieval (IR) • vyhledávání informací, nikoli jen textu • Sémantika, konstrukce ontologií, logika • modelování významu, reprezentace znalostí • Machine translation (MT) • automatický překlad, analýza a syntéza jazyků Natural Language Processing: Motivační přehled problémů, řešení a aplikací

  5. Jazyková data a jejich anotace • Model jazyka podle zvoleného kritéria • psané x mluvené, obecné x oborové, paralelní, historické • popis struktury jazyka x popis informací, binární x fuzzy • Reprezentace jazyka závislá na teorii popisu • (ne)úplnost, různý detail, sledovaný cíl • závislostní syntax vs. složková syntax, morfologie, TFA • Jazykové zdroje jsou přesto široce využitelné pro všechny zmiňované výzkumné oblasti • Linguistic Data Consortium, University of Pennsylvania • ÚFAL &CKL, ÚJČ, ÚSJ, projekty EU, MALACH Natural Language Processing: Motivační přehled problémů, řešení a aplikací

  6. Prague … Dependency Treebank • Morfologická rovina (r. slovních druhů) • analýza slovních forem v textu, určení základního slovního tvaru a způsobu jeho odvození z/do formy • Analytická rovina (r. povrchové syntaxe) • popis struktury věty a nalezení funkcí větných členů, vyjádření vlastní gramatiky jazyka • Tektogramatická rovina (r. jazykového významu) • zachycení významu promluvy (vět v celém kontextu) a jeho reprezentace tak, že je do jisté míry popisem myšlenky a lze jej využít k porozumění textu, tj. i k překladu mezi jazyky Natural Language Processing: Motivační přehled problémů, řešení a aplikací

  7. Když mám treebank, co umím? • Morfologická analýza (a vymezení jednotek řeči) • slovník aktuálního jazyka, algoritmus odvozování forem, jejich verifikace a rekonstrukce, lemmatizace slov textu • Tagging, disambiguace (nejen morpho) • automatický výběr správných anotací v daném kontextu, strojové učení, rozhodovací modely • Syntaktická analýza (itecto) • rozbor textu a jejího členů, redukce vět, interpretace • Jazykový model (různé úrovně) • identifikace jazyků, třídy slov/struktur, rozpoznávání Natural Language Processing: Motivační přehled problémů, řešení a aplikací

  8. Pro skutečný svět … • … existuje zřejmé využití ;) • vysoce organizované slovníky a lexikální sítě, studijní pomůcky • automatické kontroly pravopisu a gramatiky, odhad srozumitelnosti • doplňování textu v průběhu psaní, víceznačné klávesnice (mini-přístroje, usnadnění komunikace pro handicapované) • komprese dat (rychlost, kapacita), užitečný signál • interpretace textu, IR, zjišťování informací z internetu i jiných DB • dialogové systémy, obchod, služby, interview (i v lékařství) • hlasová komunikace s počítačem (rozuměj obecně, např. navigace) • úplný automatický překlad, machine-assisted translation, orientační překlad, interaktivní překlad • Mnoho vedlejších efektů (od modelování živých organizmů ke čtení DNA, rozpoznávání obrazu, ...) Natural Language Processing: Motivační přehled problémů, řešení a aplikací

More Related