1 / 15

Pojmenované entity

Pojmenované entity. Zden ěk Žabokrtský 26.1.2006, Kvilda. Co jsou NE ?. slova nebo slovní spojení, která v textu vystupují jako pojmenování osob, míst, věcí ... číselné výrazy, data jednotky (měnové, fyzikální...). NE z pohledu rovin PDT (1). m-rovina

cyma
Download Presentation

Pojmenované entity

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Pojmenované entity Zdeněk Žabokrtský 26.1.2006, Kvilda

  2. Co jsou NE ? • slova nebo slovní spojení, která v textu vystupují jako • pojmenování osob, míst, věcí ... • číselné výrazy, data • jednotky (měnové, fyzikální...) • ...

  3. NE z pohledu rovin PDT (1) • m-rovina • nevyčerpatelný zdroj dosud nespatřených forem • mj. kontakt s jinými jazyky (Ho-či-min, Tel-Aviv) • produktivní homonymie • Veselý Zajíc Vyskočil... • nejasná lematizace • (panu) Novákovi -> Novák • (panu) Novému -> nový ?

  4. NE z pohledu rovin PDT (2) • a-rovina • problematická orientace „závislosti“ • př. Josef Novák vs. Kim Ir-sen • hodnoty afun • křestní jméno ~ přívlastek ? • chybí lingvisticky relevantní znaky závislosti -> potřeba šablon • adresy...

  5. NE z pohledu rovin PDT (3) • t-rovina • velikost písmen v t-lematech • shlukování názvu jedné NE do jednoho uzlu? • WSD ? • ztráta funkčních slov („Proti všem“) • přechylování • (výhledově) učitelka -> učitel.fem • ale: Nováková -> Novák ?

  6. Využití NE • tagging • anaphora resolution • machine translation • Olda Starý -> Olda Old ? • information extraction • speech reconstruction

  7. Výchozí situace pro češtinu • žádný jednotný datový zdroj zaměřený na NE jako celek, ale: • přípony lemat v JH’s morfologii • dostupné databáze • antroponyma (MV ČR) • toponyma (ČSU) • anoikonyma (UJČ) • urbanonyma (www stránky českých měst) • ...

  8. Anotace NE • anotační schéma • klasifikace NE • výběr materiálu k anotaci • datový formát • rozhraní pro anotátora

  9. Dvouúrovňová klasifikace NE (1) • při částečném porozumění možnost „podspecifikace“ • 1. úroveň • p jména osob • o názvy věcí • g geografické názvy • i názvy institucí • m názvy médií • n čísla s nekvantifikačním významem • tnázvy časových úseků • b jména zvířat

  10. Dvouúrovňová klasifikace NE (2) • g geografické názvy • gc názvy států – jako názvy geografických i politických jednotek (i názvy již neexistujících útvarů) • gh názvy vodních útvarů • gl názvy přírodních oblastí, útvarů (př. Sibiř, Apeninský poloostrov, Polabí, Šumava) • gp názvy planet, vesmírných útvarů (př. Země) • gq názvy částí obcí, pomístní názvy • gr názvy menších územních jednotek (př. Morava, Rychnovsko, Badensko-Württembersko) • gsnázvy ulic, náměstí • gt názvy kontinentů • gu názvy obcí, hradů a zámků (př. Praha, Kotěhůlky, Opočno) • p jména osob • pc obyvatelská jména (př. Afričan, Čech, Pražan) • pd titul (pouze pokud je zapsán zkratkou, př. PhDr., prof., doc.) • pf křestní jméno (a to, i jde-li o pseudonym), rovněž zdrobnělá podoba • pm druhé křestní jméno (a to, i jde-li o pseudonym) • pn přezdívka • pp pojmenování náboženských postav, pohádkových a mytických bytostí, personifikovaných vlastností (př. svatý Jakub, Bůh / bůh, Karkulka, čert, Prozřetelnost) • ps příjmení (a to, i jde-li o pseudonym) – součástí příjmení jsou i cizí předložky de, von, van apod. • pt jména skupin na základě jejich rodového původu, jména kmenů (př. Přemyslovci, Apačové, Slovan)

  11. Další anotační značky • speciální typy NE • a adresa • c bibliografický údaj • f slova z cizího jazyka • s  zkratky • problematické situace • ? nerozeznaný typ NE • ! rozpadlá věta • lower slovo se normálně píše s malým písmenem • upper slovo se normálně píše s velkým písmenem

  12. Anotační prostředí • editace prostého textu v MS-Word • vkládání značek • <XX – začátek úseku NE a určení typu • > - konec úseku NE 12: A přišlo jitro a s ním i <pc Rusové> . 13: Byla bych raději zůstala v <g Kaempolisu> a pokračovala ve svém díle . " 14: Boj mezi <io Vysídlenci> a <io Usedlíky> byl od začátku do konce ideologickým soupeřením . 15: " Tak to naše <gt Evropa> už není , protože její impulsy jdou cikcak a od zdi ke zdi imrvére do alelujá krucihimlfixnohanmól - kdyby tě hned z kolíbky zahnali makat na rýžovou plantáž , kam patříš a kam tě už volají , <f liebe Europe> , a to stále naléhavěji - ale oni tě místo toho naučili trosky filosofií a jazyků , jezdit tramvají a číst romány , žvanit o demokracii , kouřit a telefonovat - ještě něco ? 16: Nějaký <pc Francouz> kdysi přeložil moje <oa Pyšné tělo> jako <oa<f Fierté de la Chair>> .

  13. Anotovaný materiál • 2000 vět z ČNK (300+500+500+700) • jednoduché výběrové kritérium – velké písmeno uprostřed věty • kontext celé věty • dvě nezávislé anotace • třetí průchod: sjednocení rozdílů

  14. Disambiguace homonymních příjmení • Giger,Štěpán,2005: Návrhy pro řešení homonymie českých příjmení typu Vybíral, Odložil při automatickém morfologickém značkování v korpusu • implementace v Perlu – posloupnost jednoduchých pravidel • následuje-li -li -> sloveso • předchází-li křestní jméno nebo titul -> jméno • testování na části ČNK • chyba statistického taggeru na sledované skupině homonymních forem – cca 12 % • chyba po aplikace disambiguačních pravidel – cca 1 %

  15. Nejbližší úkoly • dočištění anotovaných dat a převod do PML • zjištění kvantitativních vlastností • vyhodnocení shody, analýza chyb • vývoj automatického značkování NE

More Related