1 / 20

Névelem-felismerés

Névelem-felismerés. A számítógépes nyelvfeldolgozás alapjai. A számítógépes nyelvfeldolgozás alapjai – 2013. április 11. Bevezetés. Névelem-felismerés – named entity recognition (NER) Tulajdonnevek és azonosítók kigyűjtése és osztályokba sorolása Névelem (NE) vs. tulajdonnév. Névelemek.

megara
Download Presentation

Névelem-felismerés

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Névelem-felismerés A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. április 11.

  2. Bevezetés Névelem-felismerés – named entity recognition (NER) Tulajdonnevek és azonosítók kigyűjtése és osztályokba sorolása Névelem (NE) vs. tulajdonnév

  3. Névelemek Azonosítók: E-mail cím Weboldal Rendszám Telefonszám … Egyéb entitások Vegyületek Génnevek …

  4. Azonosítók felismerése Reguláris kifejezések (minták) segítségével Rendszám: 3 betű + - + 3 szám Telefonszám: 9 szám Viszonylag könnyű feladat a számítógépes alkalmazások számára is

  5. Tulajdonnevek a nyelvészetben Nyelvészeti definíciók: azonos fajú egyedek megkülönböztetése egyedek azonosítása merev jelölő, mely konstans módon ugyanazt az egyedet azonosítja Azonosító, ill. elkülönítő funkció Egyedítés

  6. Problémák Típusjelölés A Fritzek lerohanták Lengyelországot. Köznevesülés Röntgen - röntgen Tulajdonnévvé válás A vizslát Fügének hívják. Metafora, metonímia Nem volt egy Adonisz. A Barcelona legyőzte a Manchestert.

  7. Nyelvek közti eltérések Napok, hónapok, ünnepek: Monday, June, Christmas Nép- és nemzetiségnevek Hungarian, Spanish Rendszertani nevek Canis lupus Külön NE-kategóriák lehetnek Névelemek, de nem tulajdonnevek?

  8. Formai jellemzők Nagybetűs kezdet (?) PDA, Ft, eBay, 4 Non Blondes Die Tränen greiser Kinderscharich zieh sie auf ein weißes Haarwerf in die Luft die nasse Ketteund wünsch mir, dass ich eine Mutter hätte

  9. Terjedelem Mettől meddig tart? névtartozékok Kovács néni Széchenyi tér Bükk hegység New York állam névelők A kőszívű ember fiai Los Angelesből az Offspring, Glasgowból a Snow Patrol, Düsseldorfból a Die Toten Hosen és a világ számos pontjáról további zenekarok jelezték a napokban, hogy elfogadják a Sziget szervezők meghívását.

  10. Kategóriák Személynevek (PER) Helynevek (LOC) Szervezetnevek (ORG) Egyéb (MISC) Ez sokszor nem elégséges…

  11. Kategóriák - 2 Feladatonként / szövegenként más-más osztályok Orvosi szövegek: beteg neve, páciens neve, kórház neve, város… Jogi szövegek: ügyvéd, bíró, vádlott… Hierarchikus osztályozás (fentiek a PER alá tartoznak)

  12. Metonímia Elutazott Pekingbe. Peking után rögtön összeült a MOB. Peking hírzárlatot rendelt el. Peking kategóriája??? Tag-for-tag: állandó kategória Tag-for-meaning: szövegkörnyezettől függő kategória

  13. SzegedNER korpusz 200 ezer szövegszó Gazdasági rövidhírek (NewsML) Személynév, Szervezet, Hely és Egyéb 15 ezer tulajdonnév A korpusz és magyar tulajdonnévtrigger-listák letölthetőek: http://www.inf.u-szeged.hu/rgai/corpus_ne

  14. Bűnügyi NE-korpusz 540 ezer szövegszó Bűnügyekről szóló újságcikkek Tag-for-tag és tag-for-meaning annotáció is 23 ezer tulajdonnév letölthető

  15. Névelem-felismerés A felismerés viszonylag egyszerű jegyekkel megoldható feladat Nem fedhető le teljesen szótárak segítségével Az osztályozás nehezebb Korpuszok mint statisztikai tanító adatbázisok

  16. Jellemzőkészlet Ortográfiai jellemzők kezdőbetű típusa, szóhossz, tartalmaz számot / írásjelet, arab / római szám Gyakorisági adatok kis/nagybetűs-, mondatközi nagybetűs/nagybetűs arányok, gyakoriság Szövegkörnyezet info trigger uni- / bi- / trigramok, mondatpozíció, dokumentumon belüli pozíció Kifejezésszintű info megelőző tokenek címkéi, zárójelben/idézőjelben van, reguláris kifejezések Egyértelmű szavak szótára tanuló adatbázisból összegyűjtve, pl. betegségek nevei Trigger szótárak keresztnevek, országok, városok…

  17. Megközelítések Tokenalapú: minden szóról eldöntjük, hogy NE-e Szekvenciális (CRF): egy szekvenciához (mondathoz) egyszerre rendeljük hozzá a legvalószínűbb címkesorozatot

  18. Eredmények a SzegedNER korpuszon Első statisztikai tulajdonnév-felismerő modell magyar nyelvre

  19. Miért kell a NER? NE-k különleges bánásmódot igényelnek Egy egység (NP) a mondatban: José Manuel Barroso - ő George Bush – György Bokor ? Kovács János – János Kovács ENSZ – UN Beijing – Peking Anonimizálás: azonos típusúra lecserélni

  20. Alkalmazási területek (Szeged NER) Magyar gazdasági rövidhírek elemzése Angol újsághírek elemzése Orvosi kórlapok anonimizálása • Lényegében ugyanaz a modell működik: • angolra és magyarra • Két teljesen más feladatra (doménre)

More Related