1 / 22

Szegmentálás

Szegmentálás. A számítógépes nyelvfeldolgozás alapjai. A számítógépes nyelvfeldolgozás alapjai – 2013. február 21. Szegmentálás. a beadott adathalmaz pusztán karakterek egymásutánisága

noah
Download Presentation

Szegmentálás

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Szegmentálás A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. február 21.

  2. Szegmentálás a beadott adathalmaz pusztán karakterek egymásutánisága a karaktersorozatot nyelvi információt hordozó, a későbbi feldolgozás számára releváns egységekre bontjuk – szegmentálás/tokenizálás bemenő folyó szöveg bekezdésekre és mondatokra tagolása és a mondatok egyes szavakra bontása

  3. Alapszabályok írásjelek és szóközök elhelyezkedése mondat: az a szövegegység, amely nagybetűvel kezdődik és ponttal, kérdőjellel vagy felkiáltójellel zárul szövegszó: a szövegnek az a részlete, amely két szóköz között helyezkedik el, leszámítva az írásjeleket

  4. Mondathatárok A gyerekek sokszor nemcsak finnyásak, általában egyáltalán nem szeretnek enni, vagy ki ne hallott volna sovány kisfia, enni elfelejtő kislánya miatt aggódó anyáról? A magyarázat egyszerű.: "A gyereknél nem az az ösztön a legerősebb, ami az állat kölykénél, hogy enni kell. Ez azért van így, mert mindenki prioritásokban gondolkodik. Vegyünk egy gyereket, a prioritása a játék, nincs türelme enni, csak akkor ha muszáj. A gyerek mindig játszana, ezért alakul ki az ételek közötti válogatás, mert nem érdekli, az evés egy kínzó program, a szervezet szerint nem muszáj enni. Ha valamit nem muszáj, akkor válogatunk, kiválasztjuk a legjobbat. Persze vannak kivételek" - mondja erről Matthaeidesz.

  5. Problémás esetek - 1 “Mondottam, ember: küzdj és bízva bízzál!” Nem sejtette, mi vár még rá... <p><strong>A sofőr közvetített</strong></p><p>A román ügyészség szerint Vantu a csőd előtt jelentős összegeket vont ki az FNI-ből, majd eladta a céget. Nem tipikus írásjelek vagy nincs írásjel

  6. Problémás esetek - 2 iPhone-t kért karácsonyra. 2 iPhone-t kért karácsonyra. Nem nagybetűs mondatkezdet

  7. Problémás esetek - 3 bizonyos hogy a költő vagy épít magának valamit amiben kedve telik vagy bátran elmehet szivarvégszedőnek (Kassák Lajos) Nincs írásjel a szövegben

  8. Problémás esetek - 4 Gaabor1984: imádlak cuki04: lepedöm sincs meg semmim Széphajú: egyetem) evi2992: szia pircsi:) Bess21: evi:)) bass, koncentrálok Cape-re:D jah, most:D PantheraLeo: na jöjjön valaki, rombolni akarok Cape Breton: hát tényleg kösz annak, aki tapsolt Gaabor1984: ingyen Írásjelek más – nem tagolási – funkcióban (emotikonok)

  9. Mondatot határoló elemek . ! ? : … „” Sortörés HTML-tagek (bekezdésvég </p>, címeket, fejléceket záró tagek </h1> stb.)

  10. Problémás esetek - 5 Az 1995. évi XXXIII. törvény 1. §-ára hivatkozott az ügyvéd. A 2008-ban alapított cégek között a kft. és bt. volt a két legnépszerűbb cégforma. 1995. 12. 03-án született. Mondat közepén mondatzáró írásjel

  11. Problémás esetek - 5 A Yahoo! a Yahoo! Inc. amerikai cég védjegye, amellyel egy internetes portált és katalógust üzemeltet. Mondat közepén mondatzáró írásjel, nagybetűs folytatás

  12. Mikor nem mondathatároló? Kisbetűs folytatás Rövidítések listája Reguláris kifejezések A jelentkezési határidő 2010. szeptember 12. Mondathatár vagy dátum része?

  13. Szószegmentálás két szóköz közti egység, kivéve az írásjelek 尊敬的各位同仁 nem minden nyelvben van szóköz… mondat/bekezdés első, illetve utolsó szava: nincs szóköz… mondathatárt, illetve bekezdéshatárt is elfogadjuk mint szóhatárt jelölő elemet

  14. Írásjel része-e a szónak? Jellemzően nem Ellenpéldák: kft. tulajdonnév-felismerés névelemek

  15. Névelemek Named entities világ valamely objektumára egyedi módon utalnak tulajdonnevek (személynevek, földrajzi nevek, címek, márkanevek stb.) azonosítók (e-mail címek, weblapok, rendszámok, telefonszámok, dátumok) egyéb entitások (fehérjenevek, génnevek, vegyületek, képletek…)

  16. Névelemek és írásjelek citochrom-c, 1-hidroxi-1-metil-1,2,3,4-tetrahidronaftalin Stratford-upon-Avon,Saintes-Maries-de-la-Mer McDonald’s, Yahoo! DE: Manchester-Barcelona Manchester (angol)-Barcelona (spanyol)

  17. Többszavas kifejezések több elemből álló egységek tagjaik gyakran szerepelnek együtt formájuk bizonyos mértékig rögzített sajátos viselkedést mutatnak szintaktikai és/vagy szemantikai szempontból

  18. Példák Idiómák: Veri az ördög a feleségét. Félig kompozicionális szerkezetek A cég bérbe vette a raktárt. Összetett szavak fekete doboz Egy jelentéses egység – hány szövegszó?

  19. Többtagú tulajdonnevek Magyar Nemzeti Bank A A N vagy N? Két egymást követő azonos típusú tulajdonnév: Gyurcsány Orbán gazdaságpolitikájáról mondott véleményt. Statisztikai megoldások: mennyire gyakori együtt és külön-külön

  20. Többtagú számok (részben) számmal írt számok 3 millió, 3 000 000 betűvel írt számok ötéves, negyvenöt éves, öt hónapos - Helyesírás és jelentéses egységek?

  21. Mikor vonjunk össze? Kerek perec megmondta, hogy mennyiért vállalja el a munkát. Morfológiai/szintaktikai elemzés után: A N V… - „kerek perec” mint alany Tokenizálás során: ADV V… - „kerek perec” mint határozó

  22. Szegmentáló eszközök HunToken Hun* egyik modulja Mondatokra és tokenekre bontás http://mokk.bme.hu/resources/huntoken magyarlanc mondatokra, illetve szavakra szegmentáló modul http://www.inf.u-szeged.hu/rgai/magyarlanc

More Related