sz m t g pes nyelv szet nyelvi adatb zisok s haszn latuk n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk PowerPoint Presentation
Download Presentation
Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk

Loading in 2 Seconds...

play fullscreen
1 / 23

Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk - PowerPoint PPT Presentation


  • 178 Views
  • Uploaded on

Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk. Mesterséges Intelligencia előadás http://www.inf.u-szeged.hu/hlt. Tartalom. A számítógépes szövegfeldolgozás célja Nyelvi adatbázisok szerepe Szófaji kódolás - MSD kódrendszer Korpuszok és a treebank Szófaji egyértelműsítés

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk' - oliana


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
sz m t g pes nyelv szet nyelvi adatb zisok s haszn latuk

Számítógépes Nyelvészet – nyelvi adatbázisok és használatuk

Mesterséges Intelligencia előadás

http://www.inf.u-szeged.hu/hlt

tartalom
Tartalom
  • A számítógépes szövegfeldolgozás célja
  • Nyelvi adatbázisok szerepe
  • Szófaji kódolás - MSD kódrendszer
  • Korpuszok és a treebank
  • Szófaji egyértelműsítés
  • Főnévi csoportok (NP) felismerés
a sz vegfeldolgoz s c lja
A Szövegfeldolgozás célja
  • Nagy mennyiségű elektronikusan tárolt, írott formátumú szöveg feldolgozása (fájlrendszer, adatbázis, web)
  • Alapvetően információkezelési okokból: keresés, dokumentum visszakeresés, indexelés
  • Fejlettebb módszereknél a tárolt információ tömör formában történő összegzése: csak a kívánt információ megjelenítése, kivonatolás, szövegbányászat
nyelvi adatb zisok i
Nyelvi adatbázisok I.
  • A nyelvi adatbázisok létrehozásának lehetséges céljai: számítógépes algoritmusok fejlesztése a segítségükkel, tanuló adatbázis, teszt adatbázis, eddig fel nem ismert jelenségek kutatása, a nyelv változásának követése
  • A nyelvi adatbázisok fajtái: gyűjtött szöveg adott forrásból (újság, hírügynökség), lejegyzett szöveg (rádió, parlament), weben halmozódó blog, (hír)portál, jogszabályok gyűjteménye, tematikusan gyűjtött szöveg (gazdasági, jogi, EU, orvosi, stb.)
  • Annotálás: nyelvi jelenségek megjelölése a szövegben. Kiválóan alkalmasak erre a célra az ún. Mark-up (jelölő) nyelvek (HTML, SGML, XML)
  • Annotált nyelvi adatbázisok: szófaji kódolás és egyértelműsítés bemutatására, mondatelemzés bemutatása, információkinyerés bemutatása
nyelvi adatb zisok ii
Nyelvi adatbázisok II.
  • Szakszóval korpusznak nevezik az adott célból gyűjtött elektronikus szövegtárakat.
  • A korpusz adott nyelvi jelenségeket magába foglaló, tervezett elrendezésű, elegendően nagy méretű adattár.
  • BNC (British National Corpus, http://www.natcorp.ox.ac.uk)
  • OTA (Oxford Text Archive, http://ota.ahds.ac.uk)
  • Gutenberg project, http://www.gutenberg.org)
  • ETCSL (Electronic Text Corpus of Sumerian Literature, http://www-etcsl.orient.ox.ac.uk)
  • PubMed (http://www.pubmed.gov)
  • JRC Acquis Corpus (http://langtech.jrc.it/JRC-Acquis.html)
nyelvi adatb zisok iii
Nyelvi adatbázisok III.

Magyar szövegtárak

  • MTSZ (Magyar Történelmi Szövegtár http://www.nytud.hu/hhc)
  • DIA (Digitális Irodalmi Akadémia, http://www.pim.hu)
  • MEK (Magyar Elektronikus Könyvtár, http://mek.oszk.hu)
  • Szószablya (http://www.szoszablya.hu)
  • eMagyarország (http://www.magyarorszag.hu)
  • Parlament (http://www.parlament.hu)
  • Újságok (http://www.hvg.hu, http://www.nol.hu, http://www.mno.hu, http://www.magyarhirlap.hu)
nyelvi adatb zisok iv
Nyelvi adatbázisok IV.

Számítógépes nyelvészeti adatbázisok

  • LDC (Linguistic Data Consortium, http://www.ldc.upenn.edu),
  • ELRA (European LanguageResourcesAssociation, http://www.elra.info),
  • MNSZ (Magyar Nemzeti Szövegtár, http://www.nytud.hu/mnsz)
  • Szeged Korpusz (http://www.inf.u-szeged.hu/hlt)
nyelvi adatb zisok iv1
Nyelvi adatbázisok IV.
  • A nyelvi adatbázisok létrehozásának lehetséges céljai: számítógépes algoritmusok fejlesztése a segítségükkel, tanuló adatbázis, teszt adatbázis, eddig fel nem ismert jelenségek kutatása, a nyelv változásának követése
  • A nyelvi adatbázisok fajtái: gyűjtött szöveg adott forrásból (újság, hírügynökség), lejegyzett szöveg (rádió, parlament), weben halmozódó blog, (hír)portál, jogszabályok gyűjteménye, tematikusan gyűjtött szöveg (gazdasági, jogi, EU, orvosi, stb.)
  • Annotálás: nyelvi jelenségek megjelölése a szövegben. Kiválóan alkalmasak erre a célra az ún. Mark-up (jelölő) nyelvek (HTML, SGML, XML)
  • Annotált nyelvi adatbázisok: szófaji kódolás és egyértelműsítés bemutatására, mondatelemzés bemutatása, információkinyerés bemutatása
sz faji k dol s
Szófaji kódolás
  • Multext-East EU projekt 1995-97. (http://nl.ijs.si/ME/)
  • A morfoszintaktikai leírás (MorphoSyntacticDescription = MSD) magyar nyelvre alkalmazható változata
  • Jellemzői:
    • Az MSD-kódolásban a tulajdonságok kódolása egy adott pozíción történik
    • Az értékek egyetlen karakterrel vannak kódolva
msd k drendszer p lda f nevek noun n
MSD kódrendszer Példa: Főnevek (Noun) – N

asztalt: MSD=Nc-sa, Gábornak : MSD=Np-sg vagy MSD=Np-sd

a szintaxis modellez se
A Szintaxis modellezése
  • Frázis struktúra (ágrajz)A kötetlen szórend miatt a magyar nyelvben ez nehézséget okoz. A mondatrészek nem minden esetben rendezhetők fába.
  • Dependencia struktúra (függőségi fa)Minden szónak van egy hierarchiában felette álló őse. Az egész mondat felett áll egy virtuális ROOT (gyökér) csomópont, ami alá tartoznak a mondat szavai. Lazább szerkezet,
tulajdonnevek
Tulajdonnevek
  • Az alábbi fontosabb csoportok automatikus felismerésére készül egy szabályrendszer a CLaRKhttp://btb.math.bas.bg/clark/index.html (ingyenes) XML alapú korpusz fejlesztő eszközzel. A cél: automatikus tulajdonnév felismerő rendszer készítése.
  • személynevek (a kereszt és vezetéknevek adatbázisátfelhasználva, az id. ifj. özv. dr. prof. asszonynév (-né), ...képzési formákat
  • cégnevek (akroním, hosszú név, tevékenység, cégforma [rt. kft. bt.]).
  • Intézmények (iskola, gimnázium, főiskola, egyetem, intézet, minisztérium, hivatal, ...)
  • földrajzi nevek (ismert nevek, továbbá az utca, út, dülő, patak, hegy, domb, falu, rét, ösvény, fasor, ...
  • egyéb tulajdonnevek
annot ci
Annotáció
  • Többszintű NP struktúrák jelölése <NP> és </NP>
  • A tagmondatok jelölése <CP> tagekkel
  • A nem egyértelmű annotáció jele <XP comment=„”>
  • Részletes útmutató alapján dolgozó annotátorok
  • Egy fájlt 2 személy egymástól függetlenül annotált
az np n vsz i szerkezet annot l s nak fontosabb alapelvei
Az NP (névszói szerkezet) annotálásának fontosabb alapelvei
  • Egy névszói szerkezet alapvetően egy (ragozott) főnévből és az előtte álló bővítményekből áll.
  • A névszói szerkezetek lehetnek egymásba ágyazottak, de a belső névszói szerkezet teljes egészében benne van az őt tartalmazó névszói szerkezetben.
  • A főnév bővítményei a névelő, számnevek és a jelzők.
  • A főnév után álló névutó, határozószó már nem része a főnévhez tartozó névszói szerkezetnek.
egy np szerkezet grajza
Egy NP-szerkezet ágrajza

NP NP

NP

NP

Ritkán vette (tudomásul) {[(az ablak) előtt ülő asszony] jelenlétét} .

az np annot lt sz vegr szlet v zlata
Az NP-annotált szövegrészlet vázlata

1 Ritkán

2 vette

<NP>

3 tudomásul

</NP>

<NP>

<NP>

<NP>

4 az

5 ablak

</NP>

6 előtt

7 ülő

8 asszony

</NP>

9 jelenlétét

</NP>

10 .

slide20

Az gazdagított szerkezet ágrajza

ADVP V’ NP* NP**

HEAD CHILDREN NP

v NODE NODE ADJP

NP* NP** PP

NP

Ritkán vette (tudomásul) {[(az ablak) előtt ülő asszony] jelenlétét} .

slide21

A gazdagított annotálás XML-struktúrája

  • <ADVP>
  • 1 Ritkán
  • </ADVP>
  • <V'>
  • <HEAD VERB_INDEX="#8875">
  • <V>
  • 2 vette
  • </V>
  • </HEAD>
  • <CHILDREN>
  • <NODE ARGS=„3" type="NP"/>
  • <NODE ARGS=„4 5 6 7 8 9" type="NP"/>
  • </CHILDREN>
  • </V'>
  • <NP>
  • 3 tudomásul
  • </NP>
  • <NP>
  • <NP>
  • <ADJP>
  • <PP>
  • <NP>
  • 4,5 az ablak
  • </NP>
  • 6 előtt
  • </PP>
  • 7 ülő
  • </ADJP>
  • 8 asszony
  • </NP>
  • 9 jelenlétét
  • </NP>
  • 10 .