170 likes | 185 Views
Korpuste kombineerimine. Mark Fishel, Heiki-Jaan Kaalep TÜ. Kava. Korpuste tegemise protsess Märgenduse esitamise viisid Mitme märgenduse ühendamine Ühenduspunktide probleem Paralleelkorpuste ühendamine Programmi idee. Korpuste tegemise protsess: idee. algne tekst märgendus1 korpus1
E N D
Korpuste kombineerimine Mark Fishel, Heiki-Jaan Kaalep TÜ
Kava • Korpuste tegemise protsess • Märgenduse esitamise viisid • Mitme märgenduse ühendamine • Ühenduspunktide probleem • Paralleelkorpuste ühendamine • Programmi idee
Korpuste tegemise protsess: idee algne tekst märgendus1 korpus1 märgendus2 korpus2 märgendus3 korpus3
Korpuste tegemise protsess: TÜ tegelikkus algne tekst TEI märgendus TEI tekstikorpus + morf. märgendus ; - TEI märgendus morf. korpus + süntaktiline + sõnatähendused + väljendid
Märgenduse esitamise viisid 1. Märgendid teksti sees (TÜ segakorpus, HTML) 2. Tabelina (morf. korpus, CoNLL, Negra, …) 3. Märgendid eraldi; viidad (MTE 1984) • Minu jutt puudutab (1) ja (2) moel esitatud korpusi; (3) on seotud omaette probleemidega
Korpuste tegemise protsess: algtekst TEI P3 ja ütles: "Kurat, ega ma ei sure." <!DOCTYPE TEI.2 SYSTEM 'tei2.dtd'[ <!ENTITY % TEI.general 'INCLUDE'> … <text> <body> … <p> <s> … ja ütles: "Kurat, ega ma ei sure."</s>
Morf. märgendus: näidehttp://www.cl.ut.ee/korpused/morfkorpus/myh01/ilu_0021.kym : : //_Z_ Col // " " //_Z_ Quo // Kurat kurat+0 //_S_ comsgnom // , , //_Z_ Com // ega ega+0 //_J_ crd // ma mina+0 //_P_ sgnom // ei ei+0 //_V_ auxneg // sure sure+0 //_V_ mainindicpres ps neg // . . //_Z_ Fst //
Süntaktiline märgendus: näidehttp://lepo.it.da.ut.ee/~heli_u/SA/stkt0021-Andriela.snx $: $: //_Z_ Col // $" $" //_Z_ Quo // **CLB Kurat kurat+0 // _S_ comsgnom#cap// @SUBJ $, $, //_Z_ Com // ega ega+0 // _J_ crd // **CLB @J ma mina+0 // _P_ pers ps1 sgnom // @SUBJ ei ei+0 //_V_ auxneg // mina+0 // _P_ pers ps1 sgnom // @ADVL ??morf sure sure+0 // _V_ mainindicpres ps neg#FinV#Intr // @+FMV $. $. //_Z_ Fst //
Sõnatähenduste märgendus: näidehttp://www.cl.ut.ee/korpused/semkorpus/ : : //_Z_ Col // " " //_Z_ Quo Kurat kurat+0 //_S_ com sg nom // kurat(2)#@ kurat:1:2 , , //_Z_ Com // ega ega+0 //_J_ crd // ma mina+0 //_P_ pers ps1 sg nom // ei ei+0 //_V_ aux neg // sure sure+0 //_V_ main indic pres ps neg // surema(1)#@ surema:1:1 . . //_Z_ Fst //
Süntaktilise ja semantilise märgenduse ühisosa $: $: //_Z_ Col // $" $" //_Z_ Quo // **CLB Kurat kurat+0 // _S_ comsgnom#cap// @SUBJ kurat(2)#@ kurat:1:2 $, $, //_Z_ Com // ega ega+0 // _J_ crd // **CLB @J ma mina+0 // _P_ pers ps1 sgnom // @SUBJ ei ei+0 //_V_ auxneg //mina+0 // _P_ pers ps1 sgnom // @ADVL ??morf sure sure+0 // _V_ mainindicpres ps neg#FinV#Intr // @+FMV surema(1)#@ surema:1:1 $. $. //_Z_ Fst //
Ühenduspunktide probleem Samast allikast korpused erinevad • lisatud märgenduse poolest • varem olnud märgenduse poolest • NB! algtekstist pärineva osa poolest … ja selle all ei mõelda ainult lihtsaid asju nagu täpitähtede kodeering , tühimärkide olemasolu või suurtähelisus, vaid ka vahelejätte ja ühendamisi ?? Mille kaudu korpusi ühendada??
Lahendus 1 • Ole hoolikam! Ära lase algteksti muuta! • Aga: • kirjavead, nt. http://www.cl.ut.ee/korpused/baaskorpus/1980/ fail stkt0013 <s> Aga olgu, ma ei taha alustad nääklemisega.</s> • segmenteerimine: olgu_,_ ;inglise keeles don_’t • Algtekst (s.t. korpuste lahknemiskoht) muutub ikka!
Märgendamine =? tõlkimine • algne tekst = originaal • lisatud märgendus = tõlge • 2 korpust = 2 originaali + 2 tõlget • 2 korpust = 2 algset teksti + 2 märgendust • probleem: kahe korpuse algsed tekstid pole samal moel tükeldatud (segmenteeritud) • lahendus: ligikaudne võrdlemine + tükkide koosvaatamine
Programm kahe korpuse ühendamiseks (pooleli…) • Iga korpus on justkui 2-veeruline tabel: • ühes veerus on korpuste ühine osa, teises veerus on erinev osa • ühendamine käib ühise osa veeru kaudu • Veerg on kasutaja poolt defineeritav • Programm oleks UNIXi käsk (nagu sed, tr, estmorf), analoogiline käsuga join • Programmi nimi on … ?
Kasutusalad • Erinevalt märgendatud korpuste ühendamiseks (väga vaja – kohvijutt LAW II LREC 2008) • Paralleelkorpuste ühendamiseks ja võrdlemiseks universaalne meetod