u ni korpus govorjene sloven ine l.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Učni korpus govorjene slovenščine PowerPoint Presentation
Download Presentation
Učni korpus govorjene slovenščine

Loading in 2 Seconds...

  share
play fullscreen
1 / 25
storm

Učni korpus govorjene slovenščine - PowerPoint PPT Presentation

142 Views
Download Presentation
Učni korpus govorjene slovenščine
An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.

- - - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

  1. Učnikorpus govorjene slovenščine Jana Zemljarič Miklavčič JOTA,15. 3. 2005

  2. Napovednik • Govorni korpusi • Zbiranje gradiva • Transkribiranje • Označevanje • Konverzija (Knut Hofland) • Uporabnost učnega korpusa • Perspektive

  3. Govorni korpusi • so računalniške zbirke transkribiranih posnetkov spontanega govora • govorni korpusi proti korpusom govora • za preverjanje hipotez o jeziku in opis jezika, predvsem v leksikografiji in slovnici • učenje jezika • sinteza in razpoznavanje govora • posebne potrebe

  4. Govorni korpusi

  5. Gradnja učnega korpusa (UKGS) Namen: • spoznati metode zbiranja, shranjevanja in dokumentiranja govorjenih besedil • razviti in testirati načela transkribiranja • določiti in testirati korpusne oznake • pokazati nekatere možnosti za uporabo korpusa za jezikovne opise in analizo

  6. Gradnja učnega korpusa (UKGS) Potek: • zbiranje gradiva • transkribiranje in označevanje • konverzija • popravljanje transkripcij in oznak • konverzija

  7. Posnetki UKGS

  8. Govorci UKGS ID Spol Leto roj. Izobr. Regija Prvi jezik Govorni polož. Poklic G02 m1965U Ljo slovformalni profesor G12 f 1969 S G slov neformalni administr. Del.

  9. Sestava UKGS Glede na besedilnovrstno taksonomijo • velikost: 15.000 pojavnic • dialogi proti monologom: 94 % : 6 % • javna besedila proti zasebnim: 19,5 % : 80,5 % • osebni stik proti besedilom medijev: 31 % : 69 % • posneto z vednostjo govorcev proti naskrivaj: 5,6 : 94,4 % • neformalna proti formalnim besedilom: 35,5 % : 64,5 %

  10. Transkribiranje Osnovna načela: • priporočila mednarodnih organizacij za standardizacijo korpusov (TEI, EAGLES) • razširjena ortografska transkripcija • osnovna enota je izjava, ki jo omejuje premor ali menjava govorcev • brez ločil • velika začetnica samo v lastnih imenih

  11. Transcriber

  12. Praat

  13. Težave pri transkribiranju Problematika zadeva predvsem zapis • pogovornih/dialektalnih besed • tujejezičnih besedilnih delov • spremljevalnih zvokov (smeh, kašelj) • prekrivnega govora • premorov

  14. Nekaj konkretnih problemov • [a je scal] <nst>scalo</nst> • [pet kosov eden] <nst>kosov</nst> ?? • [pa un kurc kva je že … ] kurc, kurac?? • [mogoče imam celo kle] <nst>kle<nst>/tukaj • [imamo mi posla i bez toga] <tj: hrv>imamo mi posla i bez toga</tj> • [karradera]<tj:katalon><?>karradera</?>/tj>

  15. Nekaj konkretnih problemov • [una rdeča zemlja], [si slišal kaj je un Michael], [pa un kurc kva je že … ] oni/ona/ono ??? • [tadrobna zemlja],[izhodišče zataglavne fjorde] tadrobna, taglavne ali ta drobna, ta glavne • [vsak dan smo šli za ene dve ure hodit], [sem pa danes spila že ene tri kofete ], [glih pred ene dvema mescema]

  16. <pavza> <ime> <neraz> <?>besedilo</?> – <repet/> <okr>beseda</okr> [besedilo] kratka pavza nadomešča lastno osebno ime nerazumljivi govor nezanesljiva transkripcija lažni začetek, okrnjena beseda (nepotrebna) ponovitev nestandardna beseda ali oblika kratica ali okrajšava prekrivni govor Transkripcijske oznake 1

  17. <nst>beseda</nst> <tj: norv>besedilo</tj> <nv>smeh</nv> (opis) <??>besedilo</??> <shift=poud>besedilo</> <shift=vpr>besedilo</> nestandardna beseda tuja beseda ali besedilo neverbalni dogodki zvoki v ozadju neprepoznavni govorec poudarjeni del besedila del besedila z izrazito vprašalno intonacijo Transkripcijske oznake 2

  18. Označevanje Glava posnetka UKGS • ni lematiziran • ni morfosintaktično označen

  19. Wordpad dokument wordpad <Turn speaker="spk1" startTime="155.211" endTime="161.469"> <Sync time="155.211"/> <shift=vpr>;si slišal kaj je oni Michael <?>;Moore</?>; <neraz>; ali kaj imajo nekaj za študente v Ameriki</shift=vpr>; </Turn> <Turn speaker="spk2" startTime="161.469" endTime="162.15"> <Sync time="161.469"/> ne </Turn> <Turn speaker="spk1" startTime="162.15" endTime="164.894"> <Sync time="162.15"/> bog ve kaj ane verjetno je spet proti Bushu kaj </Turn> <Turn speaker="spk2" startTime="164.894" endTime="165.364"> <Sync time="164.894"/> ja </Turn>

  20. Konverzija Knut Hofland Aksis (Oddelek za kulturo, jezik in JT) Univerza v Bergnu http://torvald.aksis.uib.no/talem/jana/

  21. Konkordance

  22. Konkordance

  23. Kritični pogled na UKGS • oportunistične metode zbiranja • besedila niso cela, zaključena • pomanjkljiva demografska sestava govorcev • nepopoln zajem besedil glede na taksonomijo • nujno brisanje osebnih podatkov iz posnetkov • ni lematiziran in označen na besedni/sklad. ravni • transkripcijska načela • <repet/> • <shift=vpr> • <shift=poud> • <nst> • <nv>smeh</nv>

  24. Perspektive za *KGS • *1-milijonski korpus • = 100 ur posnetkov (50 demo + 50 kont) • = 2000 ur transkribiranja • = 10 ljudi, 5 mesecev po 40 ur/mesec • + pregledovanje in označevanje • + konverzija • + popravljanje • = 3 leta, 10,5 milijona SIT (44.000 €)

  25. Učnikorpus govorjene slovenščine BATMULT talekorpus jana.zemljaric@ff.uni-lj.si