1 / 21

Eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus ja

Eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus ja võimalusi automaatseks märgendamiseks. Evely Vutt. Märgendamisjuhend. kirjeldab süsteemi eesmärki kirjeldab valdkonda, milles seda süsteemi kasutatakse annab juhtnöörid ning näited dialoogiaktide märgendamiseks.

arvin
Download Presentation

Eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus ja

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus ja võimalusi automaatseks märgendamiseks Evely Vutt

  2. Märgendamisjuhend • kirjeldab süsteemi eesmärki • kirjeldab valdkonda, milles seda süsteemi kasutatakse • annab juhtnöörid ning näited dialoogiaktide märgendamiseks

  3. Märgendamisjuhendi usaldusväärsust mõõdetakse κ – väärtusega, mille arvutamiseks kasutatakse järgnevat valemit: P(A) - tõenäosus kordadest, kui märgendajad määravad akti ühtemoodi P(E) - tõenäosus kordadest, kui märgendajad määravad juhuslikult akti ühtemoodi

  4. P(E) arvutamiseks kasutatakse järgnevat valemit: pi on märgendite esinemise tõenäosus andmetes (arvutatakse iga dialoogiakti jaoks eraldi välja)

  5. pi arvutamiseks kasutatakse järgnevat valemit: • ni on ühtemoodi märgendatud aktide arv • N on ühikute arv korpuses • cn on märgendajate arv

  6. Märgendamisjuhendi κ – väärtuse muutumine: november 2001 0,4600831 detsember 2001 0,5348573 veebruar 2002 0,5778555 MAPTASK (inglise) = 0,83 VERBMOBIL (saksa) = 0,84 SWBD-DAMSL (USA)0,8<<0,84

  7. Projekti eesmärk - rajada dialoogsüsteem, mis annaks infot kohaliku transpordi sõiduplaanide kohta. Korpus, koosnes 53 dokumenteeritud suulise kõne dialoogist kliendi ja firma agendi vahel. Korpus oli transkribeeritud ja käsitsi segmentideks jaotatud ja varustatud dialoogiaktidega. Kokku oli 2241 eraldi lausungit ja 16 dialoogiakti nimetust.

  8. Dialoogiakt Sagedus % statement (avaldus) 527 23,5 acknowledgement (kättesaamisteade) 389 17,4 question (küsimus) 237 10,6 answer (vastus) 213 9,5 confirmation (kinnitus) 162 7,2 opening (avamine) 158 7,0 check (kontroll) 123 5,5 thanking (tänamine) 112 5,0

  9. Dialoogiakt Sagedus % repetition (kordamine) 107 4,8 ending (lõpetamine) 100 4,5 call_to_continue (jätkaja) 45 2,0 wait (oota) 23 1,0 correction (parandus) 19 0,8 completion (täitmine) 10 0,4 request_to_repeat (palve korrata) 10 0,4 sign (nt. oh dear.) 6 0,2

  10. Kõne osade kategooriate võrdlemisel kasutatakse 5 tunnusjoont: • küsisõna olemasolu lauses • küsimuse morfeem –ko • tinglikud vormid • eitavad vormid • pööratud verbide vormid

  11. Dialoogiaktide äratundmiseks lausungis leiduvate sõnade abil kasutati • LVQ-klassifikatsiooni • Ise-korraldavaid (organiseeruvaid) kaarte (SOM - self-organizing maps)

  12. Ise-korraldavad kaardid • (self-organizing maps SOM) • mittejuhitava tehis-närvivõrgu mudel • mudeli sisendandmed kirjeldatakse vektori kujul • erinevus juhitavatest õppimismeetoditest ei vaja välist õpetajat õppimisfaasis

  13. Sõna kaal w arvutatakse järgneva valemiga: sagedus on sõna sagedus eraldiseisvas klassis N on klasside arv n klasside arv, milles sõna esineb

  14. Sõnade tasku • meetod kaalub lausungis esinevaid sõnu vastavalt nende tähtsusele iga dialoogiakti tüübi jaoks • iga sõna on seotud vektoriga, mille pikkus on 16, omades väärtusena kaalumisi iga dialoogiakti klassiga • lausungi vektor (pikkusega 16) saadakse korrutades sõnade vektoreid; dialoogiaktiks valitakse suurim väärtus lausungi vektorist

  15. LVQ • iga sõna leksikonist seotakse juhusliku vektoriga pikkusega 90 • iga lausungit vaadeldakse kui ühte dokumenti • lausungi vektorid moodustatakse liites kõik juhuslikud sõnade vektorid, mis esinevad lausung • loodi kaks lausungi vektorite hulka: hulk 1 sisaldas sisu omavaid sõnu, hulk 2 kõiki sõnu

  16. Tulemused sõnade tasku Dialoogiakt Täpsus% statement (avaldus) 95,25 acknowledgement (kättesaamisteade) 83,24 question (küsimus) 24,61 answer (vastus) 2,52 confirmation (kinnitus) 0,00 opening (avamine) 76,97

  17. check (kontroll) 0,77 thanking (tänamine) 97,60 repetition (kordamine) 2,00 ending (lõpetamine) 94,86 call_to_continue (jätkaja) 0,00 wait (oota) 25,00 correction (parandus) 0,00 completion (?täitmine) 0,00 request_to_repeat (palve korrata) 50,00 sign (nt. oh dear.) 0,00 Keskmine 62,00

  18. Märgendatud Määratud Arv opening ending 27 call_to_continue acknowledgement 35 correction statement 17 question statement 125 wait statement 16 repetition answer 15 repetition statement 55 confirmation statement 91 confirmation acknowledgement 68 check statement 104

  19. LVQ Hulk 1 Hulk 2 Dialoogiakt Täpsus % Täpsus % statement (avaldus) 95,03 96,02 acknowledgement91,89 94,62 (kättesaamisteade) question (küsimus) 83,81 95,73 answer (vastus) 73,48 92,04 confirmation (kinnitus) 66,67 98,76 opening (avamine) 94,44 98,09 check (kontroll) 73,91 89,28

  20. thanking (tänamine) 95,58 94,55 repetition (kordamine) 67,65 76,71 ending (lõpetamine) 100 call_to_continue (jätkaja) 33,33 93,75 wait (oota) 91,3 95,45 correction (parandus) 78,57 100 completion (täitmine) 0 16,67 request_to_repeat (täitmine) 70 72,73 sign (nt. oh dear.) 0 0 Keskmine 86,55 94,23

More Related