ATraNoS Work Package 2, T7-T12

ATraNoSWork Package 2, T7-T12 CNTS Team: Bart Decadt (onderzoeker) Erik Tjong Kim Sang (onderzoeker, project leider) Walter Daelemans (supervisie)

CNTS Taken - Overzicht • WP 2 – Detectie en verwerking van OOVitems: • foneem-naar-grafeem (F2G) omzetter optimaliseren • verdere fouten-analyse • interactie met de confidencemeasures van ESAT’s spraakherkenner

Even opfrissen … • F2G omzetter memory based learning (implementatie = TIMBL): • classification-based & similarity-based • gebruikte algoritmes: • IB1-IG (standaard) met k = {1,3,5} • IGTree (decision tree based optimization) • metriek om similarity te berekenen: overlapmetric met gain ratio weighting • experimenten met 10-fold cross-validation met data van ESAT’s foneemherkenner

Resultaten experimenten T1–T6 • beste resultaten dataset zonder instanties met deleties, en geen spelling als context • beste algoritme = IB1-IG met k = 5

(I) F2G-omzetter optimaliseren • 4 oplossingen: • dataset met minder foneem-deleties • dataset met meer OOVs • optimalisatie-algoritme voor memory-based learning • spellingcorrectie als post-processing

(I.a) Dataset met minder deleties • vorige dataset van ESAT: errorrate ~25% • nieuwe dataset van ESAT: 20% minder deleties,maar: • 60% meer inserties • 15% meer substituties • totale error rate ~29% • maar:inserties en substituties kunnen opgelost wordenmet de F2G-omzetter

(I.a) Dataset met minder deleties • resultaten van 10-fold cross-validation experimenten:

(I.a) Dataset met minder deleties • beste algoritme: IB1-IG met k=5 • resultaat voor hele datasetis wat slechter: • grafeemniveau: -1.6% • woordniveau: -2.6% • resultaat voor OOVs is lichtjes beter: • grafeemniveau: +0.5% (1.6% winst) • woordniveau: +0.7% (10.1% winst) • concreet: 8903 OOVs  680 (vs. 611) correct geconverteerd

(I.b) Dataset met meer OOVs • aantal OOVs is klein: • 9k OOVs120k niet-OOVs • nieuwe dataset maken: • elke OOV komt 2x voor • elke niet-OOVslechts 1x • hypothese: memorybasedlearner wordt meer getraind op de eigenaardigheden van de OOVs

(I.b) Dataset met meer OOVs • resultaten van 10-fold cross-validation experimenten:

(I.b) Dataset met meer OOVs • enige vooruitgang bij resultaten voor de OOVs:+0.1%op woordniveau • lichte achteruitgang bij resultaten voor hele dataset • memorybasedlearner is niet beter getraind op OOVs: • aantal OOVs verdrievoudigen, … ? • waarschijnlijk weinig regelmatigheden in OOVs

(I.c) Optimalisatie algoritme • bepaal default score: • IB1-IG, k=1 enweighting=gainratio • een exhaustive searchnaar de bestesettings voor: • weighting: w ={ gain ratio, info gain, chi-squaredofshared variance} • nearest neighbours: k = {1,3,5,7,9,11,13,15} • class voting type (Timbl4): z = { majority voting, Inverse Distance weighting, Inverse Linear weighting, Exponential Decay weighting }

(I.c) Optimalisatie algoritme • start algoritme: • default score = 76.2 % • resultaat: • setting voor weighting = gain-ratio • setting voor nearest neighbours = 5 • setting voor class voting type = Inverse Distance weighting • eind score = 77.8 % op grafeemniveau voor hele dataset

(I.d) Spellingcorrectie • iSpell (Unix/Linux) als spellingcorrector (114k woorden + lijst met affixen) • output van iSpell: • woorden gelabeld als correct of foutief gespeld • foutief gespelde woorden  vaak een lijst met alternatieven • spellingcorrector van Microsoft (groter vocabularium)  niet te automatiseren

(I.d) Spellingcorrectie • resultaat met iSpell: • input =conversies voor OOVs in dataset met minder deleties, met IB1-IG en k=3 (woord-accuraatheid = 6.9%): • verlies in accuraatheid door correct voorspelde woorden gemarkeerd als foutief -1.4% • winst (alleen 1ste suggestie) +2.4% • winst (eerste 3 suggesties) +4.1% • winst (alle suggesties) +4.8% • woord-accuraatheid kan stijgen tot min. 7.8%, max. 10.3%

(II) Verdere fouten-analyse • hypothese: TIMBL kan zich aanpassen aan de fouten van de foneemherkenner • in hoeverre gebeurt dit? • vergelijking met frequentie-gebaseerde methode: • foneem omzetten naar meest voorkomende grafeem voor dat foneem

(II) Verdere fouten-analyse • vergelijking: TIMBL  frequentie-gebaseerd: • TIMBL  130% winst tov. frequentie-gebaseerd methode

(III) Interactie met confidence measures (ESAT) • experiment met afzonderlijke test-set (3.6k woorden) • accuraatheid op woordniveau = 55.2% • 7.9% voor OOVs • 19.2% op herkenningsfouten • 59.9% voor niet-OOVs • test-set bevat 14.7% herkenningsfouten • 75% kan correct gelabeld worden als onzeker • slechts 10% van de correcte woorden foutief gelabeld

(III) Interactie met confidence measures (ESAT) • veronderstelling: • 75% correct gelabeld als onzeker  omgezet met 7.9% woord-accuraatheid • 10% foutief gelabeld als onzeker  omgezet met 59.9% woord-accuraatheid • aantal herkenningsfouten stijgt van14.7 % naar 16.0 %! • maar leesbaarheid is verbeterd: • 41.7 % van de herkenningsfouten wordt omgezet met ten hoogste 1 fout per woord • 62.6 % met ten hoogste 2 fouten

(III) Interactie met confidence measures (ESAT) • gespreksonderwerp /G@spreksOnd@r@wEr@/ • spraakherkenner  gesprek zonder werk • F2G-omzetter  gespreksonberwerp • speelgoedmitrailleur/sperGutnitrKj-yr/ • spraakherkenner  speelgoed moet hier • F2G-omzetter  spergoetmietrijer

Conclusies • twee optimalisatie-oplossingen zijn effectief: • dataset met minder deleties • spellingcorrectie  zou beter kunnen met taakspecifieke corrector • TIMBL leert uit fouten van foneemherkenner • parameter optimalisatie: weighting = Gain Ratio, nearest neighbours = 5, class voting type = Inverse Distance weighting

ATraNoS Work Package 2, T7-T12

ATraNoS Work Package 2, T7-T12

Presentation Transcript

Work package 2

Work Package 2 Dr Jüri Riives

Work package 2

t12

Work Package 2 UPDATE

LEADER Work Package 2

Work Package 2

Work Package 2

Update on Work Package 2

Work package 2

ATraNoS

ATraNoS

ATraNoS

Work Package 2

T12

WORK PACKAGE 2

Work Package 2 Measurement and Indicators

Work Package 2

Atranos project

Work Package 2: Progress

T7 terminator

Work package 2