190 likes | 300 Views
Henk van den Heuvel. Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too!. Het project. Opvolger van Autonomata (2005-2007) Gesubsidieerd in de 3e open call van STEVIN Toepassingsgericht project Start: 1 februari 2008 Einde: 1 februari 2010. AUTONOMATA Too.
E N D
Henk van den Heuvel Henk van den HeuvelCLST, RU NijmegenWhat’s in a name? Autonomata Too!
Het project • Opvolger van Autonomata (2005-2007) • Gesubsidieerd in de 3e open call van STEVIN • Toepassingsgericht project • Start: 1 februari 2008 • Einde: 1 februari 2010
AUTONOMATA Too • CLST, Radboud Universiteit Nijmegen (coordinator): Henk van den Heuvel • ELIS, Universiteit van Gent: Jean-Pierre Martens • Nuance: Bart d’Hoore • TeleAtlas: Luc Peirlinckx, Luc Mortier • UiL-OTS: Gerrit Bloothooft • Hetzelfde consortium als in Autonomata
Doelen van het project • ASR van POIs verbeteren • Bouwen van demo-applicatie om proof of concept te laten zien
Achtergrond van het project Wat zijn de specifieke problemen met ASR van namen? • G2Ps voor gewone woorden werken niet goed voor namen vanwege: • Gefossilizeerde spellingen • Buitenlandse origine van namen • Allerlei (inter)culturele verschijnselen veroorzaken veel varianten in de uitspraak van namen (fonemen / woordklemtoon): • NL/VL-sprekers die NL/VL namen uitspreken • NL/VL-sprekers die buitenlandse namen uitspreken • Anderstaligen die NL/VL namen uitspreken Wat zijn de resultaten van Autonomata (I)? • P2P leersoftware en specifieke P2Ps om G2P-omzetting te verbeteren • Corpus met gesproken namen → Autonomata, Transfer Of Output
Autonomata, Transfer Of Output Demonstrator: Horeca in twee steden • Andere typen namen dan in Autonomata (nl. POIs): • P2P leersoftware om verbeterde foneemtranscripties te maken • Reële uitspraken in herkenner: • D.m.v. modellering van patronen die worden gevonden in het namencorpus • Inachtneming van interculturele aspecten: • Varianten binnen de Nederlandse foneemset • Varianten buiten de Nederlandse foneemset
Overzicht werkpakketten • WP1 (TeleAtlas): Dataselectie • Fon getranscribeerde straatnamen voor UK en FR • Fon. getranscribeerde POI entries NL, VL, UK en FR • WP2 (Nuance): ASR & prototype • WP3 (ELIS): Uitbreidingen Autonomata • G2Ps voor Engels, Frans & Duits • Aanpassingen Autonomata G2P toolbox • WP4 (CLST): Selectie mono-linguale uitspraakvarianten • Onderzoek naar P2Ps voor uitspraakvarianten van namen • WP5 (ELIS): Selectie multi-linguale uitspraakvarianten • Als WP4 maar met ac.modellen buitenlandse fonemen • WP6 (UiL-OTS): Evaluatie van technologie en van demonstrator
Deze presentatie • WP1 (TeleAtlas): Dataselectie • Fon getranscribeerde straatnamen voor UK en FR • Fon. getranscribeerde POI entries NL, VL, UK en FR • WP2 (Nuance): ASR & prototype • WP3 (ELIS): Uitbreidingen Autonomata • G2Ps voor Engels, Frans & Duits • Aanpassingen Autonomata G2P toolbox • WP4 (CLST): Selectie mono-linguale uitspraakvarianten • Onderzoek naar P2Ps voor uitspraakvarianten van namen • WP5 (ELIS): Selectie multi-linguale uitspraakvarianten • Als WP4 maar met ac.modellen buitenlandse fonemen • WP6 (UiL-OTS): Evaluatie van technologie en van demonstrator
Henk van den Heuvel Aandachtspunten in project: • Reële uitspraken in herkenner: • D.m.v. modellering van patronen die worden gevonden in het namencorpus • Inachtneming van interculturele aspecten: • Varianten binnen de Nederlandse foneemset • Varianten buiten de Nederlandse foneemset Doelen voor nu: • P2Ps trainen die beschikbare transcripties zo dicht mogelijk bij werkelijke uitspraken brengen • Uitgaande van het Autonomata namencorpus • Zowel train- als testmateriaal • CGN-transcripties • Voor het Nederlandse deel van het corpus • Onderzoek van P2Ps: • Die werken op G2P-transcripties • Die werken op voorbeeldtranscripties (kanonieke transcripties) • Uitgesplitst naar taalorigine van sprekers en van namen
Autonomata namencorpus • Materiaal: • 2500 namen per regio (NL / VL) • Opgesplitst in 10 lijsten van 250 namen • Elke lijst bestaat uit: • 25% voornamen • 25% achternamen • 35% straatnamen • 15% plaatsnamen • Fonetisch getranscribeerd: • Kanoniek (voorbeeld) • Auditief geverifieerd
orthography p2p converter final phonemic transcription general purpose g2p converter initial phonemic transcription Systeemarchitectuur ELIS G2P-P2P tandem automatically learned stochastic correction rules
Henk van den Heuvel Omvang datasets
Henk van den Heuvel P2Ps: G2P-output → aud.geverif.transcripties • Duidelijke verbetering door P2P (maakte 4 varianten per naam) • Grootste verbetering voor BLnamen • WER blijft hoog
Henk van den Heuvel P2Ps: G2P-output → aud.geverif.transcripties • Resultaten zijn beter dan voor gecombineerde naamsoorten • Invloed taalachtergrond naam is belangrijker dan naamsoort
Henk van den Heuvel Uitsplitsing naar taalorigine • Trainingsmateriaal in gearceerd gebied is te gering
Henk van den Heuvel P2Ps: G2P-output→Auditief geverifieerde transcripties • Uitsplitsing namen naar taal heeft zin: BL slechter dan apart • Uitsplitsing sprekers naar taal heeft zin: BL slechter dan apart • Effect 1 > Effect 2 • Beste resultaten voor EN-namen: systematischer door meer kennis
Henk van den Heuvel P2Ps: Voorbeeldtranscripties → aud.geverifieerde transcripties • Referentie (WER1) is G2P-transcriptie • De P2P-transcripties zijn beter dan de vorige (vanaf G2P getraind); het zijn de beste tot nu toe. Vb-trans zijn beter uitgangspunt om P2Ps te trainen dan G2P-outputs
Henk van den Heuvel P2Ps: Voorbeeldtranscripties → aud.geverifieerde transcripties • Dezelfde P2Ps, maar referentie (WER1) is nu de voorbeeld-transcriptie • T.o.v. G2P-ref zijn de verbeteringen kleiner (logisch) • De WERs zijn nog steeds >75% voor BLspr en BLnamen (behalve Engels) • Bij Engels zit verbetering vnl. in voorbeeldtranscripties zelf
Henk van den Heuvel Vervolgonderzoek • P2Ps trainen voor het Vlaamse deel van het corpus • Engelse G2P als uitgangspunt voor Engelse namen nemen • P2Ps gebruiken om uitspraakvarianten van POIs te maken • Selectie uitspraakvarianten voor herkenner • Alle 4 varianten opnemen in lexicon? • Reductiestrategieen?