1 / 19

Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too!

Henk van den Heuvel. Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too!. Het project. Opvolger van Autonomata (2005-2007) Gesubsidieerd in de 3e open call van STEVIN Toepassingsgericht project Start: 1 februari 2008 Einde: 1 februari 2010. AUTONOMATA Too.

theo
Download Presentation

Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too!

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Henk van den Heuvel Henk van den HeuvelCLST, RU NijmegenWhat’s in a name? Autonomata Too!

  2. Het project • Opvolger van Autonomata (2005-2007) • Gesubsidieerd in de 3e open call van STEVIN • Toepassingsgericht project • Start: 1 februari 2008 • Einde: 1 februari 2010

  3. AUTONOMATA Too • CLST, Radboud Universiteit Nijmegen (coordinator): Henk van den Heuvel • ELIS, Universiteit van Gent: Jean-Pierre Martens • Nuance: Bart d’Hoore • TeleAtlas: Luc Peirlinckx, Luc Mortier • UiL-OTS: Gerrit Bloothooft • Hetzelfde consortium als in Autonomata

  4. Doelen van het project • ASR van POIs verbeteren • Bouwen van demo-applicatie om proof of concept te laten zien

  5. Achtergrond van het project Wat zijn de specifieke problemen met ASR van namen? • G2Ps voor gewone woorden werken niet goed voor namen vanwege: • Gefossilizeerde spellingen • Buitenlandse origine van namen • Allerlei (inter)culturele verschijnselen veroorzaken veel varianten in de uitspraak van namen (fonemen / woordklemtoon): • NL/VL-sprekers die NL/VL namen uitspreken • NL/VL-sprekers die buitenlandse namen uitspreken • Anderstaligen die NL/VL namen uitspreken Wat zijn de resultaten van Autonomata (I)? • P2P leersoftware en specifieke P2Ps om G2P-omzetting te verbeteren • Corpus met gesproken namen → Autonomata, Transfer Of Output

  6. Autonomata, Transfer Of Output Demonstrator: Horeca in twee steden • Andere typen namen dan in Autonomata (nl. POIs): • P2P leersoftware om verbeterde foneemtranscripties te maken • Reële uitspraken in herkenner: • D.m.v. modellering van patronen die worden gevonden in het namencorpus • Inachtneming van interculturele aspecten: • Varianten binnen de Nederlandse foneemset • Varianten buiten de Nederlandse foneemset

  7. Overzicht werkpakketten • WP1 (TeleAtlas): Dataselectie • Fon getranscribeerde straatnamen voor UK en FR • Fon. getranscribeerde POI entries NL, VL, UK en FR • WP2 (Nuance): ASR & prototype • WP3 (ELIS): Uitbreidingen Autonomata • G2Ps voor Engels, Frans & Duits • Aanpassingen Autonomata G2P toolbox • WP4 (CLST): Selectie mono-linguale uitspraakvarianten • Onderzoek naar P2Ps voor uitspraakvarianten van namen • WP5 (ELIS): Selectie multi-linguale uitspraakvarianten • Als WP4 maar met ac.modellen buitenlandse fonemen • WP6 (UiL-OTS): Evaluatie van technologie en van demonstrator

  8. Deze presentatie • WP1 (TeleAtlas): Dataselectie • Fon getranscribeerde straatnamen voor UK en FR • Fon. getranscribeerde POI entries NL, VL, UK en FR • WP2 (Nuance): ASR & prototype • WP3 (ELIS): Uitbreidingen Autonomata • G2Ps voor Engels, Frans & Duits • Aanpassingen Autonomata G2P toolbox • WP4 (CLST): Selectie mono-linguale uitspraakvarianten • Onderzoek naar P2Ps voor uitspraakvarianten van namen • WP5 (ELIS): Selectie multi-linguale uitspraakvarianten • Als WP4 maar met ac.modellen buitenlandse fonemen • WP6 (UiL-OTS): Evaluatie van technologie en van demonstrator

  9. Henk van den Heuvel Aandachtspunten in project: • Reële uitspraken in herkenner: • D.m.v. modellering van patronen die worden gevonden in het namencorpus • Inachtneming van interculturele aspecten: • Varianten binnen de Nederlandse foneemset • Varianten buiten de Nederlandse foneemset Doelen voor nu: • P2Ps trainen die beschikbare transcripties zo dicht mogelijk bij werkelijke uitspraken brengen • Uitgaande van het Autonomata namencorpus • Zowel train- als testmateriaal • CGN-transcripties • Voor het Nederlandse deel van het corpus • Onderzoek van P2Ps: • Die werken op G2P-transcripties • Die werken op voorbeeldtranscripties (kanonieke transcripties) • Uitgesplitst naar taalorigine van sprekers en van namen

  10. Autonomata namencorpus • Materiaal: • 2500 namen per regio (NL / VL) • Opgesplitst in 10 lijsten van 250 namen • Elke lijst bestaat uit: • 25% voornamen • 25% achternamen • 35% straatnamen • 15% plaatsnamen • Fonetisch getranscribeerd: • Kanoniek (voorbeeld) • Auditief geverifieerd

  11. orthography p2p converter final phonemic transcription general purpose g2p converter initial phonemic transcription Systeemarchitectuur ELIS G2P-P2P tandem automatically learned stochastic correction rules

  12. Henk van den Heuvel Omvang datasets

  13. Henk van den Heuvel P2Ps: G2P-output → aud.geverif.transcripties • Duidelijke verbetering door P2P (maakte 4 varianten per naam) • Grootste verbetering voor BLnamen • WER blijft hoog

  14. Henk van den Heuvel P2Ps: G2P-output → aud.geverif.transcripties • Resultaten zijn beter dan voor gecombineerde naamsoorten • Invloed taalachtergrond naam is belangrijker dan naamsoort

  15. Henk van den Heuvel Uitsplitsing naar taalorigine • Trainingsmateriaal in gearceerd gebied is te gering

  16. Henk van den Heuvel P2Ps: G2P-output→Auditief geverifieerde transcripties • Uitsplitsing namen naar taal heeft zin: BL slechter dan apart • Uitsplitsing sprekers naar taal heeft zin: BL slechter dan apart • Effect 1 > Effect 2 • Beste resultaten voor EN-namen: systematischer door meer kennis

  17. Henk van den Heuvel P2Ps: Voorbeeldtranscripties → aud.geverifieerde transcripties • Referentie (WER1) is G2P-transcriptie • De P2P-transcripties zijn beter dan de vorige (vanaf G2P getraind); het zijn de beste tot nu toe. Vb-trans zijn beter uitgangspunt om P2Ps te trainen dan G2P-outputs

  18. Henk van den Heuvel P2Ps: Voorbeeldtranscripties → aud.geverifieerde transcripties • Dezelfde P2Ps, maar referentie (WER1) is nu de voorbeeld-transcriptie • T.o.v. G2P-ref zijn de verbeteringen kleiner (logisch) • De WERs zijn nog steeds >75% voor BLspr en BLnamen (behalve Engels) • Bij Engels zit verbetering vnl. in voorbeeldtranscripties zelf

  19. Henk van den Heuvel Vervolgonderzoek • P2Ps trainen voor het Vlaamse deel van het corpus • Engelse G2P als uitgangspunt voor Engelse namen nemen • P2Ps gebruiken om uitspraakvarianten van POIs te maken • Selectie uitspraakvarianten voor herkenner • Alle 4 varianten opnemen in lexicon? • Reductiestrategieen?

More Related