Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too!

Henk van den Heuvel Henk van den HeuvelCLST, RU NijmegenWhat’s in a name? Autonomata Too!

Het project • Opvolger van Autonomata (2005-2007) • Gesubsidieerd in de 3e open call van STEVIN • Toepassingsgericht project • Start: 1 februari 2008 • Einde: 1 februari 2010

AUTONOMATA Too • CLST, Radboud Universiteit Nijmegen (coordinator): Henk van den Heuvel • ELIS, Universiteit van Gent: Jean-Pierre Martens • Nuance: Bart d’Hoore • TeleAtlas: Luc Peirlinckx, Luc Mortier • UiL-OTS: Gerrit Bloothooft • Hetzelfde consortium als in Autonomata

Doelen van het project • ASR van POIs verbeteren • Bouwen van demo-applicatie om proof of concept te laten zien

Achtergrond van het project Wat zijn de specifieke problemen met ASR van namen? • G2Ps voor gewone woorden werken niet goed voor namen vanwege: • Gefossilizeerde spellingen • Buitenlandse origine van namen • Allerlei (inter)culturele verschijnselen veroorzaken veel varianten in de uitspraak van namen (fonemen / woordklemtoon): • NL/VL-sprekers die NL/VL namen uitspreken • NL/VL-sprekers die buitenlandse namen uitspreken • Anderstaligen die NL/VL namen uitspreken Wat zijn de resultaten van Autonomata (I)? • P2P leersoftware en specifieke P2Ps om G2P-omzetting te verbeteren • Corpus met gesproken namen → Autonomata, Transfer Of Output

Autonomata, Transfer Of Output Demonstrator: Horeca in twee steden • Andere typen namen dan in Autonomata (nl. POIs): • P2P leersoftware om verbeterde foneemtranscripties te maken • Reële uitspraken in herkenner: • D.m.v. modellering van patronen die worden gevonden in het namencorpus • Inachtneming van interculturele aspecten: • Varianten binnen de Nederlandse foneemset • Varianten buiten de Nederlandse foneemset

Overzicht werkpakketten • WP1 (TeleAtlas): Dataselectie • Fon getranscribeerde straatnamen voor UK en FR • Fon. getranscribeerde POI entries NL, VL, UK en FR • WP2 (Nuance): ASR & prototype • WP3 (ELIS): Uitbreidingen Autonomata • G2Ps voor Engels, Frans & Duits • Aanpassingen Autonomata G2P toolbox • WP4 (CLST): Selectie mono-linguale uitspraakvarianten • Onderzoek naar P2Ps voor uitspraakvarianten van namen • WP5 (ELIS): Selectie multi-linguale uitspraakvarianten • Als WP4 maar met ac.modellen buitenlandse fonemen • WP6 (UiL-OTS): Evaluatie van technologie en van demonstrator

Deze presentatie • WP1 (TeleAtlas): Dataselectie • Fon getranscribeerde straatnamen voor UK en FR • Fon. getranscribeerde POI entries NL, VL, UK en FR • WP2 (Nuance): ASR & prototype • WP3 (ELIS): Uitbreidingen Autonomata • G2Ps voor Engels, Frans & Duits • Aanpassingen Autonomata G2P toolbox • WP4 (CLST): Selectie mono-linguale uitspraakvarianten • Onderzoek naar P2Ps voor uitspraakvarianten van namen • WP5 (ELIS): Selectie multi-linguale uitspraakvarianten • Als WP4 maar met ac.modellen buitenlandse fonemen • WP6 (UiL-OTS): Evaluatie van technologie en van demonstrator

Henk van den Heuvel Aandachtspunten in project: • Reële uitspraken in herkenner: • D.m.v. modellering van patronen die worden gevonden in het namencorpus • Inachtneming van interculturele aspecten: • Varianten binnen de Nederlandse foneemset • Varianten buiten de Nederlandse foneemset Doelen voor nu: • P2Ps trainen die beschikbare transcripties zo dicht mogelijk bij werkelijke uitspraken brengen • Uitgaande van het Autonomata namencorpus • Zowel train- als testmateriaal • CGN-transcripties • Voor het Nederlandse deel van het corpus • Onderzoek van P2Ps: • Die werken op G2P-transcripties • Die werken op voorbeeldtranscripties (kanonieke transcripties) • Uitgesplitst naar taalorigine van sprekers en van namen

Autonomata namencorpus • Materiaal: • 2500 namen per regio (NL / VL) • Opgesplitst in 10 lijsten van 250 namen • Elke lijst bestaat uit: • 25% voornamen • 25% achternamen • 35% straatnamen • 15% plaatsnamen • Fonetisch getranscribeerd: • Kanoniek (voorbeeld) • Auditief geverifieerd

orthography p2p converter final phonemic transcription general purpose g2p converter initial phonemic transcription Systeemarchitectuur ELIS G2P-P2P tandem automatically learned stochastic correction rules

Henk van den Heuvel Omvang datasets

Henk van den Heuvel P2Ps: G2P-output → aud.geverif.transcripties • Duidelijke verbetering door P2P (maakte 4 varianten per naam) • Grootste verbetering voor BLnamen • WER blijft hoog

Henk van den Heuvel P2Ps: G2P-output → aud.geverif.transcripties • Resultaten zijn beter dan voor gecombineerde naamsoorten • Invloed taalachtergrond naam is belangrijker dan naamsoort

Henk van den Heuvel Uitsplitsing naar taalorigine • Trainingsmateriaal in gearceerd gebied is te gering

Henk van den Heuvel P2Ps: G2P-output→Auditief geverifieerde transcripties • Uitsplitsing namen naar taal heeft zin: BL slechter dan apart • Uitsplitsing sprekers naar taal heeft zin: BL slechter dan apart • Effect 1 > Effect 2 • Beste resultaten voor EN-namen: systematischer door meer kennis

Henk van den Heuvel P2Ps: Voorbeeldtranscripties → aud.geverifieerde transcripties • Referentie (WER1) is G2P-transcriptie • De P2P-transcripties zijn beter dan de vorige (vanaf G2P getraind); het zijn de beste tot nu toe. Vb-trans zijn beter uitgangspunt om P2Ps te trainen dan G2P-outputs

Henk van den Heuvel P2Ps: Voorbeeldtranscripties → aud.geverifieerde transcripties • Dezelfde P2Ps, maar referentie (WER1) is nu de voorbeeld-transcriptie • T.o.v. G2P-ref zijn de verbeteringen kleiner (logisch) • De WERs zijn nog steeds >75% voor BLspr en BLnamen (behalve Engels) • Bij Engels zit verbetering vnl. in voorbeeldtranscripties zelf

Henk van den Heuvel Vervolgonderzoek • P2Ps trainen voor het Vlaamse deel van het corpus • Engelse G2P als uitgangspunt voor Engelse namen nemen • P2Ps gebruiken om uitspraakvarianten van POIs te maken • Selectie uitspraakvarianten voor herkenner • Alle 4 varianten opnemen in lexicon? • Reductiestrategieen?

Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too!

Henk van den Heuvel CLST, RU Nijmegen What’s in a name? Autonomata Too!

Presentation Transcript

Lessor Accounting Revenue Recognition and Performance Measurement

In silico ADME/Tox in drug design

Nederlanders en hun financieel inzicht

Oocyte donation: controversial issues in clinical practice.

MOBILITY AND HETEROGAMY EFFECTS SOBEL’S DIAGONAL REFERENCE MODELS Wout Ultee

OPUS-College

Embedded Computer Architecture

16 januari 2009 Bram Jacobs voorzitter a.i. LVAG, aios Neurologie

High energy cosmic rays

BRANDWEER NIJMEGEN

Graphics Processing Unit

Kazuya Akimoto

Security Networked Society, Networked Science

Graphics Processing Unit (GPU) Architecture and Programming

De Zon en Licht

Graphene: Corrugations, defects, scattering mechanisms, and chemical functionalization

Primeras Jornadas Internacionales sobre Bombas Manuales y de Ariete

Embedded Processor Architecture 5kk73

ASCI Winterschool on Embedded Systems March 2004 Renesse

Novel treatment strategies in metastatic colorectal cancer patients with KRAS wildtype tumors

Grenzen aan het extreme

States of consciousness Prof. dr. Anton M.L. Coenen NICI – Department of Biological Psychology