html5-img
1 / 1

Abstract Automatic language identification using a phonotactic approach Issues addressed:

Abstract Automatic language identification using a phonotactic approach Issues addressed: - context-independent vs context-dependent acoustic phone models - phonotactic vs syllabotactic modeling - genericity of multilingual acoustic models towards unseen languages

naasir
Download Presentation

Abstract Automatic language identification using a phonotactic approach Issues addressed:

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Abstract • Automatic language identification using a phonotactic approach • Issues addressed: • - context-independent vs context-dependent acoustic phone models • - phonotactic vs syllabotactic modeling • - genericity of multilingual acoustic models towards unseen languages • Experimental work : multilingual broadcast news • corpus MIDL_8L8 languages for acoustic and language model • 24h train + 2h testtraining and test:French, Spanish, Italian, Portuguese, • English, German, Arabic, Mandarin Chinese. • corpus DGA_11L+10L11 languages for language model training • 520h train + 60h testFrench, Spanish, Italian, Portuguese, English, • Arabic, Japanese, Corean, Hindi, Dutch, Polish, • 10 unseen languages for rejection • Results : 3.7% EER on 30s segments using the DGA_11L+10L corpus and • a ROVER system combining phono- and syllabotactic models. corpus MIDL_8L phones syllabes apprentissage acoustique CI MIDL8L appr plusieurs passes + Modèle acoustique multilingue en contexte Modèle acoustique multilingue hors contexte Alignement acoustico- phonémique apprentissage phono/syllabotactique Modèle 3gramme phonotactique ou syllabotactique Langue i Modèle n-gramme phononotactique ou syllabo-tactique Langue i Modèle n-gramme phononotactique ou syllabo-tactique Langue i Modèle n-gramme phononotactique ou syllabo-tactique Langue i CD test d'IAL Langue identifiée Langue j Décodeur acoustico- phonémique ou syllabique CD MIDL8L ou DGA11L+10L test Modèles acoustiques multilingues de phones 73 phones multilingues. 2 jeux de modèles acoustiques : - 73 modèles contexte-indépendants CI - 28k modèles contexte-dépendants CD Choix du modèle acoustique multilingue : portabilité du système à des langues inconnues, (sans aucune donnée transcrite). corpus DGA11L+10L : tester ces capacités. Décodeur acoustico-phonémique/syllabique : conversion en flux de phones/syllabes Identification de la langue par modèles 3-grammes de phones/syllabes par langue cible. CI IAL phonotactique ou syllabotactique MIDL8L ou DGA11L+10L appr Modélisations acoustiques multilingueset structurations syllabiques pour l'IALDong Zhu, Fabien Antoine*, Martine Adda-DeckerLIMSI-CNRS, Université de Paris-Sud, BP 133, 91403 Orsay cedex, France*DGA-CTA, 16 bis av. Prieur de la Côte d’Or, 94114 Arcueil cedex, FranceMél : Dong.Zhu@limsi.fr, Fabien.Antoine@etca.fr , Martine.Adda@limsi.fr Modèles acoustiques multilingues et reconnaissance phonémique/syllabique • Corpus MIDL_8L : • Taux de reconnaissance phonémiques et syllabiques avec des modèles CI et CD (cont) : • performances comparables pour phon. et syll. • gain important avec modèles acoustiques CD. • CI : ~ 35% vs. CD : ~60% • Remarque : • modèles acoustiques appris sur les mêmes langues, les mêmes types d’émissions que le test. Résultats d’identification des langues Configurations du système IAL Structure générale du système d’identification automatique des langues (IAL) : voir Fig.1. Approche phonotactique : identifier la langue sur les combinaisons de « phonèmes » (ou autres unités) En pratique : 1) une partie décodage acoustique (conversion du flux audio en un flux d’unités linguistiques) 2) une partie identification des langues proprement dite, utilisant des « modèles de langage » spécifiques à chaque langue : statistiques sur les combinaisons d’unités linguistiques. Corpus MIDL_8L : audio + transcriptions orthographiques Corpus DGA_11L+10L : audio, variétés de langues pour l’anglais, le français et l’arabe, aucune transcription orthographique Résultats d’identification : - significativement meilleurs avec modèles acoustiques CD qu’avec modèles CI. - significativement meilleurs avec le modèle syllabotactique que le modèle phonotactique. Cela montre l’intérêt potentiel de modèles acoustiques contexte-dépendants et d’une structuration syllabique de la langue. Il reste à examiner l’approche à plus grande échelle. corpus DGA_10L+11L Modèle acoustiqueCI du corpus MIDL_8L. Modèles de langage (phonotactiques ou syllabotactiques) pour chaque langue cible. pour les variétés de l’anglais (américain, australien, britannique, non natif), la quantité d’apprentissage totale est de 50 heures. pour le modèle de rejet (10 langues), la quantité d’apprentissage est de 100h. Test : environ 60 heures, comparaison des approches phonotactiques, syllabotactiques et de la fusion des deux. Fig. 1 :système IAL avec approches phono/syllabotactique. Structures syllabiques - corpus MIDL8L dépendent du jeu de « phonèmes » choisis et de la procédure de syllabation. En terme de taux d’égale erreur, nous obtenons avec des segments de plus de 10 secondes : 5,5% pour le système syllabotactique, 4,0% pour le système phonotactique et 3,7% pour le système fusionné. avec les 73 symboles multilingues certains phonèmes complexes se trouvent décomposés en une suite de symboles élémentaires (affriquées, diphtongues). Par exemple le phonème chinois “ʦ” est transformée en /tsh/, changeant la structure de l’attaque de C en CCC. Conclusion & perspectives Modèles multilingues contexte-dépendants permettent d’améliorer les performances d’identification sur un corpus de test composé des mêmes langues et des même type de sources que le corpus d’apprentissage. L’approche syllabotactique obtient d’excellents résultats dans cette configuration. L’extension à un ensemble de langues sans aucune ressource transcrite, n’a été que partiellement testée (i.e. uniquement avec les modèles acoustiques indépendants du contexte) . Les expériences menées sur le corpus DGA11L+10L avec des modèles acoustiques hors contexte donnent de meilleurs résultats avec l’approche phonotactique qu’avec l’approche syllabotactique. Cependant la fusion des deux approches a permis de réaliser un gain relatif de 5,8% pour les segments de 10-30 secondes et de 8,2% pour les segments de 5-10 secondes. L’approche syllabique s’est montrée plus performante sur les langues à rejeter (avec des segments >  30 secondes). Modélisation n-gramme : quantité de données disponibles suffisante pour estimer les modèles phonotactiques trigrammes (de l’ordre d’un million de phonèmes par langue pour un vocabulaire de 73 unités), tandis que les données sont insuffisantes pour le modèle syllabique (de l’ordre de 300 000 syllabes par langue pour un vocabulaire de 9300 unités). Fig. 2 : répartition des différentes structures syllabiques dans les 8 langues. A partir du corpus MIDL_8L (appr.) un dictionnaire de 9303 syllabes a été retenu pour les 8 langues. La fréquence d’occurrence comme critère de sélection permet d’éliminer syllabes rares, difficiles à modéliser avec une approche statistique, ainsi que des syllabes erronées. Tab. 1 :Nombre de syllabes choisies pour le dictionnaire & taux de couverture des syllabes.

More Related