1 / 20

Codage de la parole à très bas débit avec des unités ALISP

Codage de la parole à très bas débit avec des unités ALISP. avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales. Plan. 1 Introduction codage 2 Codage à très bas débit 3 Codeur segmental ALISP 4 Méthodes de synthèse

rue
Download Presentation

Codage de la parole à très bas débit avec des unités ALISP

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Codage de la parole à très bas débit avec des unités ALISP avec les partenaires du projet SYMPATEX :ENSTELAN InformatiqueThomson => Thales

  2. Plan • 1Introduction codage • 2Codage à très bas débit • 3Codeur segmental ALISP • 4Méthodes de synthèse • 5 Résultats cas mono-locuteur • 6 Résultats cas indépendant du locuteur • 7Conclusions et perspectives

  3. 1. Codage de la parole • Codage =transmission d’un message vocal, en diminuant le débit et en conservant un maximum d’information • Types de codeurs : • A forme d’onde • Hybrides • Paramétriques • Segmentaux

  4. Indicative Quality ( MOS ) 5 G711 72 G 728 92 G 729 96 G 723-196 4 G721 84 2400 HSX 96 GSM 87 1200 HSX 97 VLBRC 3 ST4209 83 FS 1016 90 ST 4198 87 2 ST 4479 93 LPC 10 83 1 0,5k 1k 2k 4k 8k 16k 32k 64k Bit rate (bits/s) Très bas débits Paramétriques Hybrides A forme d’onde 1.1 Quels codeurs pour quels débits

  5. Indicative Quality ( MOS ) G.711 G.721 5 (64 kb/s) G.728 G.729 (32 kb/s) Minimum qual . for high (16 kb/s) (8 kb/s) cost application 4 Consumer quality Minimum qual . For low 3 HSX cost application (2,4 kb/s) 2 ALISP LPC 10 (.4 kb/s) (2,4 kb/s) 1 1970 1980 1990 2000 2010 1.3 Evolution des codeurs

  6. 1.3 Pourquoi développer des codeurs à très bas débit • Trouver les limites de la compression de la parole(sans sa compréhension) • Applications pratiques : • Répondeurs automatiques sans bandes magnétiques • Archivage et «boîtes noires » • Communication sur des canaux à bas débits • Codage redondant en télédiffusion • But à atteindre : • Débit moyen de 100-500 bps • Indépendant du locuteur, de la langue, de l’environnement

  7. 2. Principes généraux des codeurs à très bas débit < 400 bps • Nommées aussi codeurs segmentaux ou codeurs par indexation • Nécessitent l’utilisation de : • Méthodes de reconnaissance • Quelles unités de reco utiliser ? • Méthodes de synthèse • Quelles unités de synthèse utiliser ? • Donnéesà transmettre : • Indices des unités de parole reconnus • Informations prosodique • Utiliser des unités ALISP

  8. 2. 2 Le prix à payer • Complexité croissante • Retard au décodage • Mémoire plus importante • Sensibilité aux erreurs de transmission • Sensibilité au bruit ?

  9. 3. Motivations pour utiliser ALISP • Permet un codage à très bas débit • Développement de nouveaux outils pour la recherche en phonétique • Intègre le paradigme d’analyse par la synthèse • Applications en reconnaissance de la parole indépendante de la langue • Identification de la langue • Amélioration de la qualité de la parole transmise, débruitage

  10. 3.2 Cas idéal versus cas actuel ALISP devrait permettre idéalement un codage • Indépendant du locuteur • Indépendant de la langue • Indépendant de l’environnement Réalité : • On commence par résoudre le cas dépendant du locuteur • Premiers résultats pour le codage indépendant du locuteur

  11. Représentant A1 HMM A Représentant A8 Dictionnaire des modèles HMM des unités ALISP … Indice unité ALISP Analyse spectrale Détermination des unités de synthèse Choix unité de synthèse par DTW parole Reconnaissance HMM Indice unité de synthèse Pitch, énergie, temps Analyse prosodique Codage prosodie 3.3 Principes du Codage 

  12. Représentant A1 … Représentant A8 Indice ALISP Parole synthétique Synthèse par concaténation Choix unité de synthèse N° représentant de synthèse Paramètres de prosodie  décodage

  13. 4. Méthodes de synthèse • Cas monolocuteur : • commencer avec la LPC => résultats mauvais • Nouvelle methode de concatention de segments dans des zones de stabilité spectrale, avec synthèse préalable avec Harmonic Noise Model (HNM) • Cas indépendant du locuteur : • avec la LPC => résultats comparables au cas mono-locuteur • pas encore appliquée des méthodes de synthèse HNM

  14. 5. Resultats monolocuteur sur « BU corpus » •  codage méthode ALISP (HNM)  unités de synthèse correspondantes aux modèles HMM •  synthèse HNM •  original •  choix des unités de synthèse à partir des transcriptions phonétiques  concaténation des formes d’onde

  15. 6. Expériences indépendantes du locuteur sur BREF • Cas indépendant du locuteur : suffisamment de données parole d’un échantillon représentatif pour les données d’ entraînementet d’un autre ensemble de locuteurs disjoints pour le test (codage) • Exemple mono-locuteur , synthèse LPC, sur Bref • Exemple indépendant du locuteur, synthèse LPC

  16. 6.1 Base de données de parole BREF • Caractéristiques principales : • corpus français • composé de textes lus, extraits du journal « Le Monde » • 120 locuteurs, avec en moyenne 40-70 min de parole par loc. • Séparés en 80 locuteurs pour l’entraînement, 40 de développement et 20 de test, avec des textes différents • Enregistrement qualité studio, échantillonné à 16kHz

  17. 6.2 Résultats multilocuteur sur « BREF corpus » Caractéristique desunités ALISP, longueur moyenne de 66 ms, débit 140 bps Fichiers sonores • synthèse LPC • cas mono locuteur (synthèse LPC) • cas indépendant du locuteur • original

  18. 6.3 Correspondance Alisp phones, Bref

  19. Conclusions et perspectives • améliorer l’intelligibilité et la qualité • choix d’unités compatibles pour le codage et la synthèse à partir du texte • rendre le codeur indépendant du locuteur et de la langue • restituer l’identité du locuteur

  20. Et à plus longs termes... • utiliser la technique ALISP de codage avec des références étiquetées phonétiquement pour faciliter la reconnaissance automatique de la parole • expérimenter le codage ALISP en vérification du locuteur

More Related