Codage de la parole tr s bas d bit avec des unit s alisp
This presentation is the property of its rightful owner.
Sponsored Links
1 / 20

Codage de la parole à très bas débit avec des unités ALISP PowerPoint PPT Presentation


  • 117 Views
  • Uploaded on
  • Presentation posted in: General

Codage de la parole à très bas débit avec des unités ALISP. avec les partenaires du projet SYMPATEX : ENST ELAN Informatique Thomson => Thales. Plan. 1 Introduction codage 2 Codage à très bas débit 3 Codeur segmental ALISP 4 Méthodes de synthèse

Download Presentation

Codage de la parole à très bas débit avec des unités ALISP

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Codage de la parole tr s bas d bit avec des unit s alisp

Codage de la parole à très bas débit avec des unités ALISP

avec les partenaires du projet SYMPATEX :ENSTELAN InformatiqueThomson => Thales


Codage de la parole tr s bas d bit avec des unit s alisp

Plan

  • 1Introduction codage

  • 2Codage à très bas débit

  • 3Codeur segmental ALISP

  • 4Méthodes de synthèse

  • 5 Résultats cas mono-locuteur

  • 6 Résultats cas indépendant du locuteur

  • 7Conclusions et perspectives


Codage de la parole tr s bas d bit avec des unit s alisp

1. Codage de la parole

  • Codage =transmission d’un message vocal, en diminuant le débit et en conservant un maximum d’information

  • Types de codeurs :

    • A forme d’onde

    • Hybrides

    • Paramétriques

    • Segmentaux


1 1 quels codeurs pour quels d bits

Indicative

Quality

(

MOS

)

5

G711 72

G 728 92

G 729 96

G 723-196

4

G721 84

2400 HSX 96

GSM 87

1200 HSX 97

VLBRC

3

ST4209 83

FS 1016 90

ST 4198 87

2

ST 4479 93

LPC 10 83

1

0,5k

1k

2k

4k

8k

16k

32k

64k

Bit rate (bits/s)

Très bas débits

Paramétriques

Hybrides

A forme d’onde

1.1 Quels codeurs pour quels débits


1 3 evolution des codeurs

Indicative

Quality

(

MOS

)

G.711

G.721

5

(64 kb/s)

G.728

G.729

(32 kb/s)

Minimum

qual

. for high

(16 kb/s)

(8 kb/s)

cost application

4

Consumer quality

Minimum

qual

. For low

3

HSX

cost application

(2,4 kb/s)

2

ALISP

LPC 10

(.4 kb/s)

(2,4 kb/s)

1

1970

1980

1990

2000

2010

1.3 Evolution des codeurs


1 3 pourquoi d velopper des codeurs tr s bas d bit

1.3 Pourquoi développer des codeurs à très bas débit

  • Trouver les limites de la compression de la parole(sans sa compréhension)

  • Applications pratiques :

    • Répondeurs automatiques sans bandes magnétiques

    • Archivage et «boîtes noires »

    • Communication sur des canaux à bas débits

    • Codage redondant en télédiffusion

  • But à atteindre :

    • Débit moyen de 100-500 bps

    • Indépendant du locuteur, de la langue, de l’environnement


2 principes g n raux des codeurs tr s bas d bit 400 bps

2. Principes généraux des codeurs à très bas débit < 400 bps

  • Nommées aussi codeurs segmentaux ou codeurs par indexation

  • Nécessitent l’utilisation de :

    • Méthodes de reconnaissance

      • Quelles unités de reco utiliser ?

    • Méthodes de synthèse

      • Quelles unités de synthèse utiliser ?

  • Donnéesà transmettre :

    • Indices des unités de parole reconnus

    • Informations prosodique

  • Utiliser des unités ALISP


2 2 le prix payer

2. 2 Le prix à payer

  • Complexité croissante

  • Retard au décodage

  • Mémoire plus importante

  • Sensibilité aux erreurs de transmission

  • Sensibilité au bruit ?


3 motivations pour utiliser alisp

3. Motivations pour utiliser ALISP

  • Permet un codage à très bas débit

  • Développement de nouveaux outils pour la recherche en phonétique

  • Intègre le paradigme d’analyse par la synthèse

  • Applications en reconnaissance de la parole indépendante de la langue

  • Identification de la langue

  • Amélioration de la qualité de la parole transmise, débruitage


3 2 cas id al versus cas actuel

3.2 Cas idéal versus cas actuel

ALISP devrait permettre idéalement un codage

  • Indépendant du locuteur

  • Indépendant de la langue

  • Indépendant de l’environnement

    Réalité :

  • On commence par résoudre le cas dépendant du locuteur

  • Premiers résultats pour le codage indépendant du locuteur


3 3 principes du codage

Représentant A1

HMM A

Représentant A8

Dictionnaire des modèles HMM des unités ALISP

Indice unité ALISP

Analyse spectrale

Détermination des unités de synthèse

Choix unité de synthèse par DTW

parole

Reconnaissance HMM

Indice unité de synthèse

Pitch, énergie, temps

Analyse prosodique

Codage prosodie

3.3 Principes du Codage 


D codage

Représentant A1

Représentant A8

Indice ALISP

Parole synthétique

Synthèse par concaténation

Choix unité de synthèse

N° représentant de synthèse

Paramètres de prosodie

 décodage


4 m thodes de synth se

4. Méthodes de synthèse

  • Cas monolocuteur :

    • commencer avec la LPC => résultats mauvais

    • Nouvelle methode de concatention de segments dans des zones de stabilité spectrale, avec synthèse préalable avec Harmonic Noise Model (HNM)

  • Cas indépendant du locuteur :

    • avec la LPC => résultats comparables au cas mono-locuteur

    • pas encore appliquée des méthodes de synthèse HNM


5 resultats monolocuteur sur bu corpus

5. Resultats monolocuteur sur « BU corpus »

  •  codage méthode ALISP (HNM)  unités de synthèse correspondantes aux modèles HMM

  •  synthèse HNM

  •  original

  •  choix des unités de synthèse à partir des transcriptions phonétiques  concaténation des formes d’onde


6 exp riences ind pendantes du locuteur sur bref

6. Expériences indépendantes du locuteur sur BREF

  • Cas indépendant du locuteur : suffisamment de données parole d’un échantillon représentatif pour les données d’ entraînementet d’un autre ensemble de locuteurs disjoints pour le test (codage)

  • Exemple mono-locuteur , synthèse LPC, sur Bref

  • Exemple indépendant du locuteur, synthèse LPC


6 1 base de donn es de parole bref

6.1 Base de données de parole BREF

  • Caractéristiques principales :

    • corpus français

    • composé de textes lus, extraits du journal « Le Monde »

    • 120 locuteurs, avec en moyenne 40-70 min de parole par loc.

    • Séparés en 80 locuteurs pour l’entraînement, 40 de développement et 20 de test, avec des textes différents

    • Enregistrement qualité studio, échantillonné à 16kHz


6 2 r sultats multilocuteur sur bref corpus

6.2 Résultats multilocuteur sur « BREF corpus »

Caractéristique desunités ALISP, longueur moyenne de 66 ms, débit 140 bps

Fichiers sonores

  • synthèse LPC

  • cas mono locuteur (synthèse LPC)

  • cas indépendant du locuteur

  • original


Codage de la parole tr s bas d bit avec des unit s alisp

6.3 Correspondance Alisp phones, Bref


Conclusions et perspectives

Conclusions et perspectives

  • améliorer l’intelligibilité et la qualité

  • choix d’unités compatibles pour le codage et la synthèse à partir du texte

  • rendre le codeur indépendant du locuteur et de la langue

  • restituer l’identité du locuteur


Et plus longs termes

Et à plus longs termes...

  • utiliser la technique ALISP de codage avec

    des références étiquetées phonétiquement

    pour faciliter la reconnaissance automatique

    de la parole

  • expérimenter le codage ALISP en vérification du locuteur


  • Login