Reconnaissance du locuteur
This presentation is the property of its rightful owner.
Sponsored Links
1 / 22

Reconnaissance du locuteur PowerPoint PPT Presentation


  • 77 Views
  • Uploaded on
  • Presentation posted in: General

Reconnaissance du locuteur. G. CHOLLET, R. BLOUET, S. RENOUARD, E. SANCHEZ-SOTO ( chollet,blouet,renouard,esanchez ) @ tsi.enst.fr GET-ENST/CNRS-LTCI 46 rue Barrault 75634 PARIS cedex 13 http://www.tsi.enst.fr/~chollet. Nos affiliations.

Download Presentation

Reconnaissance du locuteur

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Reconnaissance du locuteur

Reconnaissance du locuteur

G. CHOLLET, R. BLOUET,

S. RENOUARD, E. SANCHEZ-SOTO

(chollet,blouet,renouard,esanchez)@tsi.enst.fr

GET-ENST/CNRS-LTCI46 rue Barrault75634 PARIS cedex 13http://www.tsi.enst.fr/~chollet


Reconnaissance du locuteur

Nos affiliations

ENST:Ecole Nationale Supérieure des Télécommunicationshttp://www.enst.fr

CNRS:Centre National de la Recherche Scientifiquehttp://www.cnrs.fr

LTCI:Laboratoire de Traitement et Communication de l’Information

http://www.enst.fr/ura/ura.html


Activit s de l quipe parole

Activités de l’équipe « parole »

  • Codage à très bas débit (400 bps),

  • Analyse / Synthèse de la parole et visages parlants,

  • Détection et synthèse des émotions,

  • Reconnaissance automatique,

    • Adaptation au locuteur

    • Multilingue (français, anglais, mandarin, arabe)

  • Identification de la langue, du dialecte,

  • Reconnaissance du locuteur


Reconnaissance du locuteur

Bla-bla

Quelques modalités en

vérification d’identité

PIN

SECURED

SPACE


Reconnaissance du locuteur

Plan

  • Quelques applications de la reconnaissance du locuteur.

  • Avantages et inconvenients de la parole en vérification d’identité

  • La reconnaissance audio-visuelle (visage parlant)

  • Le savoir faire de l’ENST en reconnaissance du locuteur :

    • Vérification du locuteur :

      • Les projets CAVE et PICASSO (dépendant du texte)

      • Le consortium ELISA, le projet ALIZE, les évaluations NIST (independent du texte)

      • Le projet EUREKA !2340 MAJORDOME.

    • Détection de locuteurs : le projet ESTER

  • Perspectives


Applications de la reconnaissance du locuteur

Applications de la reconnaissance du locuteur

  • Vérification de l’identité (l’imposture délibérée est un risque)

  • Identification en ensemble ouvert (avons-nous dejà entendu ce locuteur ? )

  • Identification en ensemble fermé (qui prend la parole dans une réunion ?)

  • Recherche des passages où un locuteur prend la parole dans une base d’enregistrements audios

  • Aide à la reconnaissance de la parole

    Les auditeurs ne sont pas meilleurs que des systèmes automatiques pour la plupart de ces tâches (sauf s’ils connaissent le locuteur depuis de nombreuses années)


Le signal de parole en v rification d identit

Le signal de parole en vérification d’identité

  • Avantages

    • Applications téléphoniques,

    • Coût du capteur (microphone et CAN) faible

    • Possibilité d’intégration à une carte à puce

    • Fusion naturelle avec le visage (parlant)

  • Inconvenients

    • Manque de discrétion

    • Possibilité d’imitation, d’imposture

    • Sensibilité aux bruits, aux distortions,…

    • Variabilité temporelle


Reconnaissance du locuteur

Quelques protocoles

de vérification du locuteur

  • Typologie des approches :

    • Dépendante du texte

      • Mot de passe public

      • Mot de passe privé

      • Mot de passe personnalisé

      • Lecture ou répétition d’une phrase proposée par le système (“text prompted”)

    • Indépendante du texte

  • Possibilité d’adaptation au client

  • Evaluation (imposture délibérée)


Utilisation de mod les de markov cach s hmm

Utilisation de modèles de Markov cachés (HMM)


Th orie de la d tection

Théorie de la détection


Detection error tradeoff det curve

Detection Error Tradeoff (DET) Curve


Reconnaissance du locuteur

CAVE – PICASSO

http://www.picasso.ptt-telecom.nl/project/


V rification du locuteur d pendante du texte dans le projet picasso

Vérification du locuteur dépendante du texte dans le projet PICASSO

  • Séquences de 16 chiffres

    • Modèles de chiffres indépendants du locuteur

    • Adaptation de ces modèles à la voix du client (phase d’apprentissage)

    • Des taux d’égale erreur inférieurs à 1% sont possibles

  • Mot de passe personnalisé

    • Permet au client de choisir son mot de passe

  • Imposture délibérée

    • On suppose que l’imposteur a entendu le mot de passe et dispose d’enregistrements du client

    • Il peut utiliser des techniques de transformation de la voix pour tromper le système


V rification du locuteur ind pendante du texte

Vérification du locuteur indépendante du texte

  • Le consortium ELISA, le projet Technolangue-ALIZE

    • ENST, LIA, IRISA, DDL, Uni-Fribourg, Uni-Balamand...

    • http://elisa.ddl.ish-lyon.cnrs.fr/

    • Le logiciel libre BECARS (Balamand-ENST Cedre Autom Rec of Speakers)

  • Les évaluations NIST en vérification du locuteur

    • http://www.nist.gov/speech/tests/spk/index.htm

  • Gaussian Mixture Model, Réseaux Bayésiens

  • Adaptation au client, Information mutuelle des gaussiennes

  • Fusion avec des techniques segmentales (ALISP)


Mod le de m lange de gaussiennes

8 Gaussians per mixture

Modèle de mélange de Gaussiennes

  • La probabilité d’une observation x est modélisée par une somme pondérée de Gaussiennes :


National institute of standards technology nist speaker verification evaluations

National Institute of Standards & Technology (NIST)Speaker Verification Evaluations

  • Annual evaluation since 1995

  • Common paradigm for comparing technologies


Reconnaissance du locuteur

WORLDGMMMODEL

GMMMODELING

WORLD DATA

Front-end

TARGETGMMMODEL

TARGET

SPEAKER

GMM model adaptation

Front-end

GMM speaker modeling


Reconnaissance du locuteur

HYPOTH.TARGETGMM MOD.

Front-end

WORLDGMMMODEL

Baseline GMM method

l

Test Speech

=

LLR SCORE


Les r sultats en 2002

Les résultats en 2002


Visages parlants et v rification d identit

Visages parlants et vérification d’identité

  • Le visage et la parole offrent des informations complémentaires sur l’identité de la personne.

  • De nombreux PC, PDA et téléphones sont et seront équipés d’une caméra et d’un microphone

  • Les situations d’imposture sont plus difficiles à réaliser.


Fusion parole et visage

Fusion Parole et Visage

(thèse de Conrad Sanderson, août 2002)


Reconnaissance du locuteur

Conclusions et Perspectives

  • La parole permet une vérification d’identité à travers le téléphone.

  • Combiner les approches dépendantes et indépendantes du texte améliore la fiabilité.

  • Si l’on utilise le visage pour vérifier l’identité, il ne coûte pas cher d’ajouter la parole (et cela rapporte gros !).

  • De plus en plus de PC, PDA et téléphones sont équipés d’un microphone et d’une caméra. La reconnaissance audio-visuelle devrait se généraliser.


  • Login