Indexation parole musique bruit
Download
1 / 29

Indexation Parole - PowerPoint PPT Presentation


  • 83 Views
  • Uploaded on

Indexation Parole / Musique / Bruit. Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche en Informatique de Toulouse Soutenance DEA 2IL - 27 juin 2001. Plan. Cadre de l’étude Etat de l’art Le système

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Indexation Parole ' - noe


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Indexation parole musique bruit

Indexation Parole / Musique / Bruit

Julien PINQUIER

Responsables de stage : Régine André-Obrecht et Christine Sénac

Equipe ART.ps

Institut de Recherche en Informatique de Toulouse

Soutenance DEA 2IL - 27 juin 2001


Plan

  • Cadre de l’étude

  • Etat de l’art

  • Le système

  • Réalisations et expériences

  • Conclusion et perspectives

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit


Plan

  • Cadre de l’étude

  • Etat de l’art

  • Le système

  • Réalisations et expériences

  • Conclusion et perspectives

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit


Cadre de l tude
Cadre de l’étude

  • Importance de l’indexation

    • Accroissement du volume des données numériques

      • Description du contenu (« norme » ISO_MPEG7)

      • Analogie avec la recherche textuelle

    • Méthodes actuelles d’indexation : manuelles

    • Réduire le temps de recherche

    • Bande sonore souvent très complexe

      • Discrimination entre parole et musique

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit


Cadre de l tude1
Cadre de l’étude

  • Le Projet de recherche : AGIR (RNRT)

Signatures

multimédia

Application

et

validation

Signatures images

Moteur d’indexation et de recherche

Signatures vidéo

Documents

multimédia

Signatures texte

Signatures son

Signatures son

  • Le sujet de DEA

    • Caractérisation : Parole / Musique

    • Un système d’indexation basé sur la modélisation différenciée

    • Approche statistique (Modèles de Mélanges de lois Gaussiennes)

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit


Plan

  • Cadre de l’étude

  • Etat de l’art

  • Le système

  • Réalisations et expériences

  • Conclusion et perspectives

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit


Etat de l art
Etat de l’art

  • Parole

    • Structure formantique [Calliope89]

    • Formants = Fréquences de résonance du conduit vocal

Formants

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit


Etat de l art1
Etat de l’art

  • Musique

    • Structure harmonique

Harmoniques

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit


Etat de l art2
Etat de l ’art

  • Paramètres

    • Temporels : ZCR et Energie [Saunders96], [Scheirer97] et [Zhang98]

    • Fréquentiels : issus de la DSP [Saunders96] et [Scheirer97]

    • Mixtes : modulation de l’énergie à 4 Hz [Scheirer97]

      • représente le rythme syllabique

    • Issus de modélisation : MFCC [Foote97]

musique

parole

  • Classification

    • Fonctions à seuils

    • Approche statistique

      • Méthodes paramétriques : mélanges de gaussiennes, MMC

      • Méthodes non paramétriques : k plus proches voisins...

    • Réseaux de neurones

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit


Plan

  • Cadre de l’étude

  • Etat de l’art

  • Le système

  • Réalisations et expériences

  • Conclusion et perspectives

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit


Le syst me
Le système

  • Décomposition Parole / Musique

  • Modélisation Différenciée

    • 1 classe = {Espace de représentation, Modèle}

  • Description du système

Signal

Décision

Pré traitement

Classification

2 systèmes : parole et musique

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit


Le pr traitement
Le pré traitement

  • Parole : analyse cepstrale

    • MFCC (18 coefficients par vecteur d’observation)

    • Soustraction cepstrale

Coefficients

Signal

Cepstraux

Accentuation

Fenêtrage

FFT

Filtrage+Mel

Log

FFT -1

  • Musique : analyse spectrale

    • SPL (29 coefficients par vecteur d’observation)

Signal

Coefficients

Accentuation

Fenêtrage

FFT

Filtrage

Spectraux

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit


Reconnaissance
Reconnaissance

  • Méthode de classification

    • Approche statistique

      • Classe

      • 2 modèles

      • NonClasse

      • MMG

      • Maximum de vraisemblance (vecteur observation - modèles)

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit


La reconnaissance
La reconnaissance

  • Classification

    • Fenêtre d’analyse (256 ou 512 points)

Exemple de classification Parole / NonParole

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit


La reconnaissance1
La reconnaissance

  • Assemblage

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit


La reconnaissance2
La reconnaissance

  • 1er Lissage (20 ms)

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit


La reconnaissance3
La reconnaissance

  • 2ème Lissage (indexation)

    • Parole (environ 400 ms) et musique (environ 2 s)

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit


La reconnaissance4
La reconnaissance

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit


Le syst me1
Le système

Apprentissage

Modèles

Signal

Décision

Pré traitement

Classification

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit


L apprentissage des mmg supervis
L’apprentissage des MMG (supervisé)

  • Etiquetage manuel

    • Transcriber (C. Barras)

      • http://www.etca.fr/CTA/gip/Projets/Transcriber/

  • Affectation des paramètres

    • 3 fichiers labels  fichiers de paramètres

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit


L apprentissage des gmm
L’apprentissage des GMM

  • Initialisation des modèles : algorithme VQ

    • Représenter les éléments d’une classe par son centroïde

  • Optimisation des paramètres : algorithme EM

    • Estimation : calcul des probabilités Pnk que le vecteur yn soit généré par la loi gaussienne k.

    • Maximisation : Ré-estimation des paramètres k, mk et k à partir des probabilités Pnk

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit


L apprentissage des gmm1
L’apprentissage des GMM

32 lois gaussiennes

Parole

Paramètres indicés

(Parole)

Etiquetage manuel (parole)

VQ

EM

Affectation

NonParole

Coeff. Cepstraux

18

Paramètres indicés

(NonParole)

VQ

EM

Signal

MODELES

Pré traitement

Musique

Paramètres indicés

(Musique)

29

Coeff. spectraux

VQ

EM

Affectation

NonMusique

Paramètres indicés

(NonMusique)

VQ

EM

Etiquetage manuel (musique)

16 lois gaussiennes

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit


Plan

  • Cadre de l’étude

  • Etat de l’art

  • Le système

  • Réalisations et expériences

  • Conclusion et perspectives

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit


R alisations et exp riences
Réalisations et expériences

  • Première expérience

    • Corpus : épisode de la série « Chapeau Melon et Bottes de Cuir »

      duréetotale : 50mn

      composition : parole pure, musique pure et zones « mixtes »

      parole : téléphonique, enregistrements extérieurs, foule, poursuites de voitures…

      musique : cordes, vents, basses, guitare électrique, batterie …

      locuteurs : 4 hommes + 1 femme

    • Apprentissage

      durée : 35mn

      composante parole : zone parole pure + non parole

      composante musique : zone musique pure + non musique

    • Reconnaissance

      15mn différentes de celles de l’apprentissage

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit


R alisations et exp riences1
Réalisations et expériences

  • Résultats

    • Calcul des délais (frontières automatiques / manuelles)

    • Omissions et insertions

    • Calcul de l’accuracy : (durée corpus test - durée insertions - durée omissions ) / durée corpus test .

86 %

91 %

L’accuracy est de 95 % pour la parole et de 93 % pour la musique.

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit


R alisations et exp riences2
Réalisations et expériences

  • Exemple d’indexation automatique

Omission

Délai 70 cs

Lissage

  • Problème

    • la parole superposée au bruit et / ou à la musique

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit


R alisations et exp riences3
Réalisations et expériences

  • Deuxième expérience

    • Corpus

      • Journaux télévisés sportifs : 34mn environ

      • Apprentissage : 14mn

      • Reconnaissance : 20mn

  • Résultats (465 segments)

96 %

L’accuracy est excellente : 99,5 %.

  • Evolution nécessaire

    • adapter les modèles à n’importe quelle source

      • apprentissage volumineux et diversifié

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit


Plan

  • Cadre de l’étude

  • Etat de l’art

  • Le système

  • Réalisations et expériences

  • Conclusion et perspectives

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit


Conclusion et perspectives
Conclusion et perspectives

  • Conclusion

    • Résultats excellents, validation de la modélisation différenciée

    • Intérêt du stage : de la recherche à l’intégration

  • Perspectives

    • Adaptation des modèles à des corpus différents

    • Indexation multimédia basée sur la fusion audio / vidéo

    • Reconnaissance du locuteur

    • Détection mots clés, jingles

Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit


ad