Indexation de la bande sonore recherche des composantes parole et musique
This presentation is the property of its rightful owner.
Sponsored Links
1 / 29

Indexation de la bande sonore : recherche des composantes Parole et Musique PowerPoint PPT Presentation


  • 88 Views
  • Uploaded on
  • Presentation posted in: General

Indexation de la bande sonore : recherche des composantes Parole et Musique. Julien PINQUIER, Christine SENAC, Régine ANDRE-OBRECHT Équipe ART.ps (Analyse, Reconnaissance et Traitement automatique de la parole et des sons) Institut de Recherche en Informatique de Toulouse

Download Presentation

Indexation de la bande sonore : recherche des composantes Parole et Musique

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Indexation de la bande sonore recherche des composantes parole et musique

Indexation de la bande sonore :recherche des composantes Parole et Musique

Julien PINQUIER, Christine SENAC, Régine ANDRE-OBRECHT

Équipe ART.ps

(Analyse, Reconnaissance et Traitement automatique de la parole et des sons)

Institut de Recherche en Informatique de Toulouse

Présentation RFIA 2002 - 8 janvier 2002


Indexation de la bande sonore recherche des composantes parole et musique

Plan

  • Introduction

  • La modélisation différenciée

  • Le système

  • Réalisations et expériences

  • Conclusion et perspectives

RFIA 2002 - 8 janvier 2002Indexation de la bande sonore : recherche des composantes Parole et Musique


Indexation de la bande sonore recherche des composantes parole et musique

Plan

  • Introduction

  • La modélisation différenciée

  • Le système

  • Réalisations et expériences

  • Conclusion et perspectives

RFIA 2002 - 8 janvier 2002Indexation de la bande sonore : recherche des composantes Parole et Musique


Introduction

Introduction

  • Importance de l’indexation

    • Accroissement du volume des données numériques

      • Description du contenu (« norme » ISO_MPEG7)

      • Analogie avec la recherche textuelle

    • Méthodes actuelles d’indexation : manuelles

    • Réduire le temps de recherche

    • Bande sonore souvent très complexe

      • Discrimination entre parole et musique

RFIA 2002 - 8 janvier 2002Indexation de la bande sonore : recherche des composantes Parole et Musique


Introduction1

Introduction

  • Le Projet de recherche : AGIR (RNRT)

Signatures

multimédia

Application

et

validation

Signatures images

Moteur d’indexation et de recherche

Signatures vidéo

Documents

multimédia

Signatures texte

Signatures son

Signatures son

  • Objectifs

    • Caractérisation : Parole / Musique

    • Un système d’indexation basé sur la modélisation différenciée

    • Approche statistique (Modèles de Mélanges de lois Gaussiennes)

RFIA 2002 - 8 janvier 2002Indexation de la bande sonore : recherche des composantes Parole et Musique


Indexation de la bande sonore recherche des composantes parole et musique

Plan

  • Introduction

  • La modélisation différenciée

  • Le système

  • Réalisations et expériences

  • Conclusion et perspectives

RFIA 2002 - 8 janvier 2002Indexation de la bande sonore : recherche des composantes Parole et Musique


La mod lisation diff renci e

La modélisation différenciée

  • Parole

    • Structure formantique [Calliope89]

    • Formants = Fréquences de résonance du conduit vocal

Formants

RFIA 2002 - 8 janvier 2002Indexation de la bande sonore : recherche des composantes Parole et Musique


La mod lisation diff renci e1

La modélisation différenciée

  • Musique

    • Structure harmonique

Harmoniques

RFIA 2002 - 8 janvier 2002Indexation de la bande sonore : recherche des composantes Parole et Musique


La mod lisation diff renci e2

La modélisation différenciée

  • Paramètres

    • Temporels : ZCR et Energie [Saunders96], [Scheirer97] et [Zhang98]

    • Fréquentiels : issus de la DSP [Saunders96] et [Scheirer97]

    • Mixtes : modulation de l’énergie à 4 Hz [Scheirer97]

      • représente le rythme syllabique

    • Issus de modélisation : MFCC [Foote97]

musique

parole

  • Classification

    • Fonctions à seuils

    • Approche statistique

      • Méthodes paramétriques : mélanges de gaussiennes, MMC

      • Méthodes non paramétriques : k plus proches voisins...

    • Réseaux de neurones

RFIA 2002 - 8 janvier 2002Indexation de la bande sonore : recherche des composantes Parole et Musique


Indexation de la bande sonore recherche des composantes parole et musique

Plan

  • Introduction

  • La modélisation différenciée

  • Le système

  • Réalisations et expériences

  • Conclusion et perspectives

RFIA 2002 - 8 janvier 2002Indexation de la bande sonore : recherche des composantes Parole et Musique


Le syst me

Le système

Signal

Décision

Pré traitement

Classification

  • Décomposition Parole / Musique

  • Modélisation Différenciée

    • 1 classe = {Espace de représentation, Modèle}

  • Description du système

2 systèmes : parole et musique

RFIA 2002 - 8 janvier 2002Indexation de la bande sonore : recherche des composantes Parole et Musique


Le pr traitement

Le pré traitement

Signal

Coefficients

Accentuation

Fenêtrage

FFT

Filtrage

Spectraux

  • Parole : analyse cepstrale

    • MFCC (18 coefficients par vecteur d’observation)

    • Soustraction cepstrale

Coefficients

Signal

Cepstraux

Accentuation

Fenêtrage

FFT

Filtrage+Mel

Log

FFT -1

  • Musique : analyse spectrale

    • SPL (29 coefficients par vecteur d’observation)

RFIA 2002 - 8 janvier 2002Indexation de la bande sonore : recherche des composantes Parole et Musique


Reconnaissance

Reconnaissance

  • Méthode de classification

    • Approche statistique

      • Classe

      • 2 modèles

      • NonClasse

      • MMG

      • Maximum de vraisemblance (vecteur observation - modèles)

RFIA 2002 - 8 janvier 2002Indexation de la bande sonore : recherche des composantes Parole et Musique


La reconnaissance

La reconnaissance

  • Classification

    • Fenêtre d’analyse (256 ou 512 points)

Exemple de classification Parole / NonParole

RFIA 2002 - 8 janvier 2002Indexation de la bande sonore : recherche des composantes Parole et Musique


La reconnaissance1

La reconnaissance

  • Assemblage

RFIA 2002 - 8 janvier 2002Indexation de la bande sonore : recherche des composantes Parole et Musique


La reconnaissance2

La reconnaissance

  • 1er Lissage (20 ms)

RFIA 2002 - 8 janvier 2002Indexation de la bande sonore : recherche des composantes Parole et Musique


La reconnaissance3

La reconnaissance

  • 2ème Lissage (indexation)

    • Parole (environ 400 ms) et musique (environ 2 s)

RFIA 2002 - 8 janvier 2002Indexation de la bande sonore : recherche des composantes Parole et Musique


La reconnaissance4

La reconnaissance

RFIA 2002 - 8 janvier 2002Indexation de la bande sonore : recherche des composantes Parole et Musique


Le syst me1

Le système

Apprentissage

Modèles

Signal

Décision

Pré traitement

Classification

RFIA 2002 - 8 janvier 2002Indexation de la bande sonore : recherche des composantes Parole et Musique


L apprentissage des mmg supervis

L’apprentissage des MMG (supervisé)

  • Étiquetage manuel

    • Transcriber (C. Barras)

      • http://www.etca.fr/CTA/gip/Projets/Transcriber/

  • Affectation des paramètres

    • 3 fichiers labels  fichiers de paramètres

RFIA 2002 - 8 janvier 2002Indexation de la bande sonore : recherche des composantes Parole et Musique


L apprentissage des mmg

L’apprentissage des MMG

  • Initialisation des modèles : algorithme VQ

    • Représenter les éléments d’une classe par son centroïde

  • Optimisation des paramètres : algorithme EM

    • Estimation : calcul des probabilités Pnk que le vecteur yn soit généré par la loi gaussienne k.

    • Maximisation : Ré-estimation des paramètres k, mk et k à partir des probabilités Pnk

RFIA 2002 - 8 janvier 2002Indexation de la bande sonore : recherche des composantes Parole et Musique


L apprentissage des mmg1

L’apprentissage des MMG

32 lois gaussiennes

ModèleParole

Paramètres indicés

(Parole)

Étiquetagemanuel(parole)

VQ

EM

Affectation

Coeff. Cepstraux

18

Paramètres indicés

(NonParole)

Modèle NonParole

VQ

EM

Pré traitement

acoustique

SIGNAL

Modèle Musique

Paramètres indicés

(Musique)

29

Coeff. Spectraux

VQ

EM

Affectation

Paramètres indicés

(NonMusique)

Modèle NonMusique

VQ

EM

Étiquetagemanuel(musique)

16 lois gaussiennes

RFIA 2002 - 8 janvier 2002Indexation de la bande sonore : recherche des composantes Parole et Musique


Indexation de la bande sonore recherche des composantes parole et musique

Plan

  • Introduction

  • La modélisation différenciée

  • Le système

  • Réalisations et expériences

  • Conclusion et perspectives

RFIA 2002 - 8 janvier 2002Indexation de la bande sonore : recherche des composantes Parole et Musique


R alisations et exp riences

Réalisations et expériences

  • Première expérience

    • Corpus : épisode de la série « Chapeau Melon et Bottes de Cuir »

      duréetotale : 50mn

      composition : parole pure, musique pure et zones « mixtes »

      parole : téléphonique, enregistrements extérieurs, foule, poursuites de voitures…

      musique : cordes, vents, basses, guitare électrique, batterie …

      locuteurs : 4 hommes + 1 femme

    • Apprentissage

      durée : 35mn

      composante parole : zone parole pure + non parole

      composante musique : zone musique pure + non musique

    • Reconnaissance

      15mn différentes de celles de l’apprentissage

RFIA 2002 - 8 janvier 2002Indexation de la bande sonore : recherche des composantes Parole et Musique


R alisations et exp riences1

Réalisations et expériences

  • Résultats

    • Calcul des délais (frontières automatiques / manuelles)

    • Omissions et insertions

    • Calcul de l’accuracy : (durée corpus test - durée insertions - durée omissions ) / durée corpus test .

86 %

91 %

L’accuracy est de 95 % pour la parole et de 93 % pour la musique.

RFIA 2002 - 8 janvier 2002Indexation de la bande sonore : recherche des composantes Parole et Musique


R alisations et exp riences2

Réalisations et expériences

Délai 70 cs

Lissage

  • Exemple d’indexation automatique

Omission

  • Problème

    • la parole superposée au bruit et / ou à la musique

RFIA 2002 - 8 janvier 2002Indexation de la bande sonore : recherche des composantes Parole et Musique


R alisations et exp riences3

Réalisations et expériences

  • Deuxième expérience

    • Corpus

      • Journaux télévisés sportifs : 34mn environ

      • Apprentissage : 14mn

      • Reconnaissance : 20mn

  • Résultats (465 segments)

96 %

L’accuracy est excellente : 99,5 %.

  • Evolution nécessaire

    • adapter les modèles à n’importe quelle source

      • apprentissage volumineux et diversifié

RFIA 2002 - 8 janvier 2002Indexation de la bande sonore : recherche des composantes Parole et Musique


Indexation de la bande sonore recherche des composantes parole et musique

Plan

  • Introduction

  • La modélisation différenciée

  • Le système

  • Réalisations et expériences

  • Conclusion et perspectives

RFIA 2002 - 8 janvier 2002Indexation de la bande sonore : recherche des composantes Parole et Musique


Conclusion et perspectives

Conclusion et perspectives

  • Conclusion

    • Résultats excellents

    • Intérêt de la modélisation différenciée

  • Perspectives

    • Adaptation des modèles à des corpus différents

    • Etude de la durée

    • Indexation multimédia basée sur la fusion audio / vidéo

    • Détection locuteurs, mots clés et jingles

RFIA 2002 - 8 janvier 2002Indexation de la bande sonore : recherche des composantes Parole et Musique


  • Login