1 / 42

Chapitre 1 -------- P erception Naturelle et A rtificielle de la Parole

Chapitre 1 -------- P erception Naturelle et A rtificielle de la Parole. Jean-Sylvain Liénard LIMSI-CNRS ORSAY. M2 Recherche Informatique Filière Sciences Cognitives Module PNPA Déc 04 – Fév 05. Organisation du cours 04-05. Perception naturelle et artificielle de la parole

belden
Download Presentation

Chapitre 1 -------- P erception Naturelle et A rtificielle de la Parole

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Chapitre 1--------Perception Naturelle et Artificiellede la Parole Jean-Sylvain Liénard LIMSI-CNRS ORSAY M2 Recherche Informatique Filière Sciences Cognitives Module PNPA Déc 04 – Fév 05

  2. Organisation du cours 04-05 • Perception naturelle et artificielle de la parole • Audition et modèles auditifs bas niveau • Perception auditive • Intelligibilité et contenu non linguistique de la parole • Modèles perceptifs de haut niveau • Analyse de scènes acoustiques: ASA et CASA

  3. Quelques propriétés de la Perception Naturelle

  4. Definition : perception naturelle • fonction par laquelle un organisme prend connaissance de son environnement • contribue à élaborer un comportement • fonction vitale pour la survie • du signal au sens: monde physique, monde cognitif, logiques différentes • multiples modalités, une seule interprétation

  5. Catégorisation • l'identification des objets du monde implique que des signaux différents soient placés dans la même catégorie • la catégorisation selon Eleanor Rosch • principe du monde perçu • principe d'économie cognitive • ---> organisation hiérarchique des concepts, peu de rapports avec la perception. cf "ontologies" en IA • catégorisation perceptive • perception catégorielle vs continue • cf Reconnaissance des Formes, processus ascendants

  6. Utilisationdes régularités • le monde change peu et lentement: régularités spatiales et temporelles • la perception utilise massivement la prédiction, à toutes les échelles de temps. • il faut aller plus vite que le phénomène considéré • rôle de l'attention, processus descendants  La perception est plus une projection sur le monde que l'activation d'une représentation BN du monde

  7. Utilisation de tous les indices • le monde est perçu par le biais de multiples canaux d'information; multimodalité • exploitation simultanée de tous ces canaux, en fonction du but • détection immédiate de toute incohérence, si elle a une importance pour la poursuite du but • à l'intérieur d'un même canal on peut avoir plusieurs types d'information complémentaires

  8. Dualité perception-action • la perception sert à guider l'action (p.ex. regarder où l'on va), • et l'action à affiner la perception (p.ex. s'approcher pour mieux voir un objet) • perception "active", double sens : • complémentarité flux ascendant et descendant • association avec une action comportementale

  9. Représentations intermédiaires • le passage du bas au haut niveau ne peut se faire en une seule étape • comment déterminer les niveaux intermédiaires ? • Sont-ils identiques pour tous les individus ? • Problème d'apprentissage

  10. Problèmes et modèles pour la Perception Artificielle

  11. Repères • années 40-60 : théorie de l'information, cybernétique, reconnaissance des formes, systèmes cellulaires • années 60-80: perceptron et XOR, divorce IA/RF • années 80-2000: connexionnisme, sciences cognitives, cognition et perception situées, société de l'information • Actuellement : l'IA nouvelle, apprentissage, fouille de données, méthodes probabilistes, IA distribuée

  12. le grand problème: la variabilité • Variabilité du signal, à "contenu constant" ; mais à quel contenu se réfère-t-on ? • en reconnaissance de la parole : l'information "linguistique " (celle qui correspond à la langue écrite) • en reconnaissance du locuteur : l'identité du locuteur (quoi qu'il dise ?) • en reconnaissance d'objets : le label de l'objet (quelles que soient les conditions de prise de vue et d'éclairement ?) • Hypothèse : contenu du signal = toute l'information perceptible par un humain • Proposition : la variabilité reflète la non-prise en compte d'une partie de l'information perceptive du signal

  13. Catégorisation Multicatégorisation description bas niveau description haut niveau description bas niveau description haut niveau pixels identité pixels identité casse position A B A B Maj. Min. Gauche Droite A A A B A B Maj. Min. Gauche Droite B B A B A B Maj. Min. Gauche Droite A A A B A B Maj. Min. Gauche Droite A A A B A B Maj. Min. Gauche Droite a a Catégorisation vs Multicatégorisation En Catégorisation, seul un descripteur haut niveau est défini (ici l'identité de l'objet). Il en résulte une grande variabilité (non-coïncidence des classes bas et haut niveau). En définissant plusieurs descripteurs haut niveau (multicatégorisation = plusieurs points de vue sur l'objet) la variabilité est fortement réduite. La catégorisation est une forme particulière de multicatégorisation. En ingéniérie : Traitement des Formes vs Reconnaissance des Formes

  14. Perception Située • la perception est contextuelle • prend en compte la situation du système dans son contexte • la perception est active • double flux ascendant et descendant • action sur l'environnement • la perception est multicatégorielle • tout signal perceptivement significatif peut faire l'objet d'une description complète à tout niveau d'abstraction • c'est le système cognitif qui choisit les aspects pertinents du signal, selon la situation

  15. hn bn La perception comme changement de représentation entités longues et décorrélées entités courtes et mélangées

  16. ascendant descendant Double flux hn hn hn bn bn bn Divers modes de fonctionnement • les informations hn et bn sont partielles • prédominance d'un niveau (plus proche hn ou bn, ou mieux structuré) • conflit possible • l'information hn est prédominante • prévisibilité totale • attention et connaissances attachées aux niveaux supérieurs • l'information bn est prédominante • prévisibilité nulle • streaming, pop-up, descripteurs intrinsèques (bn), Gestalt, émergence

  17. Sous-but SYSTEME COGNITIF hiérarchies sensori-motrices couplages sensori moteurs Monde (interne/externe) concepts signaux Perception Située

  18. Analyse, reconnaissance et perception de la parole

  19. Le signal de parole • Sert à la communication entre humains • - différences avec communication écrite • double structure acoustique • - spectrale ou segmentale, mieux visible en bande large • - harmonique ou suprasegmentale, mieux visible en bande étroite • Modèle source-filtre • - inspiré par les mécanismes de la production

  20. Communication orale Communication écrite Communication : oral vs écrit

  21. Transmission • Le problème du débit d'information ---> comment supprimer l'information "superflue" ?

  22. L'appareil vocal

  23. Analyse acoustique de la parole Exemples de spectrogrammes • Winsnoori • 101.wav Guy a péri bêtement du diabète en Italie voix H • 201.wav id voix F • 102.wav La porte du garage tomba avec lourdeur voix H • 202.wav id voix F • Sections en bande large et bande étroite • Evolution de Fo

  24. Les voyelles spectrogrammes des voyelles F1 et F2 prépondérants: démo Snack Formants

  25. Fricatives (constrictives)

  26. Plosives (occlusives)

  27. - A chaque phonème est associé un état stable • - Le problème de coarticulation : ch + a ne fait pas cha • Synthèse à partir des phonèmes • - Il faut donc respecter les transitions • - Synthèse par règles • Avec un synthétiseur paramétrique (à formants) : calcul des transitions acoustiques

  28. Apprentissage • Reconnaissance par mots isolés Reconnaissance

  29. Alignement par programmation dynamique DTW • Le problème de l'alignement temporel

  30. Extension de la programmation dynamique Reconnaissance par mots enchaînés

  31. - Le signal est représenté par une suite d'états acoustiques - le nombre d'états possibles est limité (d'après corpus) - probabilités de transition et d'émission (d'après corpus) - programmation dynamique Reconnaissance par modèles de Markov cachés Modèle de mot Formulation bayésienne - Le message est représenté par une suite de mots - Probabilités déterminées d'après corpus - Proba message :: proba suite acoustique x proba suite de mots

  32. 40% 20% 7% 4% 0.7% 0.5% 0.01% Machine ~ 10% des performances humaines... Performances actuelles (2000) Mesurées en termes de taux d’erreurs de mots nécessite un corpus transcrit manuellement (référence) Journaux televises Conversations tel. Chiffres Journaux lus

  33. Point de vuesur la reconnaissance de la parole • Les approches actuelles sont limitées • méthodes essentiellement ascendantes et monocatégorielles, basées sur la Reconnaissance des Formes • suffisantes pour certaines applications • mais progrès asymptotiques, dûs seulement à puissance de calcul et collecte de bases de données • Point de vue situé • prendre en compte simultanément tous les aspects perceptifs du signal : parole, locuteur, situation, contexte, prise de son • chercher les lois de variation du signal en fonction des descripteurs non-linguistiques

  34. Variabilité du signal de parole • Le signal de parole varie considérablement selon le locuteur et la situation, à contenu linguistique constant --> Rechercher des invariants ? • La reconnaissance automatique : trop de variabilité ? • principes actuels : alignement temporel, modélisation probabiliste (acoustique et lexicale). Puissance de calcul, grandes bases de données • limitations : variations du locuteur et de la prise de son; domaine sémantique restreint (cf systèmes experts). Problème artificiellement contraint. • proposition : reconnaître à la fois ce qui est dit, qui le dit, où et comment • La synthèse : pas assez de variabilité ? • voix synthétique ennuyeuse et inexpressive. Comment déduire du texte écrit les descripteurs non-linguistiques qui n'y sont pas ?

  35. branche verbale branche prosodique niveau 6 500ms unités cognitives niveau 5 200ms unités lexicales niveau 4 60ms unités phonetiques niveau 3 30ms traits phonétiques niveau 2 15ms indices acoustiques niveau 1 1ms unités cochléaires niveau 0 0.1ms Signal Perception de la parole • les niveaux d'abstraction sont déterminés par la résolution temporelle • à chaque niveau la description du contenu perceptif est complète • descripteurs de plus en plus indépendants • traitement conjoint des informations linguistiques et non-linguistiques • deux flux d'information: ascendant et descendant

More Related