1 / 39

Problemática de Diseño de Sistemas de Diálogo Prof. Luis A. Hernández Gómez

Problemática de Diseño de Sistemas de Diálogo Prof. Luis A. Hernández Gómez. Grupo de Aplicaciones del Procesado de Señal. Tecnología del Habla. GSM (ACELP) Esquemas tipo CELP: UMTS (AMR) Voz IP (G729a, G723.1, ..). Codificación de Voz Reconocimiento de Habla

Download Presentation

Problemática de Diseño de Sistemas de Diálogo Prof. Luis A. Hernández Gómez

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Problemática de Diseño de Sistemas de DiálogoProf. Luis A. Hernández Gómez Grupo de Aplicaciones del Procesado de Señal

  2. Tecnología del Habla • GSM (ACELP) • Esquemas tipo CELP: UMTS (AMR) • Voz IP (G729a, G723.1, ..) Codificación de Voz Reconocimiento de Habla Conversión Texto - Habla • Modelado Acústico: Modelos Ocultos de Markov (HMM) • Modelado del Lenguaje: N-gramas • Modelado Prosódico: sonidos, pausado, entonación • Sintetizadores de Voz: unidades pre-grabadas

  3. RTC RTC GATEKEEPER GATEWAY Zona H.323 RDSI Terminal IP Intranet ROUTER Servicios de otras redes Internet • Servicios propios de la red: • Funcionalidad • Bases de información Sistemas de Comunicaciones Portal de Voz

  4. Servicios de otras redes • Servicios propios de la red: • Funcionalidad • Bases de información Sistema de Diálogo Hablado RTC RTC GATEKEEPER GATEWAY Zona H.323 Portal de Voz DIÁLOGO RDSI Intranet ROUTER Internet

  5. Estructura Básicade unSistema de Diálogo UNIVERSIDAD POLITÉCNICA DE MADRID Grupo de Aplicaciones del Procesado de Señal

  6. Sistemas de Diálogo Generador Mensajes de Salida Conversor Texto - Habla GESTOR DE DIÁLOGO Codificación de Voz H.323 Reconocedor de Habla Analizador Semántico Servicios

  7. Actos de Habla • Contexto (pragmática) • Turnos de palabra • Estructura de la conversación Gestor de Diálogo • Campo de investigación de la Lingüística Computacional • Análisis del Discurso: metodología, principios y conceptos propios de la lingüística • Análisis de la Conversación: metodología inductiva y empírica

  8. Gestor de Diálogo Tesis Doctoral Universidad de Sevilla Facultad de Filología Departamento de Lengua Inglesa (Filología Inglesa) Un modelo para la especificación lingüística y la gestión computacional de diálogos hombre-máquina mediante instrucciones expresadas en lenguaje natural Mª Gabriela Fernández Díaz 2000 Directores: Jose Gabriel de Amores Carredano José Francisco Quesada Moreno

  9. Problemática Actual • Falta de madurez: • Reconocimiento (?) y Gestión de Diálogo • Inmediatez de nuevos servicios: • Servicios de “valor añadido”

  10. Perfiles de usuario Tareas ¿Objetivo del Sistema de Diálogo? ¿Simular un diálogo entre personas ? Eficacia : (últil) para realizar tareas rutinarias. Libertad de expresión : (¿Lenguaje Natural?) evitando memorizar formas expresivas fijas. Ayuda: información y tutelaje para usuarios nuevos

  11. Detectar perfil Estrategia flexible: iniciativa mixta / iniciativa sistema Permitir paso a agentes de operación Perfiles de Usuario Nivel de experiencia: experto - novato Relación con el reconocimiento: “granja” Trato: coloquial - educado Edad / Relación con la tecnología: asiduo - casual Operaciones o funciones permitidas y no permitidas Dialecto / Idioma

  12. SubdiálogosAYUDA Estructuras de Conversación para Perfiles Diferentes AGENTE Sistema de Diálogo Generador Mensajes de Salida GESTOR DE DIÁLOGO Analizador Semántico

  13. Tareas • Niveles: (J. Allen, ACL 95 // Proyecto SIRIDUS) • Sin restricción (?) • Diálogos de lenguajes de comandos naturales (natural command language dialogues) • Diálogos negociados (negotiate dialogues) Gestor de Aplicación Agentes de razonamiento y resolución de problemas

  14. SubdiálogosAYUDA Estructuras de Conversación para Perfiles Diferentes AGENTE GESTOR DE APLICACIÓN Funciones del Servicio AGENTES DE RAZONAMIENTO Y RESOLUCIÓN DE PROBLEMAS B.D. Conocimiento del Dominio Sistema de Diálogo Generador Mensajes de Salida GESTOR DE DIÁLOGO Analizador Semántico

  15. Otros niveles de dificultad • Competencia lingüística: • capacidad para resolver estructuras y fenómenos supra oracionales (elipsis, anáforas) • “Errores” en la entrada al sistema: propios del habla espontánea originados en el Reconocedor de Habla situaciones típicas: no reconocimiento, no respuesta, time-out, ...

  16. Histórico Anáforas Elipsis AGENTE GESTOR DE APLICACIÓN Subdiálogos de recuperación de errores Funciones del Servicio AGENTES DE RAZONAMIENTO Y RESOLUCIÓN DE PROBLEMAS B.D. Conocimiento del Dominio Sistema de Diálogo SubdiálogosAYUDA Generador Mensajes de Salida Estructuras de Conversación para Perfiles Diferentes GESTOR DE DIÁLOGO Analizador Semántico

  17. Generalmente se recurre a estrategias mixtas El problema: dependencia de la aplicación o de la tarea El núcleo • Estrategias de diálogo: • Gramáticas de diálogo • Enfoques declarativos • Enfoques basados en marcos • Arquitecturas distribuidas • Enfoques basados en planes • Enfoques colaborativos • Enfoques basados en agentes racionales

  18. Dependencia de la aplicación • Objetivo de proyectos de investigación: • DISC, TRINDI, SIRIDUS • I3S: Intuitive Interfaces to Information Systems • Microelectronic and Computer Terchnology Corporation (MCC) • South Western Bell / TRI; Nortel, Texas Instruments y Telefónica I+D “Desarrollar una arquitectura de sistema de diálogo independiente de la aplicación y que permita un desarrollo rápido de aplicaciones de diálogo dentro de una banda de dominios razonablemente amplia”

  19. Adaptación a nuevas aplicaciones • I3S: Intuitive Interfaces to Information Systems • (MCC) “El objetivo último es conseguir que la tarea de adaptar el sistema de diálogo a nuevas aplicaciones pudiese ser realizada de forma rápida y sencilla por personal sin unos conocimientos especialmente profundos del sistema de diálogo”

  20. Adaptación decomponentes de unSistema de Diálogo UNIVERSIDAD POLITÉCNICA DE MADRID Grupo de Aplicaciones del Procesado de Señal

  21. Analizador Semántico Tesis Doctoral Universidad de Sevilla Facultad de Filología Departamento de Lengua Inglesa (Filología Inglesa) Estrategias de análisis gramatical y semántico para un sistema dirigido por voz Mª Teresa López Soto 1999 Directores: Jose Gabriel de Amores Carredano José Francisco Quesada Moreno

  22. Analizador Semántico • Representación estructurada de los enunciados del usuario, generalmente requiere: • Diseño de ontología adaptada a la tarea • Representación basada en estructuras y formas expresivas características de la aplicación • Desambiguación basado en información adaptada al dominio

  23. Generador de Mensajes de Salida • Definición de etiquetas correspondientes a actos de habla del sistema • Ajuste de formas expresivas al dominio particular de la aplicación • Elaboración de frases de ayuda y formas adaptadas a diferentes perfiles de usuario

  24. Reconocedor de Habla Natural • Modelado Acústico: independiente de la aplicación • Modelo de Lenguaje: (Alexander Rudnicky, School of Computer • Science, CMU) Speech data Acoustic models Transcribe* Train Text data Language models Train

  25. Adaptación de Componentes • Importante número de tareas manuales • Procedimientos basados en la disponibilidad de un corpus suficientemente representativo de la aplicación • diálogos persona-persona • simulaciones Mago de Oz • sucesivas versiones del sistema: usuarios reales !!! • imaginación de los diseñadores • Gran interdependencia entre componentes • chicken and egg problem • “Data Collection and Performance Evaluation of Spoken Dialogue Systems: The MIT experience” • J. Glass, J. Polifroni, S. Seneff and V. Zue (ICSLP 2000)

  26. Dependencia entre Componentes Generador Mensajes de Salida Conversor Texto - Habla GESTOR DE DIÁLOGO Codificación de Voz H.323 Reconocedor de Habla Analizador Semántico Servicios

  27. Resumen de ámbitos problemáticos • Funcionalidad del Sistema de Diálogo (perfiles de usuario y tareas) • Estrategias de diálogo (dependencia con la aplicación) • Desarrollo y adaptación a diferentes dominios • (Otros: Evaluación de Sistemas de Diálogo)

  28. ¿Soluciones? UNIVERSIDAD POLITÉCNICA DE MADRID Grupo de Aplicaciones del Procesado de Señal

  29. ¿Diálogo genérico o diálogos comunes? • Diálogo genérico: arquitectura independiente de la aplicación (I3S) • Diálogos comunes: (Novic y Sutton, 1996) • “postura contraria a la abstracción construyendo bibliotecas de diálogos comunes”

  30. Sistemas de Diálogo • Siridus (Disc, Trindi): • SRI, Univ. Göteborg, Univ. Saarland de Saarbrücken, Univ. Sevilla y Telefónica I+D • Universidad de Sevilla: DELFOS • Universidad de Granada: (Ramón López-Cózar) • Univ. Politécnica de Catalunya, Univ. Politécnica de Valencia, Univ. Zaragoza, Univ. del País Vasco, Univ. Jaume I: “Desarrollo de un Sistema de Diálogo para Habla Espontánea en un Dominio Semántico Restringido” (TIC98-0423-C06) • AGORA: (J. Relaño y M.C. Rodríguez) Plataforma de diseño de Sistemas de Diálogo desarrollada por UPM y Telefónica I+D

  31. Bibliotecas de diálogos comunes • Nuance: (http://www.nuance.com) • Voice Web • Speech Objects: “SpeechObjects are a set of open, reusable components that encapsulate the best practices of voice interface design. Developers use SpeechObjects to considerably reduce the time it takes to build high quality speech recognition and voice authentication applications” • VoiceXML

  32. Foro VoiceXML (I) • Estándar tecnológico promovido por AT&T, IBM, Lucent y Motorola (en la actualidad cuenta con el apoyo de cerca de 300 empresas del sector. http://www.voicexml.org) • IBM:IBM Voice Server SDK Beta herramienta basada en VoiceXML Version 1.0 (http://www.alphaworks.ibm.com) • Nuance: Nuance V-Builder™, herramienta gráfica para el diseño de aplicaciones VoiceXML • TellMe: TellMe Studio, entorno de desarrollo de aplicaciones VoiceXML (http://www.tellme.com) • BeVocal: BeVocal Cafe + SpeechObjects (http://www.cafe.bevocal.com)

  33. Foro VoiceXML (II) • Crear contenidos Web y servicios que sean accesibles mediante voz • VoiceXML V1.0 (marzo 2000) aprobada por el W3C World Wide Web Consortium “The W3C speech interface framework will include integrated markup languages for dialog, grammar, speech synthesis, natural language semantics and multimodal dialogs, as well as a standard list of reusable dialogs” Jim Larson (Intel Architecture Labs) Co-chair of the W3C Voice Browser Woprking Group

  34. Foro VoiceXML (III) • VoiceXML pretende hacer transparente a los desarrolladores de aplicaciones para Internet, la programación a bajo nivel relacionada con los Sistemas de Diálogo

  35. Internet SERVIDOR DE DOCUMENTOS VoiceXML GATEWAY (Contexto del Intérprete VoiceXML) VoiceXML GATEWAY (Contexto del Intérprete VoiceXML) Intérprete VoiceXML Intérprete VoiceXML PLATAFORMA DE IMPLEMENTACIÓN : • Reconocimiento • Síntesis Modelo de Arquitectura VoiceXML

  36. Estructuras de Diálogo VoiceXML • Estructura de diálogo: • Máquina de Estados definida a través de una serie de documentos VoiceXML (sesión - aplicación) • Gestión flexible de gramáticas (varios documentos), que permite iniciativa mixta • Gestión de eventos genéricos (no respuesta, cuelgue, time-out, ...) • Tipos de diálogo: • Formulario • Menú • Sub-diálogos: • Recuperación de errores • Librería de sub-diálogos comunes a diferentes aplicaciones

  37. Ejemplo Simple VoiceXML <?xml version="1.0"?> <vxml> <form> <field name = “bebida”> <prompt>¿Qué tipo de bebida quieres: café, leche o té?</prompt> <grammar src=”bebidas.gram"/> </field> <block> <goto next=”http:/www.bebidas.ejemplo/bebidas2.asp” submit=“bebida” method=“get”/> </block> <form> </vxml>

  38. Ejemplo Simple VoiceXML S1 (sistema): ¿Qué tipo de bebida quieres: café,leche o té? U1 (usuario): quiero un café con leche S2: Perdón no te he entendido, puedes repetir¿Qué tipo de bebida quieres: café,leche o té? U2: sí, que quiero café S3: tenemos varios tipos de café... ...

  39. Problemática de Diseño de Sistemas de DiálogoProf. Luis A. Hernández Gómez Grupo de Aplicaciones del Procesado de Señal

More Related