problem tica de dise o de sistemas de di logo prof luis a hern ndez g mez
Download
Skip this Video
Download Presentation
Problemática de Diseño de Sistemas de Diálogo Prof. Luis A. Hernández Gómez

Loading in 2 Seconds...

play fullscreen
1 / 39

Problemática de Diseño de Sistemas de Diálogo Prof. Luis A. Hernández Gómez - PowerPoint PPT Presentation


  • 101 Views
  • Uploaded on

Problemática de Diseño de Sistemas de Diálogo Prof. Luis A. Hernández Gómez. Grupo de Aplicaciones del Procesado de Señal. Tecnología del Habla. GSM (ACELP) Esquemas tipo CELP: UMTS (AMR) Voz IP (G729a, G723.1, ..). Codificación de Voz Reconocimiento de Habla

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Problemática de Diseño de Sistemas de Diálogo Prof. Luis A. Hernández Gómez' - zachery-ramos


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
problem tica de dise o de sistemas de di logo prof luis a hern ndez g mez

Problemática de Diseño de Sistemas de DiálogoProf. Luis A. Hernández Gómez

Grupo de Aplicaciones del Procesado de Señal

slide2

Tecnología del Habla

  • GSM (ACELP)
  • Esquemas tipo CELP: UMTS (AMR)
  • Voz IP (G729a, G723.1, ..)

Codificación de Voz

Reconocimiento de Habla

Conversión Texto - Habla

  • Modelado Acústico: Modelos Ocultos de Markov (HMM)
  • Modelado del Lenguaje: N-gramas
  • Modelado Prosódico: sonidos, pausado, entonación
  • Sintetizadores de Voz: unidades pre-grabadas
slide3

RTC

RTC

GATEKEEPER

GATEWAY

Zona H.323

RDSI

Terminal IP

Intranet

ROUTER

Servicios de

otras redes

Internet

  • Servicios propios de la red:
  • Funcionalidad
  • Bases de información

Sistemas de Comunicaciones

Portal

de Voz

slide4

Servicios de

otras redes

  • Servicios propios de la red:
  • Funcionalidad
  • Bases de información

Sistema de Diálogo Hablado

RTC

RTC

GATEKEEPER

GATEWAY

Zona H.323

Portal

de Voz

DIÁLOGO

RDSI

Intranet

ROUTER

Internet

estructura b sica de un sistema de di logo

Estructura Básicade unSistema de Diálogo

UNIVERSIDAD POLITÉCNICA DE MADRID

Grupo de Aplicaciones del Procesado de Señal

slide6

Sistemas de Diálogo

Generador

Mensajes

de Salida

Conversor

Texto - Habla

GESTOR DE

DIÁLOGO

Codificación de Voz

H.323

Reconocedor

de Habla

Analizador

Semántico

Servicios

slide7

Actos de Habla

  • Contexto (pragmática)
  • Turnos de palabra
  • Estructura de la conversación

Gestor de Diálogo

  • Campo de investigación de la Lingüística Computacional
    • Análisis del Discurso: metodología, principios y conceptos propios de la lingüística
    • Análisis de la Conversación: metodología inductiva y empírica
slide8

Gestor de Diálogo

Tesis Doctoral

Universidad de Sevilla

Facultad de Filología

Departamento de Lengua Inglesa (Filología Inglesa)

Un modelo para la especificación lingüística y la gestión computacional de diálogos hombre-máquina mediante instrucciones expresadas en lenguaje natural

Mª Gabriela Fernández Díaz

2000

Directores:

Jose Gabriel de Amores Carredano

José Francisco Quesada Moreno

slide9

Problemática Actual

  • Falta de madurez:
    • Reconocimiento (?) y Gestión de Diálogo
  • Inmediatez de nuevos servicios:
    • Servicios de “valor añadido”
slide10

Perfiles de usuario

Tareas

¿Objetivo del Sistema de Diálogo?

¿Simular un diálogo entre personas ?

Eficacia : (últil) para realizar tareas rutinarias.

Libertad de expresión : (¿Lenguaje Natural?) evitando memorizar formas expresivas fijas.

Ayuda: información y tutelaje para usuarios nuevos

slide11

Detectar perfil

Estrategia flexible: iniciativa mixta / iniciativa sistema

Permitir paso a agentes de operación

Perfiles de Usuario

Nivel de experiencia: experto - novato

Relación con el reconocimiento: “granja”

Trato: coloquial - educado

Edad / Relación con la tecnología: asiduo - casual

Operaciones o funciones permitidas y no permitidas

Dialecto / Idioma

slide12

SubdiálogosAYUDA

Estructuras de

Conversación

para Perfiles

Diferentes

AGENTE

Sistema de Diálogo

Generador

Mensajes

de Salida

GESTOR DE

DIÁLOGO

Analizador

Semántico

slide13

Tareas

  • Niveles: (J. Allen, ACL 95 // Proyecto SIRIDUS)
    • Sin restricción (?)
    • Diálogos de lenguajes de comandos naturales (natural command language dialogues)
    • Diálogos negociados (negotiate dialogues)

Gestor de Aplicación

Agentes de razonamiento y resolución de problemas

slide14

SubdiálogosAYUDA

Estructuras de

Conversación

para Perfiles

Diferentes

AGENTE

GESTOR DE

APLICACIÓN

Funciones

del

Servicio

AGENTES DE RAZONAMIENTO

Y RESOLUCIÓN DE PROBLEMAS

B.D.

Conocimiento del Dominio

Sistema de Diálogo

Generador

Mensajes

de Salida

GESTOR DE

DIÁLOGO

Analizador

Semántico

slide15

Otros niveles de dificultad

  • Competencia lingüística:
      • capacidad para resolver estructuras y fenómenos supra oracionales (elipsis, anáforas)
  • “Errores” en la entrada al sistema:

propios del habla espontánea

originados en el Reconocedor de Habla

situaciones típicas: no reconocimiento, no respuesta, time-out, ...

slide16

Histórico

Anáforas

Elipsis

AGENTE

GESTOR DE

APLICACIÓN

Subdiálogos de

recuperación de

errores

Funciones

del

Servicio

AGENTES DE RAZONAMIENTO

Y RESOLUCIÓN DE PROBLEMAS

B.D.

Conocimiento del Dominio

Sistema de Diálogo

SubdiálogosAYUDA

Generador

Mensajes

de Salida

Estructuras de

Conversación

para Perfiles

Diferentes

GESTOR DE

DIÁLOGO

Analizador

Semántico

slide17

Generalmente se recurre a estrategias mixtas

El problema: dependencia de la aplicación o de la tarea

El núcleo

  • Estrategias de diálogo:
    • Gramáticas de diálogo
    • Enfoques declarativos
    • Enfoques basados en marcos
    • Arquitecturas distribuidas
    • Enfoques basados en planes
    • Enfoques colaborativos
    • Enfoques basados en agentes racionales
slide18

Dependencia de la aplicación

  • Objetivo de proyectos de investigación:
    • DISC, TRINDI, SIRIDUS
    • I3S: Intuitive Interfaces to Information Systems
      • Microelectronic and Computer Terchnology Corporation (MCC)
      • South Western Bell / TRI; Nortel, Texas Instruments y Telefónica I+D

“Desarrollar una arquitectura de sistema de diálogo independiente de la aplicación y que permita un desarrollo rápido de aplicaciones de diálogo dentro de una banda de dominios razonablemente amplia”

slide19

Adaptación a nuevas aplicaciones

  • I3S: Intuitive Interfaces to Information Systems
  • (MCC)

“El objetivo último es conseguir que la tarea de adaptar el sistema de diálogo a nuevas aplicaciones pudiese ser realizada de forma rápida y sencilla por personal sin unos conocimientos especialmente profundos del sistema de diálogo”

adaptaci n de componentes de un sistema de di logo

Adaptación decomponentes de unSistema de Diálogo

UNIVERSIDAD POLITÉCNICA DE MADRID

Grupo de Aplicaciones del Procesado de Señal

slide21

Analizador Semántico

Tesis Doctoral

Universidad de Sevilla

Facultad de Filología

Departamento de Lengua Inglesa (Filología Inglesa)

Estrategias de análisis gramatical y semántico para un sistema dirigido por voz

Mª Teresa López Soto

1999

Directores:

Jose Gabriel de Amores Carredano

José Francisco Quesada Moreno

slide22

Analizador Semántico

  • Representación estructurada de los enunciados del usuario, generalmente requiere:
    • Diseño de ontología adaptada a la tarea
    • Representación basada en estructuras y formas expresivas características de la aplicación
    • Desambiguación basado en información adaptada al dominio
slide23

Generador de Mensajes de Salida

  • Definición de etiquetas correspondientes a actos de habla del sistema
  • Ajuste de formas expresivas al dominio particular de la aplicación
  • Elaboración de frases de ayuda y formas adaptadas a diferentes perfiles de usuario
slide24

Reconocedor de Habla Natural

  • Modelado Acústico: independiente de la aplicación
  • Modelo de Lenguaje: (Alexander Rudnicky, School of Computer
  • Science, CMU)

Speech

data

Acoustic

models

Transcribe*

Train

Text

data

Language

models

Train

slide25

Adaptación de Componentes

  • Importante número de tareas manuales
  • Procedimientos basados en la disponibilidad de un corpus suficientemente representativo de la aplicación
    • diálogos persona-persona
    • simulaciones Mago de Oz
    • sucesivas versiones del sistema: usuarios reales !!!
    • imaginación de los diseñadores
  • Gran interdependencia entre componentes
  • chicken and egg problem
    • “Data Collection and Performance Evaluation of Spoken Dialogue Systems: The MIT experience”
    • J. Glass, J. Polifroni, S. Seneff and V. Zue (ICSLP 2000)
slide26

Dependencia entre Componentes

Generador

Mensajes

de Salida

Conversor

Texto - Habla

GESTOR DE

DIÁLOGO

Codificación de Voz

H.323

Reconocedor

de Habla

Analizador

Semántico

Servicios

slide27

Resumen de ámbitos problemáticos

  • Funcionalidad del Sistema de Diálogo (perfiles de usuario y tareas)
  • Estrategias de diálogo (dependencia con la aplicación)
  • Desarrollo y adaptación a diferentes dominios
  • (Otros: Evaluación de Sistemas de Diálogo)
soluciones

¿Soluciones?

UNIVERSIDAD POLITÉCNICA DE MADRID

Grupo de Aplicaciones del Procesado de Señal

slide29

¿Diálogo genérico o diálogos comunes?

  • Diálogo genérico: arquitectura independiente de la aplicación (I3S)
  • Diálogos comunes: (Novic y Sutton, 1996)
    • “postura contraria a la abstracción construyendo bibliotecas de diálogos comunes”
slide30

Sistemas de Diálogo

  • Siridus (Disc, Trindi):
    • SRI, Univ. Göteborg, Univ. Saarland de Saarbrücken, Univ. Sevilla y Telefónica I+D
    • Universidad de Sevilla: DELFOS
  • Universidad de Granada: (Ramón López-Cózar)
  • Univ. Politécnica de Catalunya, Univ. Politécnica de Valencia, Univ. Zaragoza, Univ. del País Vasco, Univ. Jaume I: “Desarrollo de un Sistema de Diálogo para Habla Espontánea en un Dominio Semántico Restringido” (TIC98-0423-C06)
  • AGORA: (J. Relaño y M.C. Rodríguez) Plataforma de diseño de Sistemas de Diálogo desarrollada por UPM y Telefónica I+D
slide31

Bibliotecas de diálogos comunes

  • Nuance: (http://www.nuance.com)
    • Voice Web
    • Speech Objects:

“SpeechObjects are a set of open, reusable components that encapsulate the best practices of voice interface design. Developers use SpeechObjects to considerably reduce the time it takes to build high quality speech recognition and voice authentication applications”

  • VoiceXML
slide32

Foro VoiceXML (I)

  • Estándar tecnológico promovido por AT&T, IBM, Lucent y Motorola (en la actualidad cuenta con el apoyo de cerca de 300 empresas del sector. http://www.voicexml.org)
    • IBM:IBM Voice Server SDK Beta herramienta basada en VoiceXML Version 1.0 (http://www.alphaworks.ibm.com)
    • Nuance: Nuance V-Builder™, herramienta gráfica para el diseño de aplicaciones VoiceXML
    • TellMe: TellMe Studio, entorno de desarrollo de aplicaciones VoiceXML (http://www.tellme.com)
    • BeVocal: BeVocal Cafe + SpeechObjects (http://www.cafe.bevocal.com)
slide33

Foro VoiceXML (II)

  • Crear contenidos Web y servicios que sean accesibles mediante voz
    • VoiceXML V1.0 (marzo 2000) aprobada por el W3C

World Wide Web Consortium

“The W3C speech interface framework will include integrated markup languages for dialog, grammar, speech synthesis, natural language semantics and multimodal dialogs, as well as a standard list of reusable dialogs”

Jim Larson (Intel Architecture Labs)

Co-chair of the W3C Voice Browser Woprking Group

slide34

Foro VoiceXML (III)

  • VoiceXML pretende hacer transparente a los desarrolladores de aplicaciones para Internet, la programación a bajo nivel relacionada con los Sistemas de Diálogo
slide35

Internet

SERVIDOR DE DOCUMENTOS

VoiceXML GATEWAY

(Contexto del Intérprete VoiceXML)

VoiceXML GATEWAY

(Contexto del Intérprete VoiceXML)

Intérprete VoiceXML

Intérprete VoiceXML

PLATAFORMA DE

IMPLEMENTACIÓN :

  • Reconocimiento
  • Síntesis

Modelo de Arquitectura VoiceXML

slide36

Estructuras de Diálogo VoiceXML

  • Estructura de diálogo:
    • Máquina de Estados definida a través de una serie de documentos VoiceXML (sesión - aplicación)
    • Gestión flexible de gramáticas (varios documentos), que permite iniciativa mixta
    • Gestión de eventos genéricos (no respuesta, cuelgue, time-out, ...)
  • Tipos de diálogo:
    • Formulario
    • Menú
  • Sub-diálogos:
    • Recuperación de errores
    • Librería de sub-diálogos comunes a diferentes aplicaciones
slide37

Ejemplo Simple VoiceXML

<?xml version="1.0"?>

<vxml>

<form>

<field name = “bebida”>

<prompt>¿Qué tipo de bebida quieres: café,

leche o té?</prompt>

<grammar src=”bebidas.gram"/>

</field>

<block>

<goto next=”http:/www.bebidas.ejemplo/bebidas2.asp”

submit=“bebida” method=“get”/>

</block>

<form>

</vxml>

slide38

Ejemplo Simple VoiceXML

S1 (sistema): ¿Qué tipo de bebida quieres:

café,leche o té?

U1 (usuario): quiero un café con leche

S2: Perdón no te he entendido, puedes repetir¿Qué tipo de bebida quieres: café,leche o té?

U2: sí, que quiero café

S3: tenemos varios tipos de café...

...

problem tica de dise o de sistemas de di logo prof luis a hern ndez g mez1

Problemática de Diseño de Sistemas de DiálogoProf. Luis A. Hernández Gómez

Grupo de Aplicaciones del Procesado de Señal

ad