1 / 10

Grupo de Tecnología del Habla. Departamento de Ingeniería Electrónica. UPM.

SERVIDORES VOCALES INTERACTIVOS: DESARROLLO DE UN SERVICIO DE PÁGINAS BLANCAS POR TELÉFONO CON RECONOCIMIENTO DE VOZ PROYECTO IDAS (Interactive telephone-based Directory Assistance Service).

Download Presentation

Grupo de Tecnología del Habla. Departamento de Ingeniería Electrónica. UPM.

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. SERVIDORES VOCALES INTERACTIVOS: DESARROLLO DE UN SERVICIO DE PÁGINAS BLANCAS POR TELÉFONO CON RECONOCIMIENTO DE VOZPROYECTO IDAS (Interactive telephone-based Directory Assistance Service) R. San-Segundo, J. Colás, J.M. Montero, R. Córdoba, J. Ferreiros, J. Macías-Guarasa, A. Gallardo, J.M. Gutiérrez, J. Pastor, J.M. Pardo Grupo de Tecnología del Habla. Departamento de Ingeniería Electrónica. UPM.

  2. PROYECTO IDAS(Interactive telephone-based Directory Assistance Service) • Proyecto europeo a dos años (1998-2000) (LE4-8315) • OBJETIVO Demostrador capaz de dar un servicio de páginas blancas por teléfono, proporcionando números de teléfono y fax, tanto de particulares como de empresas. • SUBOBJETIVOS • Sistema de reconocimiento de habla aislada por línea telefónica, independiente de locutor para grandes vocabularios (10000 palabras). • Plataforma completa para el desarrollo de Servidores Vocales Interactivos (SVIs).

  3. ANTECEDENTES (I) TADE (Telephone Application Development Environment) • Entorno para el desarrollo de aplicaciones telefónicas, fundamentalmente SVIs. • Lenguaje propio con primitivas de alto nivel. • Gestión de línea telefónica: colgar, descolgar, marcar, esperar llamada... • Sentencias de voz: reconocimiento, síntesis, reproducción y grabación. • Acceso a bases de datos: abrir/cerrar base de datos y realizar consulta. • E-mail: envío de correo electrónico. • Generales: gestión de archivos, manejo de cadenas y operaciones aritméticas sencillas. • SVIs desarrollados. • Sistema de atención al cliente en Hewlett Packard con desvío de llamada. • Servidores de calificaciones de alumnos: IEL y Rectorado de la UPM. • Buzón vocal con grabación de mensajes y envío de e-mail de aviso.

  4. ANTECEDENTES (II) TIDAISL (Telefónica I+D Aislada) • Proyecto realizado en colaboración con Telefónica I+D. • OBJETIVO: desarrollo de un módulo de preselección para sistemas de reconocimiento de habla aislada de gran vocabulario. • Partes del módulo de preselección: • Extracción de cadena fonética: obtención de la secuencia de alófonos más probable (algoritmo de un paso con SCHMM). • Acceso Léxico: comparación de la secuencia de alófonos con cada palabra del diccionario mediante un algoritmo de programación dinámica y ordenación de menor a mayor distancia. • RESULTADO: reducción de un vocabulario de 10000 palabras a uno de 1000 con el 98% de certeza.

  5. Bienvenida Reconocimiento Ciudad ¿Particular/Empresa? ¿Operador? ACCESO A LA BASE DATOS APLICACIÓN DE PÁGINAS BLANCAS Reconocimiento 1 Apellido 2 Apellido Nombre Reconocimiento Empresa

  6. NUEVAS PRIMITIVAS DEL LENGUAJE (I) RECONOCIMIENTO • RECONOCIMIENTO_DICC_ESTATICO: reconocimiento de habla aislada de gran vocabulario. Partes: • Hipótesis: módulo de preselección de TIDAISL con una mejor parametrización RASTA-LPC y un nuevo alfabeto con 45 alófonos. • Verificación: algoritmo de Viterbi con modelos CHMM sobre una lista de candidatos preseleccionada en la etapa anterior. • Técnicas de reducción de tiempo: agrupación de cálculos, Beam Search y restricciones sobre el camino óptimo. • Detección de homófonos. • RECONOCIMIENTO_DICC_DINÁMICO: misma tarea pero sobre diccionarios dinámicos. • CARGAR y DESCARGAR_DICCIONARIO: permite cargar y descargar diccionarios en memoria de forma dinámica.

  7. NUEVAS PRIMITIVAS DEL LENGUAJE (II) INTERVENCIÓN DE UN OPERADOR • OPERADOR_DATO: presenta en pantalla un cuadro de diálogo en el que se permite al operador escuchar lo dicho por el usuario y seleccionar la palabra correcta. • ESPERAR_OPERADOR_DATO: suspende el curso normal de la aplicación hasta que el operador cierra el cuadro de diálogo. De esta forma garantizamos que la intervención del operador se lleva a cabo y disponemos de una dato correcto. La intervención del operador es transparente para el usuario. Un mismo operador puede atender a varias líneas a la vez.

  8. ADAPTACIÓN A UN HARDWARE COMERCIAL • Situación inicial: • VISHA: tarjeta de sonido con un DSP32C capaz de realizar parte de las tareas de reconocimiento. • IFTEL: tarjeta de interfaz de línea telefónica. Ambas tarjetas desarrolladas en el Dept. de Ingeniería Electrónica. • Cambios realizados: • Sustitución de VISHA por un dispositivo WAVE (Sound Blaster 16): las tareas de análisis de la señal de voz que realizaba la VISHA, ahora las debe realizar el procesador del ordenador. • Introducción de un segundo dispositivo WAVE (Sound Blaster 16): para permitir al operador escuchar lo dicho por el usuario al mismo tiempo que se ejecuta la aplicación.

  9. EXPERIMENTOS 33 personas (21 hombres y 12 mujeres) accedieron a 10 teléfonos de empresas y a 10 teléfonos particulares Las tasas de llamadas completadas sin intervención del operador: 75% para teléfonos de empresas. 35% para teléfonos particulares.

  10. CONCLUSIÓN Servicio de páginas blancas funcionando en tiempo real en un ordenador Pentium II–350Mhz con una tasa mínima de 55% de llamadas procesadas automáticamente. LÍNEAS FUTURAS • Aumento de la tasa de reconocimiento y del tamaño de los diccionarios • Optimización de los algoritmos de reconocimiento para permitir tiempo real con diccionarios de 10000 palabras. • Nueva primitiva: reconocimiento de nombres deletreados. • Utilizar una sólo tarjeta comercial para la captura de muestras y la gestión de la línea telefónica. • Dotar al sistema de módulos de comprensión y diálogo para dotar de mayor flexibilidad a la comunicación hombre-máquina.

More Related