RECONOCIMIENTO DEL HABLA EN AMBIENTES GSM Y RUIDOSOS: PROGRESO Y ENFOQUES FUTUROS

RECONOCIMIENTO DEL HABLA EN AMBIENTES GSM Y RUIDOSOS: PROGRESO Y ENFOQUES FUTUROS Richard M.Stern con Xiang Li, Jon Nedel, Mike Seltzer, y Rita Singh Department of Electrical and Computer Engineering and School of Computer Science Carnegie Mellon University Pittsburgh, Pennsylvania 15213 Teléfono: (412) 268-2535 Fax: (412) 268-3890 rms@speech1.cs.cmu.edu 12 Febrero, 2002

Reuniones previos en este serie • 29 Enero 1999, Madrid • 30 Novembre 1999, Pittsburgh • 10 Julio 2000, Madrid • 6 Febrero 2001, Pittsburgh • 16 Octubre 2001, Pittsburgh • 12 Febrero 2002, Madrid

Agenda para hoy • Temas de hoy: • Entrenamiento en paralelo (Singh) • Normalización de la duración de voz espontánea (Nedel) • Técnicas de parámetros perdidos (Seltzer, Li, Raj) • Combinación de los grupos complementarios de parámetros (Singh, Li) • Otras temas no discutido hoy en detalle: • Progreso “clásico” en codificación GSM (Huerta) • Reconocimiento de voz codificada (Singh) • Arreglos de micrófonos usando parámetros óptimos (Seltzer) • Discusión general

Entrenamiento en paralelo: el problema • El entrenamiento consiste en la interacción de dos pasos: • Estimación de las fronteras de los estados de los segmentos usando estimaciones conocidas (fronteras “dura” por Baum Welch • Estimación de nuevos parámetros distribuidos para los estados, a partir de los datos dentro estados de los segmentos estimados • En ruido, la determinación de las fronteras de los segmentos es difícil • Resultados muestran falta de datos de otros estados en cualquier estado, con la consecuente estimación pobre de los parámetros distribuidos del estado • Nueva estimación de las fronteras de los segmentos con pobres modelos estimados es lo que alivia este problema

Entrenamiento en paralelo: la solución • Use datos en paralelo limpios para estimar las fronteras entre segmentos • Use las estimaciones de las fronteras con datos limpios y con voz ruidosa, para calcular los modelos de voz ruidosa

Entrenamiento en paralelo: experimentos • Habla limpio fue corrompido por 5 tipos de ruido aditivo • Ficheros usado para corromper los datos de de entrenimiento y prueba fueron diferentes • Ejemplos: • Limpio • Bares • Metro • Música • Tráfico

Detalles de los experimentos • CD-HMMs con 8 gausianos/estado 400 tied states • Topología HMM con tres estados sin saltar • Entrenamiento con 4 horas de datos (3458 frases) • Prueba con 2 horas de datos (1728 frases)

Promedios de las relaciones señal a ruido • Relación señal a ruido, dB:

Relación señal a ruido, datos bares Entrenamiento: Prueba:

Entrenamiento en paralelo: resultados Tasa de error con entrenamientos diferentes: Entrenemiento Limpio Igualido Paralelo Paralelo_SNR

Resumen: entrenamiento paralelo • El Entrenamiento paralelo pueda bajar la tasa de error mucho … pero …. • La tasa de error depende en la relación señal a ruido • La tasa de error depende en alinear los dos fuentes de habla • La codificación dispersa las representaciones de las señales • Comentario: Necesitamos un base de datos de con habla limpio y habla codificado en el ruido para resolvar este tema

Normalización de duración • Proceso de normalización de la duración • Resultados usando la segmentación de oracle • Aspectos de la base de datos • Técnicas propuestas de segmentación automática

Es problemático modelar la duración de fonemas espontáneos con HMMs • HMMs no modelan bien la duración de fonemas en voz natural • las probabilidades de transición tienen poco impacto en la hipótesis final • la información sobre la duración derivada de las probabilidades de transición no corresponden en forma precisa con las medidas de duración (Siegler & Stern) • Cada vez que se produce un fonema en habla continua, se produce con diferente duración • dependiendo en el contexto fonético, registro de voz, velocidad de la voz y énfasis, etc.

(a) S P O E N K (b) S K P O E N Normalización de la duración y HMMs • Efectos de la normalización de la duración: • la duración de los fonemas se convierte a determinística • se reducen las variaciones del modelo en los fonemas • se mejora la precisión en el reconocimiento de voz espontánea

f f t t f f f t t t Como se normaliza la duración • Para fonemas largos, se submuestrea la secuencia de tramas • Para fonemascortos, se expande el fonema en tiempo y se reconstruyen las porciones “perdidas” usando métodos basados en correlación

Ejemplo de voz antes y después de normalización de la duración natural durations normalized durations

Resultados de los experimentos usando límites de oracle en los fonemas • Normalización de la duración en TID (marzo) [13086 palabras de prueba]: TID baseline: 8.4% WER Normalized duration: 5.3% WER Relative Improvement: 36.9% • Normalización de la duración en TID (actual) [7634 palabras de prueba]: TID baseline: 5.3% WER Normalized duration: 3.7% WER Relative Improvement: 30.2%

Problemas en la base de datos • Ejemplos problemáticos: • [palvoc] = second voice pronounces words in the vocab • [bas] = intelligible OOV words • [vocess] = unintelligible voices • [pac] = cut off word • Ejemplos: • [bas] siete euros y veinti nueve [bas] (2094M006) • [bas] quinientos veinti cinco [bas] (2263S129)

Problemas en la base de datos (2) • Los resultados de WER usando transcripciones de referencia que contienen puntos problemáticos no reflejan que la normalización de la duración sea efectiva en la base de TI+D • Se han reducido los conjuntos de entrenamiento y de prueba en un 50% para extraer repeticiones cuestionables • Idealmente, todas las repeticiones con puntos problemáticos deben ser transcritas nuevamente para incluir texto adecuado en todas las palabras inteligibles • Pregunta: • ¿ Cómo quiere Telefónica que se manejen y se prueben estas repeticiones ?

El problema de segmentación • El mejorar las fronteras de segmentación resultará en mejorar la tasa de reconocimiento

Estimación de fronteras • Técnicas propuestas: • Segmentación jerárquica • Segmentación basada en el conocimiento (Knowledge-based segmentación ) • Segmentación mejorada y basada en HMM • También se trabaja en combinar estas técnicas • Segmentación de alta calidad • Medida de verosimilitud para estimar cada frontera

Estimación de fronteras: Segmentación jerárquica Dendograma: una representación multinivel que permite al sistema capturar cambios graduales y abruptos de la señal

Dendrograma:Ejemplo de segmentación • El dendrograma proporciona segmentación correcta

Dendrograma: Aspectos a resolver • El dendrograma proporciona una segmentación adecuada • Procedimiento propuesto para obtener una segmentación adecuada: • Enumerar las posibles segmentaciones • Reducir segmentaciones usando el criterio de longitud en éstas • Aplicar la normalización de la duración y decodificación a las segmentaciones restantes • Escoger la hipótesis correcta con una función objetivo • Posible función objetivo: • Verosimilitud normalizada de las hipótesis resultantes (para compensar el número variable de tramas en las distintas segmentaciones)

Estimación de fronteras: Segmentación basada en HMM enfocado en el centro del fonema • La región central de un fonema es generalmente más estable que las transiciones entre fonemas • Hipótesis: el método de normalización de la duración no es tan sensible a las fronteras obtenidas con el método del centro del fonema

Estimación de fronteras: Segmentación mejorada y basada en HMM • Se usan HMMs y el algoritmo de Viterbi para proponer una segmentación de fonemas hipóteticos • La búsqueda consiste en salir del estado final de algunos fonemas en tiempos inapropiados • Se entrenan las penalidades de salida dependientes del contexto en la gráfica de búsqueda de Viterbi para mejorar las ubicaciones de las fronteras

+voicing -voicing +obstruent -obstruent -sonorant +sonorant Estimación de fronteras: Segmentación basada en el conocimiento • Se pretende usar medidas de coherencia espectral para segmentar la voz en unidades básicas consistentes • Separemos la voz en bandas de frecuencia técnicas de detección landmark y usar características que dependen en el contexto

Resumen: normalización de duración • El método de normalización de la duración es viable para la base TI+D ( tiene un potencial de 30% de mejora relativa para un sistema base con WER de 5.3%) • Se requiere resolver los ejemplos problemáticos • Se ha construido redes basadas en dendogramas que contienen las segmentaciones correctas • Se está trabajando en encontrar una forma automática de extraer las segmentaciones adecuadas • Se han propuesto otros esquemas de segmentación • Hemos mejorado la tasa de identificar fronteras de fonemas, pero no bastante para mejorar la tasa de error

Llenado de parámetros perdidos • En Carnegie Mellon se modifican los parámetros de entrada en lugar de los modelos internos (esto último es lo realizado en Sheffield) • ¿Por qué se modifican los parámetros de entrada? • Un conjunto de parámetros más flexible (pueden usarse parámetros cepstral en lugar de log spectral) • Un procesamiento más simple • No hay necesidad de modificar el reconocedor

Reconocimiento usando cepstra compensado y voz contaminada por ruido blanco Cluster Based Recon. SpectralSubtraction Temporal Correlations Accuracy (%) Baseline • Mejoras substanciales en el reconocimiento se obtienen al reconstruir regiones corruptas en espectogramas con voz ruidosa • Se requiere de la localización de parámetros “perdidos” SNR (dB)

Reconocimiento con máscaras • Voz más ruido blanco:

Reconocimiento con máscaras • Voz más ruido de fábricas

Reconocimiento con máscaras • Voz más música:

Reconocimiento de la base de Telefónica con ruido de tráfico • Algoritmos de parámetros perdidos mejora la WER para SNRs bajas:

Reconocimiento con caracteristícas perdidas: Mas resultados con el base de datos rueda Baseline Spec sub MF Classifier MF SpecSub Oracle Procesamiento del vector diferencia del espectro

Combinación de caracteristícas en entornos difíciles • Motivación: A medida que el ambiente es más ruidoso las personas que escuchan obtienen información adicional de la señal deseada • Premisa: Cuando los ambientes ruidosos están fuera de nuestro control es mejor extraer más información de la señal que del ruido • Hay que analizar la señal desde diferentes perspectivas • Múltiples perspectivas de la señal equivalen a multiples características que la representan • Se combinan hipótesis de reconocimiento de las representaciones paralelas de la señal

1. MFC 9.0 2. MFC with wide filters 9.1 8.8 3. Different version of MFC 4. PLP 10.0 17.2 5. Zsynch from Harmonics 6. Zsynch from center freqs 16.8 8.5 Combination of 1 and 3 Combination of 1, 3 and 4 8.7 Combination of 1 and 5 8.8 Combination of 1, 4 and 5 8.8 Combination of 1 and 6 8.8 8.8 Combination of 1, 4 and 6 CARACTERÍSTICAS PARALELAS PARA AMBIENTES RUIDOSOS • En el 2000, el reconocimiento se realizó en la base TI&D usando características seleccionadas ad-hoc • Algunos resultados previos son: Feature WER(%)

and go -1 -7 -9 -8 4 16 46 76 Confirmed <s> South Northwest 0 79 </s> -3.68 76 <s> Fire Southwest 6 16 46 54 -2 -6 -8 -3 -4 COMBINACIÓN DE HIPÓTESIS EN EL 2000 • Las hipótesis en paralelo se generaron y combinaron • Se añadieron lazos entre las hipótesis en las transiciones con tiempos comunes de transición • La gráfica de búsqueda se formó de la siguiente manera usando LM

SISTEMAS DE COMBINACIÓN EN PARALELO • Se generalizan las combinaciones de hipótesis • Combinaciones de hipótesis o combinaciones de enrejados (lattice) • Las salidas del reconocimiento se combinan de sistemas múltiples en una gráfica (para combinaciones de hipótesis) o en grandes gráficas (para combinaciones de enrejados) • Se obtienen características de una forma más adecuada • Basada en la forma de combinar características

CARACTERÍSTICAS PARALELAS Convencional : todas las clases son igualmente importantes • En LDA se rotan los vectores a un espacio donde las clases de vectores están separadas en forma máxima. El nuevo espacio depende de la clases ya definidas. Características LDA: algunas clases son más importantes que otras eigvec2 eigvec1 eigvec1 eigvec2

CARACTERÍSTICAS PARALELAS Convencional : todas las clases son igualmente importantes • Las clases pueden ser, subpalabras, estados HMM, .etc • Idealmente éstas serían las clases en el nivel donde se combinan los valores • hemos escogido subpalabras como clases Características LDA : algunas clases son más importantes que otras eigvec2 eigvec1 eigvec1 eigvec2

CARACTERÍSTICAS PARALELAS : EJEMPLO Logspectra de dimensión 40 [CH JH SH S Z] [D T] [R ER] [SIL NOISE] [AA AW AO OW AE O AX AY E EH] [SIL NOISE]

CARACTERÍSTICAS PARALELAS : EJEMPLO Logspectra de dimensión 40 Paso de eliminación de ruido Espacio klt de 20 dim, vec propios calculados de datos de entrenamiento limpios LDA proyectada a 13 dim Con las clases clave: [CH JH SH S Z] [D T] [R ER] [SIL NOISE] LDA proyecteda a 13 dim Con las clases clave: [AA AW AO OW AE O AX AY E EH] [SIL NOISE]

Combinaciones de hipótesis y de enrejados • Tasas de error con datos de TI+D

RECONOCIMIENTO DEL HABLA EN AMBIENTES GSM Y RUIDOSOS: PROGRESO Y ENFOQUES FUTUROS

RECONOCIMIENTO DEL HABLA EN AMBIENTES GSM Y RUIDOSOS: PROGRESO Y ENFOQUES FUTUROS

Presentation Transcript

Liderazgo

Actos de habla y cortesía

Montacargas

FLEXIBLIDAD, TRANSVERSALIDAD CURRICULAR y CONVIVENCIA PARA GENERAR AMBIENTES INCLUSIVOS EN LA ESCUELA PESEGPA México, Se

Qualidade em Ambientes de Vigilância Sanitária

A Lei de Responsabilidade Fiscal

Capacitación para la captura de formato B1 En el Sistema de Beca Progreso Febrero 2012

Pensiones de retiro, cesantía y vejez en la nueva Ley del ISSSTE-Reconocimiento de derechos y bono de pensión

LA FE DE LOS PRIMEROS

Proyecto de Grado/Tesis Autor: Luis O ña 2013

TERCERA REUNIÓN MENSUAL

Ergonomía. Fundamentos básicos

Present Tense -ar Verbs

Capítulo 2-1 El progreso y la tecnolog ía

LOS AGRONEGOCIOS COMO SISTEMA DISTINTOS ENFOQUES PARA SU ANALISIS

EL RETRASO SIMPLE DEL HABLA Y LAS DISFASIAS

RECONOCIMIENTO CLINICO FORENSE

Unidad II Planeación

Present Tense -ar Verbs

Creación de Ambientes de Aprendizaje

NIC 2 EXISTENCIAS

¿QUIEREN VER QUE ES DE VERDAD UNA CIUDAD CON PROGRESO, CULTURA, Y COMERCIO?