reconocimiento autom tico del habla n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Reconocimiento Automático del Habla PowerPoint Presentation
Download Presentation
Reconocimiento Automático del Habla

Loading in 2 Seconds...

play fullscreen
1 / 104

Reconocimiento Automático del Habla - PowerPoint PPT Presentation


  • 112 Views
  • Uploaded on

Reconocimiento Automático del Habla. Fonética/Fonología Luis Villaseñor Pineda, Carlos Alberto Reyes Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales, Instituto Nacional de Astrofísica, Óptica y Electrónica. … pero y ¿ qué es el habla ?.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Reconocimiento Automático del Habla' - caroun


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
reconocimiento autom tico del habla

Reconocimiento Automático del Habla

Fonética/Fonología

Luis Villaseñor Pineda, Carlos Alberto Reyes

Laboratorio de Tecnologías del Lenguaje

Coordinación de Ciencias Computacionales,

Instituto Nacional de Astrofísica, Óptica y Electrónica

pero y qu es el habla
… pero y ¿ qué es el habla ?
  • un pensamiento expresado en voz alta…
  • el mandato abrumador de la conciencia…
  • una canción de cuna…
  • el llamado a la justicia en Irak…
  • el saludo al despertar…
  • la explicación paciente del profesor de primaria…
  • el grito de auxilio de la víctima…
  • la incomprensible anuncio de nuestra partida en el aeropuerto…
  • la grabación impersonal de nuestra contestadora…

Laboratorio de Tecnologías del Lenguaje

seg n el diccionario
Según el diccionario…
  • Voz (l. voce)
    • 1 Sustantivo femenino. Sonido que, en el hombre y ciertos animales, produce el aire expelido de los pulmones al hacer vibrar las cuerdas vocales.
  • Hablar (l. fabulari)
    • 1 Verbo intransitivo. Darse a entender por medio de palabras.

Laboratorio de Tecnologías del Lenguaje

contenido
Contenido
  • ¿Qué es un reconocedor automático de habla?
  • Forma y contenido del habla
  • Principios físicos del sonido / habla
  • Mecanismos del lenguaje humano

Laboratorio de Tecnologías del Lenguaje

qu es un reconocedor de habla
¿Qué es un reconocedor de habla?
  • Es un proceso que convierte una señal acústica (sonido) capturada por micrófono -u otro dispositivo- a un conjunto de palabras (texto)
    • Es la identificacion de las palabras de una elocución
    • (habla >> transcrición ortográfica)
  • Basado en técnicas de reconocimiento de patrones
  • Dichos patrones son aprendidos a partir de grandes conjuntos de datos, usando técnicas estocásticas

Laboratorio de Tecnologías del Lenguaje

para qu sirve un reconocedor de habla
¿Para qué sirve un reconocedor de habla?
  • Su principal objetivo es facilitar/mejorar la comunicación entre el hombre y la computadora, ya que la comunicación hablada es un medio natural para intercambio de información
  • Además, casi toda actividad humana es social y el habla es parte esencial de esa actividad

Laboratorio de Tecnologías del Lenguaje

problem tica
Problemática
  • El habla es una compleja combinación de procesos a diferentes niveles que es usada para transmitir información
  • Variabilidad de la señal:
    • Variabilidad intra-locutor: estado emocional, ambiente, estado de salud, etc.
    • Variabilidad inter-locutor: diferencias fisiológicas, acento, dialectos, etc.
    • Canal acústico: Teléfono, micrófono, ruido ambiental, etc.
caracter sticas de un reconocedor
Características de un Reconocedor
  • Tipo de habla: aislada, continua
  • Dependiente o Independiente del locutor
  • Número de palabras que reconocen
  • Tipo de texto que reconocen
  • Tipo de canal

Laboratorio de Tecnologías del Lenguaje

dos grandes reas
Dos grandes áreas:
  • Principios físicos del sonido en particular del habla
  • Mecanismos del lenguaje a diferentes niveles (los primeros)

Laboratorio de Tecnologías del Lenguaje

principios f sicos del sonido
Principios físicos del sonido
  • Todos los sonidos, incluyendo el habla, provocan el movimiento de las moléculas del aire
  • Algunos producen un movimiento del aire en patrones regulares:
    • Al tocar una cuerda de una guitarra
  • Casos contrarios:
    • Cerrar una puerta
  • Gráficamente representamos un sonido como una curva senoidal
    • En un eje la presión del aire en otro eje el tiempo

Laboratorio de Tecnologías del Lenguaje

frecuencia y amplitud
Frecuencia y Amplitud
  • El número de vibraciones producidas por segundo es llamada frecuencia
  • Una vibración de 100 veces por segundo tiene una frecuencia de 100 ciclos por segundo o 100 Hertz (Hz)
  • Los sonidos agudos tienen una alta frecuencia los graves baja
  • La intensidad de un sonido es la cantidad de aire desplazado
  • La intensidad se describe en términos de la amplitud de la curva
  • La amplitud es medida en decibeles dB

Laboratorio de Tecnologías del Lenguaje

frecuencia dominante
Frecuencia Dominante
  • Los ejemplos anteriores son tonos puros
  • La mayoría de los sonidos son compuestos
    • Una frecuencia dominante o fundamental (pitch)
    • Acompañada de un conjunto de frecuencias secundarias (timbre)
    • En particular para el habla ciertas frecuencias secundarias llamadas formantes sirven para distinguir entre los fonemas

Laboratorio de Tecnologías del Lenguaje

visualizaci n del sonido
Visualización del sonido

Amplitud

Tiempo

Frecuencia

Tiempo

Laboratorio de Tecnologías del Lenguaje

Espectrograma

transcripci n ortogr fica
Transcripción ortográfica
  • Comunícame con Javier
transcripci n ortogr fica1
Transcripción ortográfica
  • risas, ruidos, respiraciones, silencios, tartamudeos, etc.
transcripci n fon tica2
Transcripción fonética

Laboratorio de Tecnologías del Lenguaje

fon tica
Fonética
  • Entrada
    • Señal acústica
  • Salida
    • Alfabeto fonético
  • Estudia:
    • Formación de las consonantes y las vocales en el tracto vocal
    • Clasificación de vocales, consonantes por su forma, posición de la lengua y músculos bucales involucrados

Laboratorio de Tecnologías del Lenguaje

corpus dimex100
Corpus DIMEx100
  • Todo inicia a partir de un corpus recolectado de la Web
    • El Corpus230 (Villaseñor et al., 2004)
      • 344,619 frases
      • un vocabulario de 235,891 unidades léxicas
      • 15 milliones de palabras

Laboratorio de Tecnologías del Lenguaje

corpus dimex1001
Corpus DIMEx100
  • Selección de 15,000 frases entre 5 y 15 palabras.
  • Seleccionamos 7000 frases con las más pequeñas perplejidades
    • Aseguramos un corpus rico y balanceado
    • Eliiminamos frases con palabras extranjeras o abreviaturas
  • Finalmente nos quedamos con 5010 frases
  • El corpus fue grabado por 100 hablantes, cada uno con 50 frases individuales + 10 frases grabadas por todos los hablantes.
  • En resumen 6000 frases: 5000 frases diferentes grabadas una vez y 10 frases grabadas 100 veces cada una.

Laboratorio de Tecnologías del Lenguaje

slide25

Fonétizador : TranscríbEMex

Laboratorio de Tecnologías del Lenguaje

distribuci n fon tica de dimex100
Distribución fonética de DIMEx100

Laboratorio de Tecnologías del Lenguaje

comparaci n con otros estudios
Comparación con otros estudios

Laboratorio de Tecnologías del Lenguaje

fonolog a
Fonología
  • Entrada:
    • Secuencia de fonos/sonidos (en un alfabeto fonético)
  • Salida:
    • Secuencia de fonemas (letras) en un alfabeto abstracto
  • Estudia:
    • Las relaciones entre sonidos y fonemas (unidades las cuales tienen una cierta función en el nivel superior)
    • Por ejemplo: ocho

Laboratorio de Tecnologías del Lenguaje

relaci n grafema fonema
Algunos grafemas no representan a ningún fonema

Un grafema puede representar diferentes fonemas en contextos diferentes

Diferentes grafemas pueden representar el mismo fonema

h hola

c /s/,/k/ cielo, casa

c,s,z /s/ cita, silla, zapato

Relación grafema-fonema

Laboratorio de Tecnologías del Lenguaje

relaci n grafema fonema1
Pronunciación de diptongos:

diptongo /io/ en kiosko

hiato /i-o/ en tío

Acentos regionales:

ocho es pronunciado como [o tS o] o [o S o]

zeta is pronunciado como /seta/ o /Teta/

Relación grafema-fonema

/io/ /i-o/

/otso/ /oSo/

Laboratorio de Tecnologías del Lenguaje

caracter sticas de la percepci n humana
Características de la Percepción Humana
  • El oído humano está especializado en el reconocimiento de voz
    • Aunque es capaz de detectar frecuencias de 20 Hz a 20000 Hz
    • Es mucho más sensible en el rango de la voz: 1000 Hz a 6000 Hz
    • No procesa las frecuencias de forma individual, sino por grupos de frecuencias

Laboratorio de Tecnologías del Lenguaje

ruido voz y expectativa
Ruido, voz y expectativa
  • Un oído especializado en el lenguaje
    • Discriminar entre ruido y palabra
      • ¡A pesar de que el ruido sea voz!
    • Capacidad para reconstruir un mensaje
  • Y si yo viera…
  • Que elocuente…

Laboratorio de Tecnologías del Lenguaje

ruido voz y expectativa1
Ruido, voz y expectativa
  • Un oído especializado en el lenguaje
    • Discriminar entre ruido y palabra
      • ¡A pesar de que el ruido sea voz!
    • Capacidad para reconstruir un mensaje
  • Y si yo viera… te mojabas
  • Que elocuente… a todos los niños

Laboratorio de Tecnologías del Lenguaje

reconocer y entender
Reconocer y Entender

RAH

  • El primer paso para entender es reconocer
  • En los seres humanos estos dos procesos están fuertemente entrelazados

RAH

Entendimiento

Laboratorio de Tecnologías del Lenguaje

reconocer
Reconocer
  • Adquisición de la señal hablada
  • Extracción de características
  • Clasificación y modelado de las señales (dentro de esta parte se encuentran los modelos acústicos, léxicos y los de lenguaje).
  • Métodos de búsqueda y reconocimiento

Laboratorio de Tecnologías del Lenguaje

capturando la se al
Capturando la señal
  • La señal de voz es redundante y algunos datos irrelevantes para el proceso de reconocimiento
  • Para reducir la cantidad de datos:
    • Usar filtros para eliminar frecuencias arriba de 3100 Hz y debajo de 100 Hz

Laboratorio de Tecnologías del Lenguaje

capturando la se al1
Capturando la señal...
  • El muestreo:
    • Tomamos rebanadas muestras de la señal (el cine es el mismo caso)
  • El número de muestras depende de las frecuencias que deseamos incluir en nuestro análisis:
    • La tasa de muestreo mínima es el doble de la más alta frecuencia de interés
    • Para una frecuencia de 3100 Hz necesitamos 6200 muestras por segundo

Laboratorio de Tecnologías del Lenguaje

procesamiento de se al
Procesamiento de Señal
  • Extracción de características
    • Llevar la señal digital a una representación matemática simple con la cual trabajar
    • Transformada de fourier discreta (DFT) o FFT
      • LPC
      • MFCC

Laboratorio de Tecnologías del Lenguaje

reconocimiento a partir de patrones
Reconocimiento a partir de Patrones
  • Comparación de patrones

Funcionamiento general de un comparador de patrones

Laboratorio de Tecnologías del Lenguaje

reconocimiento a partir de patrones1
Reconocimiento a partir de Patrones
  • Comparación de patrones
    • Vocabularios pequeños
    • Variabilidad fonética
    • Operación a nivel de palabra
    • Alineación temporal

Laboratorio de Tecnologías del Lenguaje

reconocimiento a partir de patrones2
Reconocimiento a partir de Patrones
  • Modelos estocásticos
    • Selección no-determinística entre un conjunto de posibilidades
    • A diferencia del apareo de patrones no existe una comparación entre los modelos almacenados y la entrada
    • Un análisis probabilístico es la base de la selección (modelos ocultos de Markov)
    • Grandes cantidades de datos para entrenamiento
    • Operación a nivel de fonemas y semi-fonemas

Laboratorio de Tecnologías del Lenguaje

reconocimiento a partir de patrones3
Reconocimiento a partir de Patrones
  • Modelos estocásticos
    • Estructura típica de un modelos ocultos de Markov (HMM)

Laboratorio de Tecnologías del Lenguaje

creando un reconocedor para el espa ol mexicano
Creando un reconocedor para el Español Mexicano
  • Se tomaron los modelos acústicos del francés
    • Para la gran mayoría de manera directa
    • Para tres fonemas se crearon los modelos de español mezclando modelos del francés
      • /tS/ => campeche
      • /x/ => tecnológico
      • /L/ => desarrollo

Laboratorio de Tecnologías del Lenguaje

creando un reconocedor para el espa ol mexicano1
Creando un reconocedor para el Español Mexicano

Francés => Español Mexicano

Laboratorio de Tecnologías del Lenguaje

proceso iterativo
Proceso iterativo

Laboratorio de Tecnologías del Lenguaje

fen menos del habla espont nea
Fenómenos del habla espontánea
  • La enunciación de una locución es un proceso complejo donde la construcción de la oración y su pronunciación son procesos interdependientes

“Speech is more than just an audible version of text”

(M. Hunt)

Laboratorio de Tecnologías del Lenguaje

slide47

utt3 : que me traiga no que me que muevas el <sil> (no sé cómo se le llama a las) gabinete (no sé) a esto que está en la pared izquierda

Laboratorio de Tecnologías del Lenguaje

fen menos del habla espont nea1
Fenómenos del habla espontánea
  • Expresiones incrustadas

utt96 : a ver este esa mesa (por favor) la puedes poner en el centro ?

utt119 : ah <sil> ah <sil> sabes qué este quiero que que la gires a a la mesa <sil> de tal forma que (ay dónde está el mouse ?) de tal forma que esta parte <sil> quede pegada a la ventana <sil> esta parte superior <ruido> bueno

utt7 : <ruido> eh puedes poner este <ruido> este estante lo puedes poner <sil> eh también en esta pared (pero <sil> no sé ) más o menos a esta altura en la pared de este lado en la pared de del fondo

Laboratorio de Tecnologías del Lenguaje

fen menos del habla espont nea2
Fenómenos del habla espontánea
  • Reparaciones / Abandonos

utt95 :bueno primero nos tra-traemos la / cómo se le llama a la parte de arriba de la estufa la que absorbe ?

utt80 : entonces el primero <no-vocal> el tercero perdón

Laboratorio de Tecnologías del Lenguaje

fen menos del habla espont nea3
Fenómenos del habla espontánea
  • Ambigüedad/Redundancia

utt39 : ahora sí <sil> el <sil> estante este que está aquí abajo <sil> lo puedes poner en esta esquina <sil> en la esquina de esta pared

utt73 : hay espacio para que este estante quede aquíen esta pared ?

utt121: puedes llevar esta alacena <sil> aquía esta parte a la parte superior de esta esquina

Laboratorio de Tecnologías del Lenguaje

caracter sticas sint cticas del habla espont nea
Características sintácticas del habla espontánea
  • Orden de las palabras
    • pon la estufa junto al refri
    • pon junto al refri la estufa
  • Pronombres clíticos
    • utt70 : u: puedes girarlo <sil> eh en el mismo sentido ?
    • utt61 : u: podrías mostrármelos ?
    • utt9 : u: pónmelo <sil> aquí <sil> en esta esquina

Laboratorio de Tecnologías del Lenguaje

caracter sticas sint cticas del habla espont nea1
Características sintácticas del habla espontánea
  • Construcciones difíciles
    • utt50 : u: pero a una altura más grande
    • utt208: u: eh no tanto <sil> oh haz de cuenta que no quede pegadita
  • Construcciones propias del español mexicano
    • utt35 : u: ahorita ponla en cualquier lugar
    • utt35 : u: enseguidita ajá
    • utt187: quiero una que sea así largita más o menos del tamaño del refri
    • utt97 : u: este acá arribita

Laboratorio de Tecnologías del Lenguaje

aplicaci n b squeda en audio
Aplicación: Búsqueda en Audio
  • Objetivo:
    • Dado un término en forma textual deseamos localizar dicho término en una colección de grabaciones (conversaciones, discursos, etc.)
    • Organizar las colecciones de audio por temas tratados, personajes entrevistados, etc.

Laboratorio de Tecnologías del Lenguaje

primer enfoque
Primer enfoque
  • Indexado a partir de la transcripción:
    • Después de transformar el audio en texto, con ayuda de un reconocedor gran vocabulario de habla continua, generamos un índice de las palabras presentes en la transcripción
    • Tratamos la transcripción con las técnicas actuales de recuperación y extracción de información.

Laboratorio de Tecnologías del Lenguaje

segundo enfoque
Segundo enfoque
  • Indexado basado en fonemas:
    • La transformación del audio sólo llega hasta la etapa de fonemas, ésta es la base a partir de la cual se hará la búsqueda del texto deseado.
    • La búsqueda puede dar un mayor número de respuestas falsas que el enfoque anterior, pero tiene un mejor comportamiento con palabras fuera del diccionario (nombre de personas, lugares, términos extranjeros, etc.)

Laboratorio de Tecnologías del Lenguaje

a notar
A notar…
  • El reconocimiento fonético aun está lejos de un reconocimiento perfecto
  • Usando información lingüística (modelos de lenguaje) es posible incrementar su rendimiento
    • Un modelo de lenguaje captura (probabilísticamente) las secuencias propias de un lenguaje
      • “El que madruga …
      • “A buen entendedor …

Laboratorio de Tecnologías del Lenguaje

a notar1
A notar…
  • El reconocimiento fonético aun está lejos de un reconocimiento perfecto
  • Usando información lingüística (modelos de lenguaje) es posible incrementar su rendimiento
    • Un modelo de lenguaje captura (probabilísticamente) las secuencias propias de un lenguaje
      • “El que madruga, Dios le ayuda”
      • “A buen entendedor, pocas palabras”

Laboratorio de Tecnologías del Lenguaje

a notar2
A notar…
  • Los modelos acústicos recuperan pistas auditivas las cuales son la base para la reconstrucción del mensaje.
  • Los modelos de lenguaje aportan información sobre el lenguaje y el contexto para la reconstrucción del lenguaje
    • Un modelo de lenguaje es más fácil de construir mientras más acotado sea el dominio

Laboratorio de Tecnologías del Lenguaje

a notar3
A notar…
  • El comportamiento de los reconocedores es mejor si el contexto es limitado.
    • En noticieros de 5 a 20% de error
    • Otros contenidos de 30 a 60% de error
  • Se puede indexar una hora de audio en 5 minutos (no se menciona la calidad)
  • Existen ya sistemas multilingües!

Laboratorio de Tecnologías del Lenguaje

una soluci n posible
Una solución posible
  • Llegar a la transcripción pero apoyarse también en su información fonética

Proponer un método para recuperación de información en documentos orales enriqueciendo su representación a través de codificación fonética.

Laboratorio de Tecnologías del Lenguaje

speech retrieval
Speech Retrieval
  • CLEF SR (2005 – 2007)
  • Características:
    • Colección de entrevistas
    • Existen correferencias (No hay muchas repeticiones)
    • Habla espontánea (titubeos, correcciones)
    • Los temas están más entrelazados

Laboratorio de Tecnologías del Lenguaje

tipos errores
Tipos Errores

Substitución

Más complejos (Combinación Inserción+Substitución)

Laboratorio de Tecnologías del Lenguaje

ej codificaci n fon tica
Ej. Codificación Fonética
  • Mantiene la primera letra de la palabra
  • Convierte las letras a dígitos

Laboratorio de Tecnologías del Lenguaje

m todo
Método
  • Filtrar las transcripciones eliminando palabras vacías.
  • Codificar las transcripciones usando el algoritmo Soundex.
  • Obtener las frecuencias de los códigos en la colección
  • Eliminar códigos frecuentes.
  • Agregar la codificación resultante a la transcripción.

Laboratorio de Tecnologías del Lenguaje

ejemplo
Ejemplo

“Consulta”:

  • Personality and actions of Raoul Wallenberg
  • {personalities, actions, raoul, wallenberg, P62543, A23520, R40000, W45162 }

“Documento”:

Laboratorio de Tecnologías del Lenguaje

corpus clef sr 2007
Corpus (CLEF SR 2007)
  • 8,104 documentos (589 horas de audio)
    • 1 Transcripción automática (25% error a nivel palabra) (ASR)
    • 2 Conjuntos de palabras clave generadas automáticamente (AK)
  • 63 consultas de entrenamiento
  • 33 consultas de prueba

Laboratorio de Tecnologías del Lenguaje

experimento 1 ri
Experimento 1 - RI
  • Comprobar las técnicas de recuperación de información
    • Usando sólo Texto
    • Usando sólo Soundex

Laboratorio de Tecnologías del Lenguaje

experimento 3 complementariedad
Experimento 3 - Complementariedad
  • ¿Tiene caso combinar los métodos?
  • Documentos Relevantes Recuperados

Laboratorio de Tecnologías del Lenguaje

experimento 4 combinando
Experimento 4 - Combinando
  • Consulta sobre los documentos enriquecidos (Texto + Soundex)
  • Usar diferentes pesos en la consulta
  • Ejemplo de una consulta:
    • #weight(2.0 palabra1 2.0 palabra2 1.0 código1 1.0 código2)
  • Asigna un peso de 2 a las palabras y un peso de 1 a los códigos

Laboratorio de Tecnologías del Lenguaje

mejora
Mejora
  • Comparación con respecto a realizar la recuperación solo sobre el texto

Laboratorio de Tecnologías del Lenguaje

resultados corpus de prueba
Resultados (corpus de Prueba)

Precisión a 5: 19.4% (1 documento dentro de los 5 primeros)

Precisión a 10: 17.3% (casi 2 documentos dentro de los 10 primeros)

Laboratorio de Tecnologías del Lenguaje

discusi n
Discusión
  • La codificación fonética puede generar confusiones
  • Por eso se utilizó los códigos fonéticos junto con el texto

Laboratorio de Tecnologías del Lenguaje

trabajo futuro
Trabajo Futuro
  • Ej. Palabra December en 3-gramas
    • “decima, decent, decant”
    • “embargo, embark, ember, embarras”, etc.
  • Aumentaría la cantidad de códigos frecuentes

Laboratorio de Tecnologías del Lenguaje

aplicaci n personalizando la interfaz
Aplicación: Personalizando la Interfaz
  • Una interfaz dinámica que cambie su apariencia o que proponga los elementos más comúnmente utilizados por un usuario específico
  • La señal de voz abarca diferentes tipos de información:
    • Un mensaje.
    • Un lenguaje.
    • La emoción.
    • El género.
    • La edad.
    • La identidad del hablante.

Laboratorio de Tecnologías del Lenguaje

reconocimiento del hablante
Reconocimiento del hablante

diferente a laVerificación de usuarios.

  • En la verificación del hablante lo que se desea es comprobar cuando la persona que habla es, o no es, la persona que afirma ser, en este caso, el sistema tiene información sobre la identidad del usuario.
  • Reconocimiento del hablante busca hacer una caracterización y reconocimiento de la identidad del hablante gracias a su señal de voz.

Laboratorio de Tecnologías del Lenguaje

en particular
En particular
  • Deseamos contar con un sistema identificador de hablantes que cumpla con las siguientes restricciones:
    • 1. Independiente del texto – el hablante no tenga que decir un texto en específico
    • 2. Independencia de un reconocedor fonético – No deseamos segmentar la señal identificando los fonemas
      • Podemos reconocer al hablante por como pronuncia, por su timbre, por su “modismos”

Laboratorio de Tecnologías del Lenguaje

soluci n aprendizaje autom tico
Solución: aprendizaje automático
  • Tomamos un conjunto de grabaciones de los hablantes en cuestión (un corpus)
  • Caracterizamos las grabaciones – extraemos características acústicas de la señal de cada grabación
  • Le entregamos al algoritmo de aprendizaje las características para cada grabación distinguiendo entre usuarios
  • Obtenemos un clasificador

Laboratorio de Tecnologías del Lenguaje

corpus
Corpus
  • Para las fases de entrenamiento y evaluación se usó el corpus DIMEx100.
  • Corpus oral para el español mexicano, conformado por grabaciones de 100 personas.
  • Cada una de ellas grabó 50 frases (44kHz).
  • Los textos leídos son diferentes para cada individuo 3.5 seg. voz.
  • Duración total del corpus es de 291 minutos de voz.

Laboratorio de Tecnologías del Lenguaje

caracterizaci n de la se al de voz
Caracterización de la Señal de Voz

window

window

X1

X2

Cálculo de

coeficientes

MFCC ó LPC

X13

Laboratorio de Tecnologías del Lenguaje

sin solapamiento
Sin solapamiento

Laboratorio de Tecnologías del Lenguaje

con solapamiento
Con solapamiento

Laboratorio de Tecnologías del Lenguaje

conclusiones
Conclusiones
  • Método sencillo basado en un procesamiento directo de la señal acústica
  • Los resultados alentadores: 70% al usar SVM
    • 100 hablantes
    • 3.5 seg de señal de voz

Laboratorio de Tecnologías del Lenguaje

trabajo futuro1
Trabajo futuro
  • Extender los experimentos incluyendo más información descriptiva de la señal acústica
    • Deltas de los coeficientes
    • Componente de energía
  • Usar otras metodologías en el aprendizaje
    • Estudio de un Kernel no polinomial
    • Uso de ensambles
  • Extender el tamaño de las muestras de señal acústica

Laboratorio de Tecnologías del Lenguaje

aplicaci n personalizando la interfaz1
Aplicación: Personalizando la Interfaz
  • Una interfaz dinámica que cambie su apariencia o que proponga los elementos más comúnmente utilizados por un usuario específico
  • La señal de voz abarca diferentes tipos de información:
    • Un mensaje.
    • Un lenguaje.
    • La emoción.
    • El género.
    • La edad.
    • La identidad del hablante.

Laboratorio de Tecnologías del Lenguaje

c mo se ha abordado
¿Cómo se ha abordado?
  • Primer enfoque: Basan la IAL en el empleo de características lingüísticas propias de cada lenguaje. Realizan segmentación de fonemas y utilizan modelos de lenguaje.
    • Sistemas basados en reconocimiento de fonemas
  • Segundo enfoque: Explotar directamente la señal acústica para la IAL, obteniendo características tales como la prosodia, ritmo, entonación, entre otras.
    • Sistemas no basados en reconocimiento de fonemas.

Laboratorio de Tecnologías del Lenguaje

slide86

Dificultades del primer enfoque

  • Necesidad de un estudio previo de cada lenguaje
    • Un módulo para la segmentación de la señal de voz en fonemas
    • Un proceso de etiquetado manual realizado por expertos a nivel fonético
  • Necesidad de la creación de modelos de lenguaje
    • Corpus grandes de texto y/o transcripciones ortográficas de grabaciones
    • Estadística de todos las posibles combinaciones de fonemas
  • No son de utilidad para lenguas que no cuentan con convenciones claramente establecidas para su escritura

Laboratorio de Tecnologías del Lenguaje

slide87

Segundo enfoque

  • Los lingüistas parten de que existe otro tipo de características las cuales no pueden segmentarse como los fonemas, porque actúan simultáneamente sobre más de un segmento.
  • Suprasegmentos: el acento, el tono (sucesión de ellos – entonación-) y la duración.
  • El acento:
      • Español normalmente grave
      • Francés normalmente agudo

Laboratorio de Tecnologías del Lenguaje

slide88

Características suprasegmentales

  • Tono: como recurso de diferenciación léxica, para lenguas como el chino o el vietnamita.
  • Por ejemplo: /ma/ puede significar varias cosas:
    • con un tono estático alto significa madre
    • con tono dinámico ascendente significa cáñamo
    • con un tono dinámico ascendente-descendente significa caballo
    • con un tono descendente significa riña
  • Las lenguas de la familia congo-nigerianas, sino-tibetanas y algunas de las lenguas indígenas de México (otomí, mazahua, chichimeca entre otras)

Laboratorio de Tecnologías del Lenguaje

slide89

Características suprasegmentales

  • Entonación: sucesión de tonos, como recurso de función expresiva, para lenguas románicas
  • Por ejemplo:
    • ¿Cómo estás?
    • ¿cómo? ¡estás!
  • Ritmo: es la pauta de tensión formada por la combinación de las sílabas tónicas y atonas, largas y breves
    • Ritmos: stress timed, syllable timed, acentual y silábico.

Laboratorio de Tecnologías del Lenguaje

slide90

El problema

  • Como extraer las características suprasegmentales del habla, como la prosodia, el ritmo, la entonación entre otras.
  • [Li 1994] Localizar automáticamente el núcleo-silábico (por ejemplo las vocales). Generar vectores espectrales de regiones cercanas al núcleo silábico, tanto para entrenamiento como prueba.
  • [Itahasi 1994 y 1995] Uso la frecuencia fundamental (pitch) ya que su estimación es más robusta en ambientes ruidosos que los parámetros espectrales de Li
  • [Thyme-Gobbel y Hutchins 1996] Caracterizaron la prosodia a través contornos del pitch y la amplitud entre una sílaba y otra

Laboratorio de Tecnologías del Lenguaje

slide91

Estado del arte

  • Cummins et al 1999: El trabajo recae en la suposición de que las variaciones de amplitud en la frecuencia fundamental son importantes para percibir el ritmo en el habla.

Laboratorio de Tecnologías del Lenguaje

slide92

Estado del arte

  • Rouas et al 2003 y 2005: Propone un método para identificar los lenguajes en bases a su entonación y ritmo: caracteriza el ritmo en función de intervalos vocálicos y consonánticos.

Laboratorio de Tecnologías del Lenguaje

slide93

Objetivo

  • Desarrollar un método para la identificación del lenguaje hablado sin recurrir a la representación fonética de la señal de voz, con un nuevo método de caracterización de los elementos suprasegmentales del habla.
  • Suposición: el ritmo puede ser una característica fundamental para la identificación y éste se localiza en las frecuencias bajas

Laboratorio de Tecnologías del Lenguaje

slide94

Nueva caracterización del ritmo

  • Procesamiento basado en Wavelets:

Hablante japonés Hablante español

Laboratorio de Tecnologías del Lenguaje

slide95

Nueva caracterización

  • Uso de la transformada Daubechies 4 coeficientes
  • Muestras de 30 y 50 seg.
  • Reducción de la información por medio de truncado de aproximación con un umbral del 1%

Laboratorio de Tecnologías del Lenguaje

slide96

Nueva caracterización del ritmo

Truncado

por método de

aproximación

Aplicación

Transformada wavelet

Señal de voz

Lenguaje 1

Inglés

  • Reducción de
  • dimensionalidad:
  • Eliminar los coeficientes
  • irrelevantes
  • Ganancia de información

Construcción

del clasificador

para lenguajes

1 y 2

Truncado

por método de

aproximación

Aplicación

Transformada

wavelet

Señal de voz

Lenguaje 2

Español

Truncado

por método de

aproximación

Aplicación

Transformada

wavelet

  • Reducción de
  • Dimensionalidad:
  • Eliminar los coeficientes
  • irrelevantes
  • Ganancia de información.

Señal de voz

Lenguaje 1

Inglés

Clasificador

Binario

Lenguajes

1 y 9

Truncado

por método de

aproximación

Aplicación

Transformada

wavelet

Señal de voz

Lenguaje 9

Farsi

Laboratorio de Tecnologías del Lenguaje

slide97

Nueva caracterización del ritmo

  • Resultados entre paréntesis Rouas:

Laboratorio de Tecnologías del Lenguaje

slide98

Resultados promedio

Laboratorio de Tecnologías del Lenguaje

slide99

Nueva caracterización del ritmo

  • La nueva caracterización con wavelets obtiene mejores resultados que los alcanzados por Rouas.
  • Nos permite enfocarnos a las bajas frecuencias
  • Buenos resultados con muestra de señal de voz más grandes.
  • Umbral de truncado se obtuvo al procesar todos los idiomas, podría determinarse por pares de idiomas.

Laboratorio de Tecnologías del Lenguaje

slide100

Trabajo futuro

  • Extender el método para trabajar con clasificadores multiclase. Con la finalidad de comparar nuestra técnica con los métodos que utilizan información fonotáctica de los lenguajes.
  • Mezclar diferentes extracciones de características de la señal de voz tales como el ritmo de Rouas con los coeficientes wavelet para generar características suprasegmentales del habla híbridas.
  • Utilizar los modelos de mezclas gaussianas, con la idea de probar los métodos propuestos en la tarea de verificación del idioma (NIST)

Laboratorio de Tecnologías del Lenguaje

slide101

Lenguas indígenas mexicanas

  • Corpus utilizado: el archivo de lenguas indígenas de Latinoamérica, http://www.ailla.org

Náhuatl

Zoque

Español

  • 20 diferentes hablantes por cada lengua.
  • Los tamaños de muestras variaron.
  • El algoritmo de clasificación usado fue el de Naïve Bayes y se utilizó la validación cruzada en 10 pliegues para su evaluación.

Laboratorio de Tecnologías del Lenguaje

slide102

Resultados utilizando MFCC:

Laboratorio de Tecnologías del Lenguaje

resultados multiclase
Resultados multiclase
  • Un clasificador con los tres lenguajes.

Transformada wavelet

192 atributos de MFCC

Laboratorio de Tecnologías del Lenguaje

slide104

Experimentos Lengua no materna

  • Grabaciones con la misma calidad
    • Inglés 6 personas
    • Francés 5 personas
    • Español 6 personas
  • Método utilizado wavelet Daubechies con 4 coeficientes y truncado de aproximación
  • Clasificador Naïve Bayes
  • inglés-español español-francés inglés-francés

91.67% 81.82% 100%

a b a b a b

5 1 a=inglés 5 1 a=español 6 0 a=inglés

0 6 b=español 1 4 b=francés 0 5 b=francés

Laboratorio de Tecnologías del Lenguaje