1 / 18

Dpto. Señales, Sistemas y Radiocomunicaciones

Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt. Dpto. Señales, Sistemas y Radiocomunicaciones. Tratamiento Digital de Voz. Tema 4: Síntesis de Voz Tipos de Síntesis de Voz y Aplicaciones

ardith
Download Presentation

Dpto. Señales, Sistemas y Radiocomunicaciones

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Tratamiento Digital de VozProf. Luis A. Hernández Gómezftp.gaps.ssr.upm.es/pub/TDV/DOC/Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones

  2. Tratamiento Digital de Voz • Tema 4: Síntesis de Voz • Tipos de Síntesis de Voz y Aplicaciones • Principios básicos de sistemas de conversión de texto a voz • Sintetizadores de Voz • Sistemas y Dificultades

  3. Síntesis de Voz • Tipos de Síntesis de Voz y Aplicaciones (A) Voz Pre-Grabada (codificación) (B) Conversión de Texto a Voz Text-to-Speech TTS (C) Conversión de Concepto a Voz Concept-to-Speech CTS

  4. 1791 • El barón Wolfgang von Kempelen describió una máquina que reproducía fielmente la anatomía del aparato fonador humano

  5. 1835 • Sistema parlante diseñado por Sir Charles Wheatstone

  6. Sprachsynthese (TTS, Vocoder) Historie der Sprachsynthese 1939 Homer Dudley’s “Voder”: Primer Sintetizador “electrónico” compuesto de: • Un oscilador (controlado por un pedal) y una fuente de ruído blanco • Diez filtros paso banda, con salida conectada a potenciómetros • Algunos botones para generar consonantes como t, p, etc... http://www.acoustics.hut.fi/~slemmett/dippa/appa.html Proseminar Sprachdialogsysteme Philipp S. Bach

  7. Síntesis de Voz • Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico Proceso de Señal Análisis del Texto Análisis Fonético Análisis Prosódico Modelos de Síntesis de Voz SINTETIZADOR Texto Voz • Sonidos(pausas) • Prosodia: • F0 • Duración • Energía

  8. Síntesis de Voz • Principios básicos de sistemas de conversión de texto a voz • Proceso Lingüístico-Prosódico: Análisis del Texto Componentes: Texto de Entrada Detección de la Estructura del Texto Normalización del Texto Análisis Lingüístico

  9. Síntesis de Voz • Principios básicos de sistemas de conversión de texto a voz • Proceso Lingüístico-Prosódico: Análisis del Texto • Detección de la Estructura: • Segmentación de párrafos. • Separación de frases. • Tipos de frases. • Detección de estructura de SMS, e-mail, página web, ... • Identificación del Idioma, ... Texto de Entrada Detección de la Estructura del Texto Normalización del Texto Análisis Lingüístico

  10. Síntesis de Voz • Principios básicos de sistemas de conversión de texto a voz • Proceso Lingüístico-Prosódico: Análisis del Texto • Normalización del Texto: • Abreviaturas (Vd. Sr. ), acrónimos (CEE, BMW) , etc. • Fechas, Horas, Cantidades, Números • Corrección automática de errores o expansión de formas de escritura (SMSs) • Identificación de palabras extranjeras, .. Texto de Entrada Detección de la Estructura del Texto Normalización del Texto Análisis Lingüístico

  11. Síntesis de Voz • Principios básicos de sistemas de conversión de texto a voz • Proceso Lingüístico-Prosódico: Análisis del Texto • Análisis Lingüístico: • Análisis sintáctico y semántico (posible) • Desambiguación de palabras. • Estructura de la frase. • Identificación de tipo de frase. Texto de Entrada Detección de la Estructura del Texto Normalización del Texto Análisis Lingüístico

  12. Síntesis de Voz • Principios básicos de sistemas de conversión de texto a voz • Proceso Lingüístico-Prosódico: Análisis Fonético Componentes: Salida del Componente de Análisis de Texto Análisis Morfológico Conversión Letra-a-sonido (Grafema-a-alófono)

  13. Síntesis de Voz • Principios básicos de sistemas de conversión de texto a voz • Proceso Lingüístico-Prosódico: Análisis Fonético • Análisis Morfológico: • Palabras de función:pronombres, preposiciones, conjunciones (determinar sílabas, ej.: sublunar) • Palabras de contenido • Prefijos y sufijos, conjugaciones, plurales, aumentativos, etc • Descubrir homógrafas que cambian sentido • Ej.: para (preposición) y para (verbo) Salida del Componente de Análisis de Texto Análisis Morfológico Conversión Letra-a-sonido (Grafema-a-alófono)

  14. Síntesis de Voz • Principios básicos de sistemas de conversión de texto a voz • Proceso Lingüístico-Prosódico: Análisis Fonético • Conversión Grafema-Alófono: • Soluciones basadas en diccionario • Palabras divididas en morfemas (para disminuir diccionario) • Si la palabra no está: usa reglas • Soluciones basadas en reglas: Reglas de conversión letras-fonemas + Tabla + algoritmos de excepciones Salida del Componente de Análisis de Texto Análisis Morfológico Conversión Letra-a-sonido (Grafema-a-alófono)

  15. Síntesis de Voz • Principios básicos de sistemas de conversión de texto a voz • Proceso Lingüístico-Prosódico: Análisis Prosódico Componentes: Salida del Componente de Análisis Fonético Módulo Pausador • Modelado de: • Entonación • Duración • Intensidad Sonidos y pausas + F0, duración y Energía

  16. Síntesis de Voz • Principios básicos de sistemas de conversión de texto a voz • Proceso Lingüístico-Prosódico: Análisis Prosódico • Módulo Pausador: • Decisión de dónde insertar pausas –ortográficas y no ortográficas- : • Información gramatical: coeficientes de relación • Número de sílabas • Asignación de la duración adecuada a las pausas Salida del Componente de Análisis Fonético Módulo Pausador • Modelado de: • Entonación • Duración • Intensidad Sonidos y pausas + F0, duración y Energía

  17. Síntesis de Voz • Principios básicos de sistemas de conversión de texto a voz • Proceso Lingüístico-Prosódico: Análisis Prosódico • Modelado Prosódico: • Modelos: • Patrones pre-establecidos • Basados en reglas • Estocásticos, a partir de datos. • Modelado de F0 y duración: ¿independiente o conjunto? • Intensidad, generalmente sólo normalización Salida del Componente de Análisis Fonético Módulo Pausador • Modelado de: • Entonación • Duración • Intensidad Sonidos y pausas + F0, duración y Energía

  18. Síntesis de Voz • MODELOS PROSÓDICOS • Lineales o de Secuencia de Tonos – generar la curva de F0 de izquierda a derecha como una secuencia de valores o movimientos • Escuela Británica – basada en análisis auditivo • Pierrehumbert 1980 – análisis acústico (ToBI) • Dutch school - ‘t Hart, Collier and Cohen 1990 – información perceptual • Tilt - Taylor 1998 – base fonética • Modelos Jerárquicos o de superposición: - generar el contorno de F0 modelando factores de forma aislada (fonema, sílaba, palabra, frase, sentencia) y luego combinar los modelos parciales. • Fujisaki 1983, Grønnum 1992, Möbius et al. 1993, • Tomás Navarro Tomás, Manual de Pronunciación Española (1945) New York: • Hispanic Institute. Guadarrama 1974. • http://liceu.uab.es/publicacions/Linguistica_CTH_FDS02.pdf

More Related