1 / 35

Modelos Estadísticos del lenguaje

Modelos Estadísticos del lenguaje. Modelos del lenguaje (Language Models, LM) Noisy Channel model Modelos simples de Markov Smoothing. Language Models 1. Modelos estadísticos Modelos del lenguaje (LM) Vocabulario (V), palabra w  V Lenguaje (L), oración s  L

feoras
Download Presentation

Modelos Estadísticos del lenguaje

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Modelos Estadísticos del lenguaje • Modelos del lenguaje (Language Models, LM) • Noisy Channel model • Modelos simples de Markov • Smoothing

  2. Language Models 1 • Modelos estadísticos • Modelos del lenguaje (LM) • Vocabulario (V), palabra • w  V • Lenguaje (L), oración • s  L • L  V* normalmente infinito • s = w1,…wN • Probabilidad de s • P(s)

  3. Noisy Channel Model 1 • Mecanismo de modelado estadístico de un canal de comunicación de mensajes en presencia de ruido • Se pretende optimizar la calidad de la comunicación de mensajes a través del canal en presencia de ruido • Compresión (eliminación de la redundancia) y calidad de la transmisión (conseguida introduciendo redundancia de forma controlada de forma que se pueda recuperar el mensaje original en presencia de ruido)

  4. X Y W* W Channel p(y|x) decoder encoder message Attempt to reconstruct message based on output input to channel Output from channel Noisy Channel Model 2

  5. Noisy Channel Model 3 • Capacidad del canal (C): Nivel al que se puede transmitir información con una probabilidad pequeña de ser incapaz de recuperar la entrada a partir de la salida • Alcanzamos la capacidad del canal si logramos diseñar un input code X con distribución estadística p(X) que maximice la I (información mutua) entre entrada y salida.

  6. Noisy Channel Model 4 • En PLN no podemos actuar sobre la fase de codificación (encoding). El problema es decodificar la salida para lograr la entrada más verosimil I O Noisy Channel p(o|I) decoder

  7. Noisy Channel Model 5 Modelo del lenguaje Probabilidad del canal

  8. lenguaje real X noisy channel X  Y lenguaje observado Y Noisy Channel Model 6 Deseamos recuperar X a partir de Y

  9. lenguaje real X noisy channel X  Y lenguaje observado Y Noisy Channel Model 7 texto correcto errores texto con errores

  10. lenguaje real X noisy channel X  Y lenguaje observado Y Noisy Channel Model 8 texto correcto eliminación de espacios texto sin espacios

  11. lenguaje real X language model noisy channel X  Y acoustic model lenguaje observado Y Noisy Channel Model 9 texto pronunciación habla

  12. lenguaje real X noisy channel X  Y lenguaje observado Y Noisy Channel Model 10 árbol probabilistic CFG inserción de terminales texto

  13. lenguaje real X noisy channel X  Y lenguaje observado Y Noisy Channel Model 11 lengua f traducción lengua o

  14. Noisy Channel model 12 ejemplo: ASR Automatic Speech Recognizer Cadena acústica Cadena de palabras Modelo del lenguaje Modelo acústico

  15. Noisy Channel model 13 ejemplo: Traducción Automática Modelo del lenguaje objetivo Modelo de la traducción

  16. Implementación de LM • Implementación intuitiva • Enumerar s  L • Calcular las p(s) • Parámetros del modelo |L| • Simplificaciones • historia • hi = { wi, … wi-1} • Modelos de Markov

  17. Modelos de Markov simples 1 • Modelos de Markov de orden n+ 1 • P(wi|hi) = P(wi|wi-n+1, … wi-1) • 0-grama • 1-grama • P(wi|hi) = P(wi) • 2-grama • P(wi|hi) = P(wi|wi-1) • 3-grama • P(wi|hi) = P(wi|wi-2,wi-1)

  18. Modelos de Markov simples 2 • n grande: • más información del contexto (más poder discriminativo) • n pequeño: • más casos en el corpus de entrenamiento (más confianza) • Selección de n: • ej. para |V| = 20.000

  19. Modelos de Markov simples 3 • Parámetros de un modelo de n-grama • |V|n • Estimación MLE • a partir de un corpus • Problema sparseness

  20. Modelos de Markov simples 4 • Modelo 1-gram • Modelo 2-gram • Modelo 3-gram

  21. Modelos de Markov simples 5

  22. Modelos de Markov simples 6

  23. Modelos de Markov simples 7 Distribución real de probabilidad

  24. Modelos de Markov simples 8 Los casos vistos están sobre estimados, los no vistos tienen probabilidad nula

  25. Smoothing 1 • Métodos que actúan sobre el contaje de los n-gramas • Laplace, Lidstone, Jeffreys-Perks • Métodos que actúan sobre las probabilidades: • Held-Out • Good-Turing • Descuento • Métodos de combinación • Interpolación lineal • Back Off

  26. Smoothing 2 Laplace (add 1) P = probabilidad de un n-grama C = contaje del n-grama en el corpus de entrenamiento N = total n-gramas en el corpus de entrenamiento B = parámetros del modelo (n-gramas posibles)

  27. Smoothing 3 Lidstone (generalización de Laplace)  = número positivo pequeño M.L.E:  = 0Laplace:  = 1Jeffreys-Perks:  = ½

  28. Smoothing 4 Held-Out • Calcular qué porcentaje de la masa de probabilidad debe conservarse para los n-gramas no presentes en el corpus de entrenamiento • Se reverva parte del corpus de entrenamiento como corpus de validación (otra parte es para test) • Se calculan cuántos n-gramas ausentes del corpus de entrenamiento aparecen en el de validación • Posibilidad de usar Cross-Validation

  29. Smoothing 5 Held-Out Sea un n-grama w1… wn r = C(w1… wn) C1(w1… wn) frecuencia del n-grama en el training set C2(w1… wn) frecuencia del n-grama en el held out set Nr número de n-gramas con frecuencia r en el training set

  30. Smoothing 6 Good-Turing r* = “frecuencia ajustada” Nr = número de n-gram-types que aparecen r veces E(Nr) = “valor esperado” E(Nr+1) < E(Nr)

  31. Smoothing 7 Métodos de descuento Primero se calcula la probabilidad de held-out. • Absolute discounting: Decrementar en una pequeña constante la probabilidad de cada n-grama observado en el corpus de aprendizaje • Linear discounting: Decrementar la probabilidad de cada n-grama observado en el corpus de aprendizaje multiplicándola por una cantidad.

  32. Smoothing 8 Combinación de métodos • Combinación lineal de 1-grama, 2-grama, 3-grama, ... • Estimación de las  mediante un corpus de validación

  33. Smoothing 9 Katz’s Backing-Off • Usar n-grama cuando hay suficientes casos en el corpus de entrenamiento, si no hacer back-off a n-1-grama • Repetir en caso de necesidad

  34. Enriquecimiento de los LM • Actuación sobre la historia • Modelos basados en clases • agrupación de palabras en clases • Rosenfeld, 2000: • P(wi|wi-2,wi-1) = P(wi|Ci) P(Ci|wi-2,wi-1) • P(wi|wi-2,wi-1) = P(wi|Ci) P(Ci|wi-2,Ci-1) • P(wi|wi-2,wi-1) = P(wi|Ci) P(Ci|Ci-2,Ci-1) • P(wi|wi-2,wi-1) = P(wi|Ci-2,Ci-1)

  35. Structured Language Models • Jelinek, Chelba, 1999 • Inclusión de la estructura sintáctica en la historia • Ti son las estructuras sintácticas • árboles binarios lexicalizados

More Related