1 / 73

Análisis probabilístico

Análisis probabilístico. Introducción SCFG Algoritmo Inside Algoritmo Outside Algoritmo Viterbi Aprendizaje de los modelos Otras aproximaciones La adquisición de las gramáticas: Inducción gramatical. Métodos probabilísticos 1. Uso de preferencias estadísticas para

Download Presentation

Análisis probabilístico

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Análisis probabilístico • Introducción • SCFG • Algoritmo Inside • Algoritmo Outside • Algoritmo Viterbi • Aprendizaje de los modelos • Otras aproximaciones • La adquisición de las gramáticas: • Inducción gramatical

  2. Métodos probabilísticos 1 • Uso de preferencias estadísticas para • resolver ambigüedades • guiar el proceso de análisis • obtener el análisis más plausible • Inducción gramatical a partir de corpus • Objetivo: Análisis de textos no restringidos con un nivel aceptable de corrección (>90%) y de eficiencia. • Prerrequisitos: • Corpus etiquetados (con POS): Brown, LOB, Clic-Talp • Corpus analizados: Penn treebank, Susanne, 3LB

  3. Métodos probabilísticos 2 • Aproximaciones léxicas • No contextuales: unigram • Contextuales: N-gram, HMM • Aproximaciones gramaticales • SCFG • Aproximaciones híbridas • Stochastic lexicalized Tags • Cálculo del análisis más probable • Viterbi • Estimación de los parámetros • Corpus etiquetado (aprendizaje supervisado) • Corpus no etiquetado (aprendizaje no supervisado) • Baum-Welch (Fw-Bw) para HMM • Inside-Outside para SCFG

  4. Métodos probabilísticos 3 • Parsers robustos, precisos y de amplia cobertura (Charniak 1997, Collins 1997, Ratnaparkhi 1997, Charniak 2000) • Convierten el parsing en una tarea de clasificación utilizando técnicas de ML • Métodos Estadísticos para resolver las ambigüedades • Eficientes – A menudo coste lineal (usando beam search) • Producen LM que pueden integrarse en ASR

  5. SCFG: Gramáticas CF probabilísticas • Asociar una probabilidad a cada regla • Asociar una probabilidad a cada entrada léxica • Restricción frecuente CNF: • Ap  Aq Ar matriz Bpqr • Ap bm matriz Upm • Si deseamos encontrar el árbol de análisis más probable para una oración W sin generar todas las derivaciones posibles podemos recurrir al algoritmo de Viterbi

  6. Pros y Contras de las SCFG 1 • Alguna idea de la probabilidad de un análisis • Pero no muy buena. No se tiene en cuenta, por ejemplo, la coocurrencia léxica • Las CFG no pueden aprenderse sin ejemplos negativos, las SCFG si • Las SCFGs proporcionan un LM para una lengua • En la práctica las SCFG proporcionan un LM peor que una 3-gram • P([N [N toy] [N [N coffee] [N grinder]]]) = P ([N [N [N cat] [N food]] [N tin]]) • P (NP  Pro) mayor en posición de sujeto que de objeto.

  7. Pros y Contras de las SCFG 2 • Robustez • Posibilidad de combinación de SCFG con 3-grams • Las SCFG asignan demasiada masa de probabilidad a las oraciones cortas (un árbol pequeño es más probable que uno grande) • Estimación de los parámetros del modelo (probabilidades) • Problema de la sparseness • Volumen: tratamiento computacional y desarrollo de la gramática

  8. Pros y Contras de las SCFG 3 • Asociación a la regla. Se pierde información sobre la aplicación de la regla en un punto concreto del árbol de derivación • Penalización de las construcciones infrecuentes • Probabilidad de la derivación. Se asume independencia contextual • Posibilidad de relajar las condiciones de independencia: • Sensitividad a la estructura • Lexicalización

  9. Pros y Contras de las SCFG 4 • Sensitividad a la estructura • La expansión de un nodo depende de su posición en el árbol Pronoun Lexical Subject 91% 9% Object 34% 66% • Enriquecimiento del nodo con información de su (s) antecesor (es) • SNP es diferente de VPNP • Pronombres como Argumentos de los verbos ditransitivos • I gave Charlie the book • I gave the book to Charlie • I gave you the book • ? I gave the book to you

  10. Pros y Contras de las SCFG 5 • (Head) Lexicalization • put takes both an NP and a VP • Sue put [ the book ]NP[ on the table ]PP • * Sue put [ the book ]NP • * Sue put [ on the table ]PP • like usually takes an NP and not a PP • Sue likes [ the book ]NP • * Sue likes [ on the table ]PP

  11. Pros y Contras de las SCFG 6

  12. Pros y Contras de las SCFG 7 • Lexicalizar la SCFG: Swalked NPSue VPwalked Sue Vwalked PPinto walked Pinto NPstore into DTtheNPstore the store

  13. Analizadores probabilísticos Charniak, 1993 Krenn, Samuelson, 1997 Manning, Schütze, 1999 Rodríguez, 1999 • Gramáticas incontextuales probabilísticas • Obtención del modelo • aprendizaje supervisado • MLE sobre un treebank (ej. Penn Treebank) • aprendizaje no supervisado • inside/outside • aprendizaje semisupervisado • Análisis: Viterbi • Introducción del contexto • History Based Grammars • Sistemas lexicalizados • Sistemas basados en técnicas de máxima entropía Lari, Young, 1990 Pereira, Schabes, 1992 Briscoe, Waegner, 1992 Black et al, 1993 Collins, 1996, 1997 Magerman, 1995 Ratnaparkhi, 1998, 1999

  14. Modelos Probabilísticos para Parsing 1 • Dos modelos • Modelo condicional : • Estimamos directamente la probabilidad de un árbol de análisis • Las probabilidades quedan condicionadas por una oración concreta. • No se asume ninguna distribución de oraciones

  15. Modelos Probabilísticos para Parsing 2 • Modelo generativo/conjunto : • Asigna probabilidades a todos los árboles generados por la gramática. Las probabilidades son, pues, para el languaje L: Σ{t:yield(t)  L} P(t) = 1

  16. Gramáticas incontextuales probabilísticas (SCFG) 1 • CFG • SCFG • para toda regla de la gramática G, (A )  PG debe poder definirse una probabilidad P(A ) • Probabilidad de un árbol

  17. Gramáticas incontextuales probabilísticas (SCFG) 2 • P(t) -- Probabilidad del árbol (producto de probabilidades de las reglas que lo generan. • P(w1n) -- Probabilidad de la oración es la suma de las probabilidades de los árboles que son análisis posibles de la oración P(w1n) = ΣjP(w1n, t) donde t es un análisis de w1n = ΣjP(t)

  18. Gramáticas incontextuales probabilísticas (SCFG) 3 • Invariancia posicional: • La probabilidad de un subárbol no depende de la posición en la oración de la cadena subsumida por la raiz del subárbol • Independencia del contexto (Context-free): • La probabilidad de un subárbol no depende de las palabras no subsumidas por la raiz del subárbol • Independencia de los antecesores: • La probabilidad de un subárbol no depende de los nodos en la derivación fuera del subárbol

  19. Aprendizaje de las probabilidades • Aprendizaje supervisado • el corpus de aprendizaje ha sido analizado y consta de una colección de N árboles de análisis: {1, …, N} (Un treebank) • Aprendizaje no supervisado • Inside/Outside (EM) • Similar a Baum-Welch de HMM

  20. Aprendizaje supervisado

  21. SCFG en CNF 1 Aproximación más usual (alternativas en Charniak,1993 y Kupiek,1991) Binary rules: Ap Aq Ar Se pueden almacenar en una matriz Bp,q,r Unary rules: Ap bm Se pueden almacenar en una matriz Up,m Se debe satisfacer: A1 es el axioma de la gramática. d = derivación = secuencia de aplicaciones de reglas desde A1 a w: A1 =0  1  ... |d| = w

  22. SCFG en CNF 2 A1 Ap w1 ... wi wk+1 ... wn Aq Ar As wi+1 ... ... wk bm = wj

  23. SCFG en CNF 3 • Problemas a resolver (~ HMM) • Probabilidad de una cadena (LM) • p(w1n|G) • Análisis más probable de una cadena • arg maxt p(t| w1nG) • Aprendizaje de los parámetros del modelo: • Encontrar G tal que maximice p(w1n|G)

  24. HMM Probability distribution over strings of a certain length For all n: ΣW1nP(w1n ) = 1 Forward/Backward Forward αi(t) = P(w1(t-1), Xt=i) Backward βi(t) = P(wtT|Xt=i) PCFG Probability distribution over the set of strings that are in the language L Σ LP( ) = 1 Inside/Outside Outside αj(p,q) = P(w1(p-1), Njpq, w(q+1)m | G) Inside βj(p,q) = P(wpq | Njpq, G) HMM y SCFG

  25. Algoritmos Inside y Outside 1 A1 outside Ap Aq Ar inside

  26. Algoritmo Inside Probabilidad Inside Ip(i,j) = P(Ap*wi+1 ... wj ) Esta probabilidad puede calcularse bottom up empezando por los componentes más cortos caso base: IP(i,i+1) = p(Ap*wi+1) = Up,i+1 recurrencia:

  27. Algoritmo Outside 1 Probabilidad Outside: Op(i,j) = P(A1*w1 ... wi Ap wi+1 ... wj ) Esta probabilidad puede calcularse top down empezando por los componentes más largos caso base: O1(0,n) = p(A1*A1) = 1 Oj(0,n) = 0, for j  1 Recurrencia: dos casos, sobre todas las particiones posibles

  28. Algoritmo Outside 2 Dos formas de partir: primera A1 A1 Aq Ap w1...wi wi+k+1...wn Aq Ar w1 ... wi wi+k+1 ... wi+k+j wi+k+j+1... wn

  29. Algoritmo Outside 3 segunda: A1 A1 Aq Ap w1...wi wi+k+1...wn Ar Aq w1 ... wi-j wi-j+1 ... wi wi+k+1...wn

  30. Ap wj+1 Algoritmo de Viterbi 1 O(|G|n3) Dada una oración w1 ... wn MP(i,j) contiene la probabilidad máxima de la derivación Ap*wi+1 ... wj La matriz puede calcularse de forma incremental para valores crecientes de j - i mediante inducción sobre la longitud j - i caso base: MP(i,i+1) = p(Ap*wi+1) = Up,i+1

  31. Ap Aq Ar wi+1 ... wj wj+1 ... wi+k j - i i + k - j k Algoritmo de Viterbi 2 Recurrencia: Considerar todas las formas en que Ap puede descomponerse en 2 componentes. Mantener la probabilidad máxima Recordar que si en vez de calcular el máximo sumamos tenemos el algoritmo inside: p(w1n|G)

  32. Ap ARHS1(p,i,k) ARHS2(p,i,k) wi+1 ... wSPLIT(p,i,k) wSPLIT(p,i,k) +1 ... wk Algoritmo de Viterbi 3 Para obtener la probabilidad de la mejor (más probable) derivation: MS(0,n) Para obtener el árbol de derivación más probable hay que mantener no sólo la probabilidad MP(i,j) sino también el punto de corte y las dos categorías de la parte derecha de la regla

  33. Aprendizaje de los modelos 1 Parámetros (probabilities, i.e. matrices M y U) de un corpus MLE (Maximum Likelihood Estimation): Aprendizaje Supervisado: Corpus totalmente analizado (con el árbol de derivación correcto para cada oración) Aprendizaje no supervisado: Algoritmo Inside/Outside: Variante CFG del Forward/Backward (Baum, Welch) para HMM. Basado en EM (Expectation Maximization)

  34. Aprendizaje de los modelos 2 • Aprendizaje Supervisado: • Necesidad de treebanks como el Penn Treebank, Negra o el 3LB • Entrenamiento de los clasificadores. • Modelos probabilísticos • Árboles de decisión • Listas de decisión • aprendizaje basado en transformaciones

  35. Aprendizaje de los modelos 3

  36. Aprendizaje de los modelos 4 Podemos formar el producto de probabilidades inside y outside: Oi(j,k)  Ii(j,k) = P(A1*w1 ... wn, Ai*wj ... wk |G) = P(w1n , Aijk |G) Podemos reestimar los valores de: P(Ap  Aq Ar )y de P(Ap  wm)y a partir de ellos los nuevos valores de Up,m y Bp,q,r

  37. S (1) S (2) S (5) S (3) S (4) A A A A B A B A A A a g a f f a f a a g Aprendizaje de los modelos 5 • Imaginemos que nuestro treebank contiene las siguientes oraciones:

  38. Aprendizaje de los modelos 6 • Supongamos que (1) occurre 40 veces, (2) occurre 10 veces, (3) occurre 5 veces, (4) occurre 5 veces, y (5) occurre una vez. • Deseamos una SCFG que refleje esta gramática. • ¿Qué parámetros maximizarían la verosimilitud de los datos? ΣjP(Niζj | Ni ) = 1

  39. Aprendizaje de los modelos 7 • Reglas S  A A : 40 + 5 + 5 + 1 = 51 S  B B : 10 A  a : 40 + 40 + 5 = 85 A  f : 5 + 5 + 1 = 11 A  g : 5 + 1 = 6 B  a : 10

  40. Aprendizaje de los modelos 8 • Parámetros que maximizan la verosimilitud counjunta:

  41. S (1) S (2) A B A B a a a a Aprendizaje de los modelos 9 • Dados estos parámetros ¿cuál es el análisis más plausible para la cadena "a a"? • P(1) = P(S  A A) * P(A  a) * P(A  a) = 0.836 * 0.833 * 0.833 = 0.580 • P(2) = P(S  B B) * P(B  a) * P(B  a) = 0.164 * 1.0 * 1.0 = 0.164

  42. Aprendizaje de los modelos 10 • Aprendizaje no supervisado: • Corpus sin anotar (simple conjunto de oraciones) • Algoritmo Inside/Outside • Forma de EM • Para cada oración, en cada iteración se calcula la Expectation de uso de cada regla usando las probabilidades Inside y Autside • Asumimos que las oraciones son independientes • Sumamos las expectations sobre análisis de cada una de ellas • Reestimamos las probabilidades inside y outside basándonos en estos contajes

  43. La adquisición de las gramáticas • Análisis sintáctico sin utilizar gramática • Gramática construida manualmente • Gramática inducida a partir de cero • ej. Tree-bank Grammars • Gramática inducida a partir de un núcleo inicial ya existente (o construido a mano) • Transformación de gramáticas • Afinado de gramáticas • Simplificación de gramáticas DOP: Bod, 1995 Alvey: Grover et al, 1989 CLE: Alsawhi, 1992 TOSCA: Oostdijk, 1991 Charniak, 1996 Briscoe, Waegner, 1992 Krotov et al, 1999 Sekine, 1998

  44. DOP 1 • Data Oriented Parsing [Bod,95] • Corpus de fragmentos de árbol con probabilidades asociadas • [F [SN Juan] [FV [V quiere] [SP [PREP a] [SN Maria]]]] (1) • [F [SN *] [FV [V quiere] [SP [PREP a][SN *]]]] • [SN Maria] • [SN Juan] • [F [SN Pedro] [FV [V odia] [SP [PREP a] [SN Luisa]]]] (2) • [F [SN *] [FV [V odia] [SP [PREP a][SN *]]]] • [SN Luisa] • [SN pedro

  45. DOP 2 • Un conjunto de operaciones de combinación para obtener estructuras nuevas a partir de las existentes: • [F [SN Maria] [FV [V quiere] [SP [PREP a][SN Luisa]]]]

  46. Induccion gramatical • Uso del algoritmo Inside/Outside para hacer inferencia gramatical. • (Lari,Young, 92,93) Kupiec, Cutting • Problema: I/O tiende a agrupar las palabras por afinidad (información mutua) y no por estructura • Pereira/Schabes 92 Corpus parcialmente parentizado • Problemas: entrenamiento, falta de conocimiento gramatical, tamaño pequeño. • Briscoe, Waegner, 92,93,94

  47. Otras aproximaciones • Markov grammars • Collins,1996, Magerman,1995 • Más que almacenar reglas explícitas, una MG almacena probabilidades que permiten generar las reglas sobre la marcha • Decision tree parsers • Magerman,1995, Jelinek et al,1994 • Árboles de decisión history-based sin construcción manual de la gramática • Goodman,1997 • Estadísticas de bigramas de los head-words en una gramática de rasgos

  48. Treebank grammars 1 • Gramáticas directamente derivadas de un treebank • Charniak,1996 • Uso del PTB • 47,000 oraciones • Recorrido del PTB donde cada subárbol local proporciona las partes izquierda y derecha de una regla • Precision y recall sobre un 80% • Unas 17,500 reglas • Sekine,1997, Sekine & Grishman,1995 • Compactación de Treebank grammars • Crecimiento continuo del número de reglas • Krotov et al,1999, Krotov,1998, Gaizauskas,1995

  49. Category S NP Total instances 88,921 351,113 Distinct structures 24,465 9,711 Number of structures which cover 50% of instances 114 7 % of instances covered by structures of 2 or more occurrences 77.2 98.1 % of instances covered by top 10 structures 27.5 57.9 Treebank grammars 2 • Sekine & Grishman,1995, Sekine,1997 • Apple Pie parser • Encontrar la estructura de una oración en el corpus • pero en PTB II: de 47,219 oraciones sólo 2,332 (4.7%) poseen exactamente la misma estructura • Corpus-based probabilistic grammar with only 2 non-terminals (S and NP)

  50. Treebank grammars 3 S  NP VBX JJ CC VBX NP : structure “(S <1> (VP (VP <2> (ADJ <3>)) <4> (VP <5> <6>)))” S VP VP VP ADJ NP NP DT NN NN VBX JJ CC VBX DT JJ NN This apple pie looks good and is a real treat

More Related