1 / 67

Modelos

Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción http://www.inf.udec.cl/~andrea. Algebraic. Set Theoretic. Generalized Vector Lat. Semantic Index Neural Networks. Structured Models. Fuzzy Extended Boolean. Non-Overlapping Lists Proximal Nodes.

barth
Download Presentation

Modelos

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Modelos Alternativos (2)M.Andrea Rodríguez TastetsDIIC - Universidad de Concepciónhttp://www.inf.udec.cl/~andrea

  2. Algebraic Set Theoretic Generalized Vector Lat. Semantic Index Neural Networks Structured Models Fuzzy Extended Boolean Non-Overlapping Lists Proximal Nodes Classic Models Probabilistic boolean vector probabilistic Inference Network Belief Network Browsing Flat Structure Guided Hypertext Modelos U s e r T a s k Retrieval: Adhoc Filtering Browsing

  3. Modelo Vector Generalizado • Modelos clásicos asumen la independencia de los términos índices. • Para el modelo vector: • El conjunto de vectores de términos {k1, k2, ..., kt} are linealmente independientes, los cuales forman la base para el subespacio de interes. • Esto se interpreta también como una ortogonalidad: • i,j  ki  kj = 0 • En 1985, Wong, Ziarko, y Wong propusieron una interpretación en la cual los vectores de términos son linealmnete independientes, pero no ortogonales.

  4. Idea Base: • En el modelo vector generalizado, dos vectores de términos índices pueden ser no ortogonales y son representados en base a componentes más pequeños (minterms). • Tal como antes, sea, • wij el peso asociado con [ki,dj] • {k1, k2, ..., kt} sea el conjunto de todos los términos • Si estos pesos son todos binarios, todos los patrones de ocurrencia de los términos puden ser representados por:: • m1 = (0,0, ..., 0) m5 = (0,0,1, ..., 0) • m2 = (1,0, ..., 0) …. • m3 = (0,1, ..., 0) • m4 = (1,1, ..., 0) m2t =(1,1,1,…..1) • Aquí, m2 indica documentos en los cuales sólo el término k1 occurre.

  5. Idea Base: • La base para el modelo vector generalizado está formado por un conjunto de vectores definidos sobre el conjunto de minterms (que son ortogonales), como sigue: 0 1 2 ... 2t • m1 = (1, 0, 0, ..., 0, 0) • m2 = (0, 1, 0, ..., 0, 0) • m3 = (0, 0, 1, ..., 0, 0) • • m2t= (0, 0, 0, ..., 0, 1) • Note que, • i,j  mi  mj = 0 e.i., ortogonales

  6. Idea Base: • Vectores minterm son ortogonales, pero no necesariamente independientes: • El minterm m4 está dado por: m4= (1, 1, 0, ..., 0, 0) • Este minterm indica la ocurrencia de los términos k1 y k2 en el mismo documento. Si tal documento existe en una colección, se dice que el mintem m4 está activo y que una dependencia entre estos términos está inducida. • Se asume que la co-ocurrencia de términos en documentos induce dependencias entre ellos.

  7. Formando el Vector de Términos • El vector asociado con el término ki es computado: • El peso c con el par [ki,mr] suma los pesos de los términos ki en todos lo documentos en los cuales tiene un patrón de ocurrencia dado por mr. • Note que para una colección de tamaño N, sólo N minterms afectan el ranking. t

  8. Dependencia entre Términos Índices • Un grado de correlación entre términos entre ki y kj puede ser determinado por: • Este grado de correlación suma (en una forma ponderada) las dependencias entre ki y kj inducido por los documentos en la colección (representado por el mr minterms). • Luego se aplica el modelo vectorial:

  9. k2 k1 d7 d6 d2 d4 d5 d3 d1 k3 Ejemplo

  10. Cálculo de C i,r

  11. Cálculo de vector de términos índices

  12. Cálculo de vector de documentos

  13. Calculo de Ranking

  14. Conclusiones • El modelo considera correlación entre términos índices. • No es claro cuánto mejor es con respecto al modelo vector clásico. • Costo computacional mayor • Ideas nuevas e interesantes

  15. Latent Semantic Indexing • IR clásica puede llevar a una recuperación deficiente por: • Documentos no relacionados pueden ser incluidos en la respuesta. • Documentos relevantes que no contienen al menos un térmico índice no son considerados. • Razonamiento: • recuperación basada en términos índices es vaga y afectada por “ruido”. • El usuario está más relacionado a conceptos e ideas que a términos índices. • Un documento que comparte conceptos con otro documento conocido de ser relevante puede ser de ínteres también.

  16. Latent Semantic Indexing • La clave es mapear documentos y consultas a un espacio de dimensión menor (e.i. un espacio compuesto de conceptos de mayor nivel con un conjunto menor de términos índices). • Recuperar en este espacio reducido de conceptos puede ser mejor para recuperar que un espacio de términos índices.

  17. Latent Semantic Indexing • Definiciones • Sea t el número total de términos índices • Sea N el número de documentos • Sea (Mij) una matriz de documento-término con t filas y N columnas • Cada elemento de esta matriz está asociada con un peso wij asociado con el par [ki,dj] • El peso wij puede basarse en el esquema tf-idf

  18. Latent Semantic Indexing • La matriz (Mij) puede ser descompuesta en 3 matrices (decomposición de valor singular) como sigue: • (Mij) = (K) (S) (D)t • (K) es la matriz de vectores propios derivada de (M)(M)t • (D)t es la matriz de vectores propios derivada de (M)t(M) • (S) es una matriz diagonal r x r de valores singulares donde • r = min(t,N) que es el rango de (Mij)

  19. Ejemplo • Sea (Mij) la matriz dada por • determinar las matrices (K), (S), y (D)t

  20. Latent Semantic Indexing • En la matriz (S), seleccionar sólo los s valores singulares mayores • mantenga las correspondientes columnas en (K) y (D)t • La matriz resultante es llamada (M)s y está dada por • (M)s = (K)s (S)s (D)t • donde s, s < r, es la dimensionalidad del espacio de conceptos • El parámetro s debe ser • suficientemente grande para permitir la caracterización de los datos • suficientemente pequeño para filtrar datos no relevantes. s

  21. Latent Ranking • La consulta puede ser modelada como un seudo-documento en la matriz original (M) • Asuma que la consulta es numerada como un documento 0 in la matriz • La matriz cuantifica la relación entre cualquier par de documentos en el espacio reducido • La primera fila de la matriz da el ranking de todos los documentos con respecto a la consulta del usuario.

  22. Conclusiones • Latent semantic indexing otorga una conceptualización interesante de recuperación de información • Permite reducir la complejidad de la representación, el cual puede ser explorado,por ejemplo, con el propósito de interacción con el usurario.

  23. Modelo de Redes Neuronales • IR clásica: • Términos son usados parta indexar documentos y consultas • Recuperación está basada en el matching de términos índices. • Motivación: • Redes neuronales son conocidas por ser buenas para realizar matching.

  24. Modelo de Redes Neuronales • Redes Neuronales: • El cerebro humano está compuesto de billones de neuronas • Cada neurona puede ser vista como una unidad de procesamiento • Un neurona es estimulada por una señal de entrada y emite una señal de salida como reacción • Una cadena de reacción de propagación de señales es llamada spread activation process • Como resultado de este proceso, el cerebro puede controlar el cuerpo para lograr reacciones físicas.

  25. Modelo de Redes Neuronales • Una red neuronal es una simplificación de la interacción de neuronas en el cerebro humano. • Nodos son unidades de procesamiento • Arcos son conexiones sinápticas • La fuerza de propagación es modelada como un peso asignado a cada arco • El estado de un nodo es definido por su nivel de activación • Dependiendo de su nivel de activación, un nodo puede generar una señal de salida.

  26. Query Terms DocumentTerms Documents k1 d1 ka ka dj kb kb dj+1 kc kc dN kt Redes Neuronales para IR • Basado en el trabajo de Wilkinson & Hingston, SIGIR’91

  27. Redes Neuronales para IR • Redes de tres niveles • Las señales se propagan a través de la red • Primer nivel de propagación: • Los términos de la consulta inician la señal • Estas señales se propoagan a través de la red hasta alcanzar los nodos documentos • Segundo nivel de propagación: • Los nodos documentos pueden ellos por sí mismos generar nuevas señales las cuales afectan los términos de los documentos • Los nodos de términos de documentos pueden responder con nuevas señales

  28. Cuantificación de la Señal • Normalizar la fuerza de la señal (MAX = 1) • Términos de consulta emiten una señal igual a 1 • Pesos asociados a cada arco desde un nodo término de consulta ki a un nodo término documento ki: • Wiq = wiq sqrt ( i wiq ) • Pesos asociados a cada arco desde un nodo término de un document ki a un nodo documento dj: • Wij = wij sqrt ( i wij ) 2 2

  29. Cuantificación de la Señal • Después del primer nivel de propación, el nivel de activación de un nodo documento dj está dado por: • iWiqWij = i wiq wij sqrt ( i wiq ) * sqrt ( i wij ) el cual es exactamente el ranking del modelo vectorial • Nuevas señales pueden ser intercambiadas entre nodos términos de documento y nodos documento en un proceso análago a un ciclo de feedback • Un threshold mínimo debe ser asegurado para evitar generación de señales perturbadoras. 2 2

  30. Conclusiones • El modelo da una formulación interesante al problema de IR • El modelo no ha sido evaluado extensiblemente • No es claro las mejoras que otorga

  31. Modelo Alternativos Probabilísticos • Teoría de Probabilidad • Semánticamente clara • Computacionalmente enrredada • Por qué Redes Bayesianas? • Es un formalismo claro que combina evidencias • Comparticiona el mundo (dependencias) • Redes Bayesianas para IR • Redes de Inferencia (Turtle & Croft, 1991) • Redes de Creencia (Ribeiro-Neto & Muntz, 1996)

  32. Inferencia Bayesiana Escuelas de pensamiento en probabilidad • Frecuencia: noción estadística relacionada con las leyes de cambios • Epistemología: interpreta la probabilidad como grado de creencia

  33. Inferencia Bayesiana Axiomas básicos: • 0 < P(A) < 1 ; • P(sure)=1; • P(A V B)=P(A)+P(B) Si A y B son mutuamente exclusivos

  34. Inferencias Bayesianas Otras formulaciones • P(A)=P(A  B)+P(A  ¬B) • P(A)= i P(A  Bi) , donde Bi,i es un conjunto exhaustivo y mutuamente exclusivo • P(A) + P(¬A) = 1 • P(A|K) creencia en A dado el conocimiento de K • if P(A|B)=P(A), A y B son independientes • if P(A|B C)= P(A|C), A y B son condicionalmente independientes, dado C • P(A  B)=P(A|B)P(B) • P(A)= i P(A | Bi)P(Bi)

  35. Inferencia Bayesiana Regla de Bayes: El corazón de la técnica Bayesiana P(H|e) = P(e|H)P(H)/ P(e) donde, H : una hipótesis y e es una evidencia P(H) : Probabilidad anterior P(H|e) : Probabilidad posterior P(e|H) : Probabilidad de e si H es verdadero P(e) : una constante normalizadora, entonces escribimos: P(H|e) ~ P(e|H)P(H)

  36. Redes Bayesianas Definición: Son grafos dirigidos acíclicos en los cuales nodos representan variables aleatorias, los arcos representan relaciones de causalidad entre estas variables, y la fuerza de estas causalidades son expresadas por probabilidaddes condicionales.

  37. Redes Bayesianas yi : Nodos padres (en este caso, nodos de raíz) x : nodo hijo yi causa x Y el conjunto de padres de x La enfuencia de Y en x puede ser cuantificada por cualquier función F(x,Y) tal que x F(x,Y) = 1 0 < F(x,Y) <1 Por ejemplo, F(x,Y)=P(x|Y) y1 y2 y3 x1

  38. x1 x2 x3 x4 x5 Redes Bayesianas Dada la dependencia declarada en una red Bayesiana, la expresión para la probabilidad conjunto puede ser calculada como un producto de probabilidad condicional local, por ejemplo, P(x1, x2, x3, x4, x5)= P(x1 ) P(x2| x1 ) P(x3| x1 ) P(x4| x2, x3 ) P(x5| x3 ). P(x1 ) : probabilidad anterior del nodo raíz

  39. x1 x2 x3 x4 x5 Redes Bayesianas En una red Bayesiana cada variable es condicionalmente dependiente de todos los no descendientes, sus padres Por ejemplo, P(x4, x5| x2 ,x3)= P(x4| x2 ,x3) P( x5| x4)

  40. Modelo de Redes de Inferencia • Vista Epistemológica del problema de IR • Variables aleatorias asociadas con documentos, términos índices y consultas • Una variable aleatoria asociada con un documento dj representa el evento de observar tal documento

  41. dj ki kt k1 k2 q and q2 q1 or I Modelo de Redes de Inferencia Nodos documentos (dj) términos índices (ki) consultas (q, q1, y q2) necesidad de información del usuario (I) Arcos desde dj, su nodo de término índice ki indica que la observación de dj aumenta la creencia en la variable ki

  42. dj ki kt k1 k2 q and q2 q1 or I Modelo de Redes de Inferencia dj tiene términos k2, ki, y kt q tiene términos k1, k2, y ki q1 y q2 es una formulación Boolean q1=((k1 k2) v ki); I = (q v q1)

  43. Modelo de Redes de Inferencia Definiciones: k1, dj,, son q variables aleatorias k=(k1, k2, ...,kt) un vector t-dimensional ki,i{0, 1}, entonces k tiene 2t posibles estados dj,j{0, 1}; q{0, 1} El ranking de un documento dj es calculado como P(q dj) q y dj,son representación cortas para q=1 y dj =1 (dj representa un estado donde dj = 1 and ljdl =0, porque se observa un documento en cada momento)

  44. Modelo de Redes de Inferencia P(q  dj) = k P(q  dj| k) P(k) = k P(q  dj  k) = k P(q | dj  k) P(dj  k) = k P(q | k) P(k | dj ) P( dj ) P(¬(q  dj)) = 1 - P(q  dj)

  45. Modelo de Redes de Inferencia Como la instanciación de dj hace todos los nodos de términos índices mutuamente independientes P(k | dj ),entonces P(q  dj) = k[ P(q | k) x (i|gi(k)=1 P(ki | dj ))x(i|gi(k)=0 P(¬ki | dj)) x P( dj )] recuerde que: gi(k)= 1 si ki=1 en el vector k 0 en otro caso

  46. Modelo de Redes de Inferencia Probabilidad anterior P(dj) refleja la probabilidad asociado a un evento de observación a un documento dj • Uniforme para N documentos P(dj) = 1/N P(¬dj) = 1 - 1/N • Basada en la norma del vector dj P(dj)= 1/|dj| P(¬dj) = 1 - 1/|dj|

  47. Modelo de Redes de Inferencia Para el modelo Boolean P(dj) = 1/N 1 if gi(dj)=1 P(ki | dj) = 0 otro caso P(¬ki | dj) = 1 - P(ki | dj)  solo los nodos asociados con los términos índices del documento dj son activados

  48. Modelo de Redes de Inferencia Para el modelo Boolean 1 if qcc | (qcc qdnf)  ( ki, gi(k)= gi(qcc) P(q | k) = 0 otherwise P(¬q | k) = 1 - P(q | k)  uno de los componentes conjuntivos de la consulta debe ser igualado por los términos índices activos en k

  49. Modelo de Redes de Inferencia Para una estrategia tf-idf P(dj)= 1 / |dj| P(¬dj) = 1 - 1 / |dj|  probabilidad anterior refleja la importancia de normalización de documento

  50. Modelo de Redes de Inferencia Para la estrategia tf-idf P(ki | dj) = fi,j P(¬ki | dj)= 1- fi,j  La relevancia del término ki es determinada por su factor de frecuencia de término normalizada fi,j =freqi,j / max freql,j

More Related