1 / 44

Análisis de asociación

Análisis de asociación. Parte teórica Tema 8. Análisis de asociación. Encuentra reglas de asociación las cuales especifican cuáles eventos pueden ocurrir simultáneamente Análisis de canasta de supermercado Objetos que se consumen simultáneamente Análisis de patrones secuenciales

heaton
Download Presentation

Análisis de asociación

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Análisis de asociación Parte teórica Tema 8 Minería de datos Dr. Francisco J. Mata

  2. Análisis de asociación • Encuentra reglas de asociación las cuales especifican cuáles eventos pueden ocurrir simultáneamente • Análisis de canasta de supermercado • Objetos que se consumen simultáneamente • Análisis de patrones secuenciales • Orden en que las cosas ocurren Minería de datos Dr. Francisco J. Mata

  3. Análisis de canasta de supermercado Minería de datos Dr. Francisco J. Mata

  4. Aplicaciones de análisis de canasta de supermercado • Elementos comprados simultáneamente • Compras hechas con una misma tarjeta de crédito (ej., hotel y carro de alquiler) • Servicios optativos u opcionales • Combinaciones inusuales en reclamos de seguros (pueden ser un indicador de fraude) • Combinaciones de tratamiento e historia de pacientes (pueden indicar complicaciones) Minería de datos Dr. Francisco J. Mata

  5. Asociación • Útil para • Minería indirecta • Utilizada como punto de arranque • Puede servir para plantear hipótesis de asociaciones en minería directa • Diferencia entre almacenes nuevos y viejos Minería de datos Dr. Francisco J. Mata

  6. Tipos de reglas • Útiles • Los días jueves los compradores de supermercados frecuentemente compran pañales desechables y cerveza • Triviales • Consumidores que compran contratos de mantenimiento son más propensos a comprar electrodomésticos grandes • Inexplicables • Al abrir un almacén de ferretería nuevo, uno de los productos más vendidos son sillas de inodoro Minería de datos Dr. Francisco J. Mata

  7. Datos para el análisis de canasta de supermercado Minería de datos Dr. Francisco J. Mata

  8. Preparación de datos para análisis de canasta de supermercado Minería de datos Dr. Francisco J. Mata

  9. Análisis de canasta de supermercado Transacciones Tabla de co-ocurrencia de ítems Minería de datos Dr. Francisco J. Mata

  10. Análisis de canasta de supermercado Extensión de una tabla de co-ocurrencia a 3 dimensiones Minería de datos Dr. Francisco J. Mata

  11. Reglas de asociación • Patrones que se pueden observar • Jugo y soda al igual que jugo y detergente son más propensos • a comprarse juntos que cualquiera otros dos productos • 2. Detergente nunca se compra con limpiador de ventanas o • leche • 3. Leche nunca se compra con soda o detergente Minería de datos Dr. Francisco J. Mata

  12. ¿Qué tan buena es una regla de asociación? • Confianza • Número de transacciones con todos los ítemes mencionados en la regla dividido por el número de transacciones con los ítemes que aparecen en la parte si de la regla • Proporción de transacciones en las cuales la regla es verdadera • p(condición y resultado)/p(condición) Minería de datos Dr. Francisco J. Mata

  13. ¿Qué tan buena es una regla de asociación? • ¿Cuál es la confianza para la regla si un cliente compra soda entonces también compra jugo?: • 2 de 3 compras de soda también incluyen jugo, por lo tanto 67% • p(soda y jugo)/p(soda)= 0.4/0.6=67% • ¿Cuál es la confianza de la regla reversa: si un cliente compra jugo entonces también compra soda? • 2 de 4 compras de jugo también incluyen soda, por lo tanto 50% • p(jugo y soda)/p(jugo)=0.4/0.8=50% Transacciones Minería de datos Dr. Francisco J. Mata

  14. ¿Qué tan buena es una regla de asociación? • Apoyo • Número de transacciones que contienen todos los ítemes que aparecen en la regla dividido entre el número total de transacciones • Porcentaje de transacciones que contienen todos los ítemes que aparecen en la regla • p(condición y resultado) Minería de datos Dr. Francisco J. Mata

  15. ¿Qué tan buena es una regla de asociación? • ¿Cuál es la apoyo para la regla si un cliente compra soda entonces también compra jugo?: • 2 de 5 compras contienen de soda y jugo, por lo tanto 40% • p(soda y jugo)=2/5=40% • ¿Cuál es el apoyo de la regla reversa: si un cliente compra jugo entonces también compra soda? • La misma de la regla anterior, 40% • p(soda y jugo)=p(jugo y soda) Transacciones Minería de datos Dr. Francisco J. Mata

  16. ¿Qué tan buena es una regla de asociación? • “Lift” o mejoría • Mide cuánto mejor es una regla para predicción que una estimación hecha tomando un cliente al azar • Número de transacciones que soportan la regla dividido entre número de transacciones esperado asumiendo que no existe relación entre los ítemes • p(condición y resultado)/(p(condición) * p(resultado)) • Cuando el lift < 1 la regla es peor que una estimación educada y la negación de la regla produce una mejor regla que una estimación al azar Minería de datos Dr. Francisco J. Mata

  17. ¿Qué tan buena es una regla de asociación? • ¿Cuál es el “lift” para la regla si un cliente compra soda entonces también compra jugo?: • p(soda y jugo)/(p(soda) * p(jugo))=0.4/(0.6 * 0.8)=0.83 • ¿Cuál es el “lift” de la regla negada: si un cliente compra soda entonces no compra jugo? • p(soda y no jugo)/(p(soda) * p(no jugo))= 0.2/(0.6 * 0.2)=1.66 Transacciones Minería de datos Dr. Francisco J. Mata

  18. Ejercicio Calcular apoyo, confianza y “lift” para reglas si A y B entonces C, si A y C entonces B, si B y C entonces A, y si A entonces B Minería de datos Dr. Francisco J. Mata

  19. Respuesta Minería de datos Dr. Francisco J. Mata

  20. Pasos básicos para obtener reglas de asociacíón Minería de datos Dr. Francisco J. Mata

  21. Seleccionar conjunto adecuado de ítemes • Debe considerarse necesidades del negocio • Nivel de detalle debe ser adecuado Minería de datos Dr. Francisco J. Mata

  22. Seleccionar conjunto adecuado de ítemes Minería de datos Dr. Francisco J. Mata

  23. Seleccionar conjunto adecuado de ítemes Minería de datos Dr. Francisco J. Mata

  24. Seleccionar conjunto adecuado de ítemes • Taxonomías de productos son de utilidad • Análisis de asociación produce mejores resultados cuando los productos aparecen aproximadamente en el mismo número de transacciones (reglas no están dominadas por los productos más comunes) • Productos raros pueden ser subidos en la taxonomía para que aparezcan más frecuentemente Minería de datos Dr. Francisco J. Mata

  25. Ítemes virtuales • Ítemes virtuales no aparecen en la taxonomía • Pueden ser agregados para identificar • Localización • Tiempo (día, mes) • Almacenes nuevos vrs. viejos • Marcas Minería de datos Dr. Francisco J. Mata

  26. Ítemes virtuales • Deben ser escogidos cuidadosamente para evitar reglas redundantes Minería de datos Dr. Francisco J. Mata

  27. Ítemes virtuales • Si reglas redundates aparecen entonces utilice elementos generalizados Minería de datos Dr. Francisco J. Mata

  28. Cálculo de probabilidades Minería de datos Dr. Francisco J. Mata

  29. Determinar reglas Minería de datos Dr. Francisco J. Mata

  30. Determinar reglas • Entre más “accionable” sea la regla mejor • En la práctica las reglas más accionables tienen un ítem como resultado • Mejor: Si pañales desechables y jueves entonces cerveza • Peor: Si jueves entonces pañales desechables y cerveza Minería de datos Dr. Francisco J. Mata

  31. Determinar reglas • Cuando el “lift” para una regla es menor que 1, negar el resultado produce una mejor regla Minería de datos Dr. Francisco J. Mata

  32. El problema de reglas con muchos ítemes • Generar reglas de asociación requiere múltiples pasos: • Generar matriz de co-ocurrencias para un ítem • Generar matriz de co-ocurrencia para dos ítemes (sirve para generar reglas con dos productos) • Generar matriz de co-ocurrencia para tres ítemes (sirve para generar reglas con tres productos) • Se puede continuar hasta el número total de ítemes Cada paso incrementa exponencialmente el tiempo Minería de datos Dr. Francisco J. Mata

  33. El problema de muchos ítemes Número de combinaciones para 100 ítemes Fórmula binomial ¡Un supermercado puede tener entre 10,000 y 30,000 productos! Minería de datos Dr. Francisco J. Mata

  34. El problema de muchas transacciones • El número de transacciones por lo general es muy grande • En el transcurso de un año una cadena de supermecados de tamaño mediano puede generar millones de transacciones Minería de datos Dr. Francisco J. Mata

  35. Superación de limitaciones prácticas • Soluciónes: • Utilizar “prunning” considerando un apoyo mínimo (mínimo número de transacciones conteniendo la combinación) • Si existe 1 millón de transacciones y se utiliza unapoyo mínimo del 1% entonces sólo las reglas apoyadas por 10,000 transacciones serán consideradas • Apoyo mínimo tiene un efecto de cascada • Si utilizamos el apoyo mínimo de 1% y la regla es si A, B y C entonces D para que la combinación A, B, C y D aparezca por lo menos un 1% todos los elementos en la combinación deben aparecer por lo menos 1% y todas las combinaciones de dos y tres elementos deben aparecer por lo menos un 1% Minería de datos Dr. Francisco J. Mata

  36. Superación de limitaciones prácticas • Solución: • Limitar el número de ítemes en una regla • Uso de taxonomías para reducir el número de ítemes Minería de datos Dr. Francisco J. Mata

  37. Algoritmo apriori • Mejora el rendimiento utilizando conocimiento a priori • Utiliza “prunning” • Todos los subconjuntos de un conjunto frecuente de elementos deben ser frecuentes • apoyo (I) < min_apoyo entonces apoyo (I unión {a}) < min_apoyo para todo elemento a Minería de datos Dr. Francisco J. Mata

  38. Algoritmo apriori • Pasos: • Sea L-1 el conjunto de k-1 elementos que satisfacen el criterio de apoyo mínimo • Join para k elementos: añadir un ítem diferente a cada uno de los elementos en L-1 • Prune para k: eliminar todos los conjuntos de L con k ítemes que no satisfacen el criterio de apoyo mínimo Minería de datos Dr. Francisco J. Mata

  39. Ejemplo algoritmo apriori Apoyo 2 o 2/9=22% Minería de datos Dr. Francisco J. Mata

  40. Ejemplo algoritmo apriori Apoyo 2 o 2/9=22% Minería de datos Dr. Francisco J. Mata

  41. Fortalezas del análisis de canasta de supermercado • Resultados se pueden entender claramente • De gran utilidad para minería indirecta • Computacionalmente simple aunque con crecimiento exponencial en tiempo Minería de datos Dr. Francisco J. Mata

  42. Debilidades del análisis de canasta de supermecado • Complejidad crece exponencialmente conforme crece el tamaño del problema • Difícil determinar los elementos apropiados • Elementos raros pueden producir problemas Minería de datos Dr. Francisco J. Mata

  43. Cuando aplicar análisis de asociación • Problemas de minería indirecta que consisten en elementos bien definidos los cuales se agrupan de maneras interesantes • Estos problemas ocurren usualmente en el comercio, donde transacciones de punto de venta son las bases del análisis Minería de datos Dr. Francisco J. Mata

  44. Cuando aplicar análisis de asociación • Se puede aplicar también en problemas de minería directa • Comparar ventas en almacenes nuevos y viejos • El algoritmo se puede modificar para considerar reglas que contienen un producto en particular (comprender sus patrones de venta) Minería de datos Dr. Francisco J. Mata

More Related