250 likes | 351 Views
Minería de Datos. Algo más que el ejemplo del Tenis. Sergio Carrillo Vila . Data Platform Engineer – Business Intelligence. Microsoft Business Management Specialist. scarrillovila@solidq.com. Agenda. ¿Qué es la minería de datos? Usos de la minería de datos
E N D
Minería de Datos. Algo más que el ejemplo del Tenis. Sergio Carrillo Vila Data PlatformEngineer – Business Intelligence Microsoft Business Management Specialist scarrillovila@solidq.com
Agenda • ¿Qué es la minería de datos? • Usos de la minería de datos • El ciclo de vida de un proyecto de Minería de Datos • Los datos para Minería de datos. Demo • Algoritmos • Naive-Bayes. Demo • Arboles de decisión. Demo • Reglas de asociación. Demo • Excel como herramienta de Minería de Datos. Demo • Preguntas
¿Qué es la minería de datos? • Proceso de analizar los datos para encontrar patrones ocultos mediante el uso de metodologías automáticas • Análisis Predictivo • Aumentar el valor de nuestros datos
¿Qué es la minería de datos? • Generación de Recomendaciones • Detección de Anomalías • Administración de Riegos • Segmentación de Clientes • Previsiones • Anuncios personalizados • … • Usos de la minería de datos
Ciclo de Vida • De un proyecto de Minería de Datos
Los datos para la Minería • Interpretación de los datos • Vista sobre los datos • Estadisticas • Frecuencias • Casos • Atributos • Categóricos o nominales • Rankings • Intervalos • Variables numéricas • Estados
Resumiendo • Es importante conocer nuestro dato • No nos vamos a embarcar en un proyecto de mineria sin hacerlo • Es importante interpretar estos datos • No juntemos peras con manzanas • La exploración de los datos… • Puede mostrarnos anomalías en nuestro negocio • Puede plantearnos nuevos problemas
Algoritmos • Ofrece un método sistemático para aprender basado en los datos. • Cuenta las correlaciones que hay entre la variable que queremos predecir y el resto de variables • Una vez que tiene calculada las correlaciones, aplica las probabilidades. • No puede utilizar atributos continuos para predecir, en el caso de tenerlos, utilizar rangos. • Parámetros • MAXIMUN_INPUT_ATTRIBUTES • MAXIMUN_OUTPUT_ATTRIBUTES • MAXIMUN_STATES • MINIMUM_DEPENDENCY_PROBABILITY • Naive-Bayes
Resumiendo • Naive-Bayes es un algoritmo rápido • Solo para atributos discretos • Visualizaciones desde SSMS y BIDS • DMX como lenguaje de consulta
Algoritmos • Va dividiendo los datos recursivamente en pequeños conjuntos • Evalúa como cada atributo va dividiendo estos conjuntos, colocando en la parte superior los mas restrictivos. • Es un algoritmo de clasificación • Puede ser usado con atributos continuos • Hay que tener cuidado con el sobre entrenamiento • Algunos parámetros • MINIMUN_SUPPORT • SCORE_METHOD • SPLIT_METHOD • Arboles de decisión
Resumiendo • Es un algoritmo fácil de entender • Riego de sobre entrenamiento • Permite el uso de atributos continuos
Algoritmos • Es un algoritmo especialmente diseñado para el analisis de asociaciones • Detecta reglas en nuestros datos • Si A&&B C • Cuenta la frecuencia de combinaciones de varios estados del atributo • No utiliza probabilidades • Cuando una combinación es muy frecuente, pasa a ser una regla • Parámetros: • (MAXIMUN | MINIMUN)_ITEMSET_SIZE • MAXIMUN_ITEMSET_COUNT • Reglas de asociación
Resumiendo • Las reglas de asociación nos permite encontrar relaciones entre los valores de los atributos • No es necesario que tengamos los valores en una tabla, podemos utilizar más de una
Excel como herramienta MD • Add-in para Excel 2007 • Da problemas para Excel 2010 • Solo para versiones de 32bits • Permite realizar modelos de forma temporal • Crea una base de datos multidimensional en AS • Vuelca los modelos y estructuras en esa base de datos • Es más fácil para el usuario
Resumiendo • Desde Excel podemos crear nuestros modelos de mineria • Tenemos accesibles casi todas la funcionalidad • Podemos explorar los datos • No necesitamos almacenes en base de datos para nuestros datos de mineria
Sergio Carrillo Vila Data PlatformEngineer – Business Intelligence Microsoft Business Management Specialist scarrillovila@solidq.com
Sergio Carrillo Vila Data PlatformEngineer – Business Intelligence Microsoft Business Management Specialist scarrillovila@solidq.com