Rboles de decisi n
Download
1 / 52

Árboles de decisión - PowerPoint PPT Presentation


  • 264 Views
  • Uploaded on

Árboles de decisión. Tema 9 Parte teórica. Árboles de decisión. Conjunto de reglas representadas en forma de una estructura de árbol. Árboles de decisión. Son muy útiles cuando hay más de una manera para convertirse en miembro de una clase meta

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Árboles de decisión' - nerina


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Rboles de decisi n

Árboles de decisión

Tema 9

Parte teórica

Minería de datos

Dr. Francisco J. Mata


Rboles de decisi n1
Árboles de decisión

  • Conjunto de reglas representadas en forma de una estructura de árbol

Minería de datos

Dr. Francisco J. Mata


Rboles de decisi n2
Árboles de decisión

  • Son muy útiles cuando hay más de una manera para convertirse en miembro de una clase meta

    • Modelo para encontrar tarjeta habientes rentables puede identificar tres tipos de clientes:

      • Tarjeta habientes que mantienen saldos altos

      • Tarjeta habientes que compran mucho

      • Tarjeta habientes que ocasionalmente hacen compras grandes y pagan sus balances a tiempo

        • Cada uno de estos representa un paso diferente a través del árbol.

Minería de datos

Dr. Francisco J. Mata


Rboles de decisi n3

El paso a través del árbol de decisión explica la clasificación

Árboles de decisión

Envía hijos

a escuela

pública

Minería de datos

Dr. Francisco J. Mata


Rboles de decisi n4
Árboles de decisión clasificación

  • Cada hoja contiene información sobre el número de observaciones que caen en ella y la proporción para cada clase

  • La clase más densa se selecciona como la clasificación para el nodo

Minería de datos

Dr. Francisco J. Mata


Rboles de decisi n5
Árboles de decisión clasificación

  • Se utilizan para

    • Asignar “scores” a los datos

    • Explorar datos

    • Hacer clasificaciones y predicciones

    • Comprender que variables son más importantes

Minería de datos

Dr. Francisco J. Mata


Rboles de decisi n y scoring
Árboles de decisión y “scoring” clasificación

  • Se puede asignar un “score” a los datos de acuerdo a la hoja a la que fueron clasificados

Minería de datos

Dr. Francisco J. Mata


Rboles de decisi n y scoring1
Árboles de decisión y “scoring” clasificación

Minería de datos

Dr. Francisco J. Mata


Rboles de decisi n y scoring2
Árboles de decisión y “scoring” clasificación

  • Problemas

    • Usualmente hay muy pocas hojas por lo que hay pocos valores de “scoring”

Minería de datos

Dr. Francisco J. Mata


Rboles de decisi n y exploraci n
Árboles de decisión y exploración clasificación

  • Árboles de decisión son útiles para explorar un conjunto de datos y entender cómo ciertas variables (“input”) inciden sobre otra (“target”)

Minería de datos

Dr. Francisco J. Mata


Rboles de decisi n y exploraci n1
Árboles de decisión y exploración clasificación

Penetración de un

producto en ciudades

Ciudades

producto no

está bien

Ciudades

producto

está bien

Minería de datos

Dr. Francisco J. Mata


Rboles de decisi n y clasificaciones predicciones
Árboles de decisión y clasificaciones/predicciones clasificación

  • Aplicación más común

Minería de datos

Dr. Francisco J. Mata


Rboles de decisi n y clasificaciones predicciones1
Árboles de decisión y clasificaciones/predicciones clasificación

Predecir

clientes que

pondrían

órdenes si

se les envía

catálogo de

Navidad,

basado en

aquellos

que pusieron órdenes el año pasado

Minería de datos

Dr. Francisco J. Mata


Rboles de decisi n y variables m s importantes
Árboles de decisión y variables más importantes clasificación

  • Ayuda a eliminar variables para otros modelos, por ejemplo regresión

Minería de datos

Dr. Francisco J. Mata


Rboles de decisi n y variables m s importantes1
Árboles de decisión y variables más importantes clasificación

Minería de datos

Dr. Francisco J. Mata


Proceso para crear un rbol de decisi n
Proceso para crear un árbol de decisión clasificación

  • Se utiliza un conjunto de datos de entrenamiento (“training”) para crear el árbol

  • Se utiliza un conjunto de datos de validación para reducir la complejidad del árbol y generalizarlo (proceso de poda o “pruning”)

    • Eliminar el problema del “overfitting”

Minería de datos

Dr. Francisco J. Mata


Proceso para crear un rbol de decisi n1
Proceso para crear un árbol de decisión clasificación

  • Tres conjuntos de datos obtenidos de particionar el conjunto de datos original

    • Entrenamiento: 40%

    • Validación: 30%

    • Prueba: 30%

Minería de datos

Dr. Francisco J. Mata


Algoritmos m s comunes para rboles de decisi n
Algoritmos más comunes para árboles de decisión clasificación

  • CART (“classification and regression trees”)

  • C4.5

  • CHAID (“chi square automatic induction”)

    • Varían en

      • Medida de pureza utilizada para los grupos

      • Forma de poda

Minería de datos

Dr. Francisco J. Mata


Creaci n de rboles de decisi n
Creación de árboles de decisión clasificación

  • Proceso recursivo

    • Se inicia con todos los datos del conjunto de adiestramiento en la raíz

    • Para cada variable “input” se decide la mejor forma para separar los valores de la variable “target”

      • Se selecciona la variable “input” y criterio de mejor separación mediante ésta para los valores de la variable “target”

    • Se divide el nodo en cuestión en dos o más hijos de acuerdo con aquella variable que “mejor divide” la variable “target”

    • Se repite proceso con los otros nodos hasta que no sea posible más divisiones

Minería de datos

Dr. Francisco J. Mata


Divisiones
Divisiones clasificación

Minería de datos

Dr. Francisco J. Mata


Divisiones1
Divisiones clasificación

  • Medida para evaluar la calidad de una división en un árbol de decisión se denomina pureza

Minería de datos

Dr. Francisco J. Mata


Medidas de pureza
Medidas de pureza clasificación

  • Depende de la variable “target” no de las variables “input”

    • Variable “target” categórica

      • Gini (diversidad de población)

      • Entropía (ganancia de información)

      • Radio de ganancia de información

      • Prueba chi cuadrado

    • Variable “target” intervalo o radio

      • Reducción en varianza

      • Prueba F

Minería de datos

Dr. Francisco J. Mata


Pureza
Pureza clasificación

  • Índice de Gini

    • Utilizado en las ciencias sociales y la economía

    • Probabilidad de que dos cosas escogidas al azar de una población sean la misma

    • Una población pura tiene un índice de Gini de 1

    • Si hay dos grupos igualmente representados en una población el índice de Gini es 0.5

    • El índice de Gini es la suma de los cuadrados de las proporciones de las poblaciones

      • p12+ p22

    • El objetivo es maximizar el índice de Gini

Minería de datos

Dr. Francisco J. Mata


Gini clasificación

Minería de datos

Dr. Francisco J. Mata


Gini clasificación

Minería de datos

Dr. Francisco J. Mata


Gini clasificación

Minería de datos

Dr. Francisco J. Mata


Pureza1
Pureza clasificación

  • Entropía

    • Utilizada en la teoría de la información para medir la cantidad de información almacenada en un número de bits

    • Una población pura tiene una entropía de 0

    • Si existen dos grupos igualmente representados la entropía es 1

    • Cálculo de entropía

      • -(p1 log p1 +p2 log p2)

    • El objetivo es minimizar entropía

Minería de datos

Dr. Francisco J. Mata


Entrop a
Entropía clasificación

Minería de datos

Dr. Francisco J. Mata


Entrop a1
Entropía clasificación

Minería de datos

Dr. Francisco J. Mata


Entrop a2
Entropía clasificación

Minería de datos

Dr. Francisco J. Mata


Gini versus entrop a
Gini versus entropía clasificación

  • Entropía tiene preferencia por grupos más pequeños y puros

  • Gini tiene preferencia por grupos similares en tamaño

Minería de datos

Dr. Francisco J. Mata


Pureza2
Pureza clasificación

  • Chi cuadrado

    • Prueba importante en estadística para medir la probabilidad de que la frecuencia observada de una muestra sea debida sólo a la variación de la muestra

    • Es relativa a la proporción en la población original (nodo padre)

    • Si las proporciones en los hijos son las mismas que en el padre entonces el valor de chi cuadrado es 0

    • Si los hijos son puros, el valor de chi cuadrado es alto

    • Para una población dividida 50%-50%, el valor es igual al tamaño de la población

Minería de datos

Dr. Francisco J. Mata


Pureza3
Pureza clasificación

  • Chi cuadrado

    • Cálculo para el chi cuadrado para cada hijo:

      • (observado (c1) – esperado (c1))2 / esperado (c1) + (observado (c2) –esperado (c2))2/ esperado (c2)

        • ci número de instancias de clase i en el hijo

        • obsevado (ci ): número de instancias observadas de clase i en el hijo

        • esperado (ci ): número de instancias esperadas de clase i en el hijo

          • tamaño del hijo multiplicado por la proporción de la clase en el padre

    • El objetivo es maximizar chi cuadrado

Minería de datos

Dr. Francisco J. Mata


Chi cuadrado
Chi cuadrado clasificación

Minería de datos

Dr. Francisco J. Mata


Chi cuadrado1
Chi cuadrado clasificación

Coinciden

en este caso

Minería de datos

Dr. Francisco J. Mata


Algoritmos y pureza
Algoritmos y pureza clasificación

  • CART: Gini

  • C4.5: entropía

  • CHAID: chi cuadrado

Minería de datos

Dr. Francisco J. Mata


Valores perdidos
Valores perdidos clasificación

  • Tratamiento

    • Ignorar registros con valores perdidos (puede introducir sesgo)

    • Tratar los valores perdidos como legítimos y asignarlos a un nodo del árbol

Minería de datos

Dr. Francisco J. Mata


Error en un rbol de decisi n
Error en un árbol de decisión clasificación

  • Para una hoja:

    • 1-probabilidad de clase dominante para la hoja

  • Para un árbol:

    • Suma ponderada de error de hoja i multiplicada por probabilidad de que un registro pertenezca a esta hoja

Minería de datos

Dr. Francisco J. Mata


Poda de rboles de decisi n
Poda de árboles de decisión clasificación

  • Incrementa la estabilidad del modelo al reducir su complejidad

Minería de datos

Dr. Francisco J. Mata


Poda clasificación

Minería de datos

Dr. Francisco J. Mata


Poda clasificación

  • Con el conjunto de entrenamiento, cada división del árbol reduce el error

    • Pero al aumentar el número de hojas, éstas contienen menos registros o tuples y se reduce la posibilidad de que la distribución de resultados en una hoja sea similar de un conjunto de datos a otros (“overfitting”)

  • Los datos de prueba son utilizados para encontrar el punto donde la complejidad adicional empieza a dañar en lugar de ayudar

Minería de datos

Dr. Francisco J. Mata


Poda clasificación

Minería de datos

Dr. Francisco J. Mata


Algoritmo t pico de poda
Algoritmo típico de poda clasificación

  • Identificar sub-árboles candidatos para poda

    • Tasa de error ajustada:

      • AE(T) = E(T) + α leaf_count (T)

    • Se inicia considerando todos los subárboles que contienen la raíz

    • α se incrementa

      • Si AE(Ti) <= E(T completo), Ti es un árbol candidato para conservar y aquellas ramas que no pertenecen a él son podadas

    • El proceso se repite de nuevo para los subárboles en Ti

Minería de datos

Dr. Francisco J. Mata


Poda clasificación

  • Varía de acuerdo con los diferentes algoritmos

    • CART

    • C4.5

    • CHAID

Minería de datos

Dr. Francisco J. Mata


Resultados clasificaci n
Resultados clasificación clasificación

Minería de datos

Dr. Francisco J. Mata


Resultados clasificaci n1
Resultados clasificación clasificación

Error clasificar solicitud como buena siendo mala: 140/453= 31%

Error clasificar solicitud como mala siendo buena: 122/1931= 6%

Error de mala clasificación: (140+122)/2384=11%

Minería de datos

Dr. Francisco J. Mata


Resultados clasificaci n2
Resultados clasificación clasificación

Minería de datos

Dr. Francisco J. Mata


Resultados clasificaci n3
Resultados clasificación clasificación

Minería de datos

Dr. Francisco J. Mata


Resultados de clasificaci n
Resultados de clasificación clasificación

Variable Adiestramiento Validación

respuesta

1=malo

0=bueno

Minería de datos

Dr. Francisco J. Mata


Resultado clasificaci n
Resultado clasificación clasificación

Regla:

IF 492238.5 <= VALUE

AND DEBTINC < 45.43897

THEN

NODE : 5

N : 12

1 : 83.3%

0 : 16.7%

Interpretación:

Minería de datos

Dr. Francisco J. Mata


Ventajas de los rboles de decisiones
Ventajas de los árboles de decisiones clasificación

  • Fácil de entender

  • Resultados se adaptan bien a reglas de negocios

  • No se requieren suposiciones acerca de los datos

  • Variables “input” pueden ser continuas y categóricas

Minería de datos

Dr. Francisco J. Mata


Desventajas de los rboles de decisiones
Desventajas de los árboles de decisiones clasificación

  • Algunos algoritmos sólo pueden tratar variables “target” binarias

  • Otros algoritmos pueden tratar variables “target” con más de dos valores pero no funcionan bien cuando el número de casos de entrenamiento es pequeño por clase

  • Son costosos en términos computacionales

Minería de datos

Dr. Francisco J. Mata


ad