Reconocimiento de Formas en Data Mining

Departamento de Informática Área Métodos y Modelos Cuantitativos Reconocimiento de Formas en Data Mining Profesor : Héctor Allende O.

Departamento de Informática Área Métodos y Modelos Cuantitativos Árboles de clasificación en Reconocimiento de Formas Alumno : Sergio Ahumada N. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

Contenidos • Introducción • Construcción del árbol de clasificación • Selección de particiones • Regla de asignación de clases • Criterio de parada • Ejemplos Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción • Características principales • Aproximación radicalmente distinta • Uno de los métodos de aprendizaje inductivo supervisado no paramétrico más utilizado • Una forma de representar el conocimiento obtenido en el proceso de aprendizaje inductivo: • La estructura resultante de la partición recursiva de P a partir de un conjunto de prototipos S • Organización jerárquica de P que se modela con una estructura de tipo árbol Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción • Esquema general estructural • Modelos: ID3, C4, C4.5, ..., CART • Nodos interiores: una pregunta sobre un atributo concreto (con un hijo por cada posible respuesta) • Nodos hoja: están etiquetados y representan una decisión o clasificación Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción • Metodología. • 1. Aprendizaje: Construcción del árbol a partir de S • 2. Clasificación: Consiste en el etiquetado de un patrón, X, independiente del conjunto de aprendizaje. • Responder a las preguntas asociadas a los nodos interiores utilizando los valores de los atributos de X. • Repetir el proceso de evaluación desde el nodo raíz del árbol hasta alcanzar una hoja Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción 1. Aprendizaje: Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción 2. Clasificación: Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción • Ejemplo 1: Un A.C. para un problema con J = 3 y d = 25 Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción • Ejemplo 1: • El problema es de dimensionalidad d = 25 • Observar las pocas variables utilizadas (6/25) • Cada pregunta tiene asociadas dos únicas respuestas (si o no)  particiones binarias (CART) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción • Ejemplo 2: Introducción al aprendizaje (1) • Problema de clasificación no separable linealmente • J=2, d=2, N=46 (N1=26 y N2=20) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción Primera partición Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción Segunda partición Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción Resumen del proceso de partición. Las regiones de decisión tiene forma de paralelepípedos Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción • Ejemplo 3: Introducción al aprendizaje (2) • Las particiones se hacen con hiperplanos arbitrarios Primera partición (alternativa) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción Segunda partición (alternativa) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción Tercera partición (alternativa) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción Cada nodo tiene asociada una región en P Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción • ¿Qué representa un árbol de clasificación? Un árbol de clasificación T representa una partición recursiva del espacio de representación, P, realizada en base a un conjunto de prototipos, S. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción • Nodos de T, regiones en P y conjuntos en S. • 1. Cada nodo de T tiene asociado un subconjunto de prototipos de S. • 2. El nodo raíz tiene asignado el conjunto completo • 3. Cada hoja, t, tiene asociada una región, Rt, en P. • Si es el conjunto de nodos hoja del árbol T : • Los conjuntos de prototipos asignados a los nodos hoja constituyen una partición de P Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción 4. Cada nodo no terminal tiene asociada una región en P, que es la unión de las regiones asociadas a los nodos hoja del subárbol cuya raíz es ese nodo. 5. La unión de los conjuntos de prototipos asignados a los nodos de un mismo nivel da como resultado el conjunto inicial Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Construcción de árbol de clasificación • Constituye la fase de aprendizaje. • Esquema recursivo: • 1. El avance está basado en la partición de un nodo de acuerdo a alguna regla, normalmente evaluando unacondición sobre el valor de alguna variable: • Si un nodo se particiona nodo intermedio. Los prototipos que verifican la condición se asignan a uno de los dos nodos hijo (normalmente el izquierdo) y los restantes, al otro. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Construcción de árbol de clasificación • 2. El caso base o condición de parada tiene como objetivo detener el proceso de partición de nodos. • Si se verifica la condición de parada nodo hoja. • En ocasiones, se poda el árbol resultante utilizando alguna regla de poda. Los prototipos asociados a un nodo hoja constituyen un agrupamiento homogéneo, por lo que al nodo se le asigna una etiqueta. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Construcción de árbol de clasificación • Puntos clave en la construcción del árbol. • 1. ¿De qué forma se hacen las particiones y se selecciona la mejor de entre las posibles en cada momento? • 2. ¿Cual es el criterio para determinar que un nodo es homogéneo? ó ¿Cuando se debe declarar un nodo como terminal, o por el contrario, continuar su división? • 3. ¿Cómo asignar una etiqueta a un nodo terminal? 1.1 ¿Cómo se formulan las preguntas? ó ¿De qué tipo son las condiciones a evaluar para formar una partición? 1.2 ¿Qué partición es la mejor? Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Construcción de árbol de clasificación • Ejemplo. Construcción de un árbol. • Supongamos el siguiente problema: • d = 25 • J = 3 • N = 300 (Ni = 100, i = {1,2,3}) • 1. Construcción del nodo raíz. Nodo raíz del árbol Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Construcción de árbol de clasificación 2. Partir el nodo raíz. Objetivo: Seleccionar la mejor partición del nodo raíz entre todas las posibles. 2.1 Examinar todas las particiones de la forma donde: Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Construcción de árbol de clasificación Por ejemplo, C = 1.1 Los prototipos para los que X1 < 1.1 van al nodo izquierdo, los otros, al derecho. Guardar la mejor partición, P.e. ¿X1 < 10.7? Partición asociada a ¿X1 < 1.1? 2.2 Repetir el proceso anterior para X2, X3, ..., X25 Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Construcción de árbol de clasificación 2.3 Seleccionar la mejor partición entre las mejores de X1, X2, X3, ...,X25 P.e. ¿X8 < 3.2? Partición asociada a ¿X8 < 3.2? Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Construcción de árbol de clasificación 3. Repetir el paso 2 para los nodos hijo. Por ejemplo, sea ¿X3 < -0.8? la mejor partición para el nodo izquierdo y ¿X1 < 17.9? la mejor para el derecho. Árbol resultante de partir el árbol anterior Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Construcción de árbol de clasificación * Los nodos 4 y 5 diferencian claramente las clases 2 y 1, respectivamente, mientras que en los nodos 6 y 7 se diferencian las clases 2 y 3, respectivamente. * Las particiones efectuadas han ido “definiendo” una clase mayoritaria en cada nodo resultante  han ido aumentando la pureza de los nodos. * Este proceso de división puede continuar para cada uno de los 4 nodos o, para cada caso, plantearse si debemos detenernos. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Construcción de árbol de clasificación 4. ¿Parada? • * Establecer el criterio de parada para obtener un buen árbol de decisión no es sencillo. • * Uno muy simple: un nodo se declarará terminal si la clase dominante tiene más del 60% de los prototipos asociados a ese nodo. • 4. N(4) = 78. 60% = 46.8. N2(4) = 53  Parar. • 5. N(5) = 83. 60% = 49.8. N1(5) = 51  Parar. • 6. N(6) = 45. 60% = 27.0. N2(6) = 25  Seguir. • 7. N(7) = 94. 60% = 56.4. N3(7) = 65  Parar. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Construcción de árbol de clasificación Los nodos 4, 5 y 7 se declaran nodos hoja Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Construcción de árbol de clasificación Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Construcción de árbol de clasificación A) Árbol resultado de partir el nodo 6. B) Final Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Selección de las particiones ¿De qué forma se hacen las particiones y se selecciona la mejor de entre las posibles en cada momento? • Una partición divide un conjunto de prototipos en conjuntos disjuntos. • Objetivo de una partición: Incrementar la homogeneidad (en términos de clase) de los subconjuntos resultantes que sean más puros que el conjunto originario. En CART: particiones binarias. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Selección de las particiones • Cada partición tiene asociada una medida de pureza: • - Para la selección de la mejor partición. • - Como criterio de parada (no es muy recomendable) • Puntos a estudiar: • - ¿Cómo se formulan las preguntas? • - ¿Qué partición es la mejor? Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3.1 Formulación de la regla de partición ¿Cómo se formulan las preguntas? • Introducción. Sea Q el conjunto de preguntas binarias de la forma: El conjunto Q genera un conjunto de particiones s en cada nodo t. Un nodo t se particiona en tL y tR. - Los casos de t que verifican la condición ¿XA? se asignan al nodo izquierdo, tL, - Los casos de t que no verifican la condición se asignan a tR, Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3.1 Formulación de la regla de partición • Conjunto estándar de preguntas. 1. Cada partición depende de un único atributo. 2. Si Xi es un atributo categórico, que toma valores en {c1,c2,...,cL}, Q incluye las preguntas: donde C es un conjunto de entre los subconjutos de {c1,c2,...,cL}. P.e. Si X2 toma valores en {Rojo, Verde, Azul}, ¿X2 {Rojo}?, ¿X2{Verde}?, ¿X2{Azul}? Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3.1 Formulación de la regla de partición 3. Si Xi es un atributo continuo, Q incluye las preguntas: donde v es valor real, teóricamente cualquiera. En CART, v es el punto medio de dos valores consecutivos de Xi P.e. Si X1 es real, con valores 0.1, 0.5, 1.0, ¿X1  (0.1 + 0.5)/2?, ¿X1  (0.5 + 1.0)/2? Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3.2 Criterios de partición ¿Qué partición es la mejor? Cada partición tiene asociada una medida de pureza: Se trata de incrementar la homogeneidad de los subconjuntos resultantes de la partición  que sean más puros que el conjunto originario. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3.2 Criterios de partición • Función de impureza,  Una función  definida sobre J-uplas (c1,c2,...,cJ), tales que: a) cj  0 para j = 1,2,...,J y b) , con las siguiente propiedades i)  tiene un único máximo en (1/J, 1/J, ..., 1/J). ii)  alcanza su mínimo en (1,0,0,...,0), (0,1,0,...,0), ..., (0,0,0,...,1) y el valor mínimo es 0. iii)  es una función simétrica de c1, c2, ..., cJ Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3.2 Criterios de partición • Medida de impurezade un nodo, i(t) Dada una función de impureza , definamos la medida de impureza de cualquier nodo t, i(t), como: donde p(j|t) es la probabilidad de que un caso (prototipo) del nodo t sea de clase j. Empíricamente: la proporción de casos de clase j en el nodo t: Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3.2 Criterios de partición Observar que: a) p(j|t)  0 b) i) Máxima impureza (resp. mínima pureza): cuando todas las clases están igualmente representadas en t. ii) Mínima impureza (resp. máxima pureza): cuando en t sólo hay casos de una sola clase. iii) Cualquier permutación de los cj produce el mismo resultado. P.e., para dos nodos tj  tk, i(tj) = (0.7, 0.2, 0.1) = (0.2, 0.1, 0.7) = i(tk) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3.2 Criterios de partición • Bondad de la partición s en un nodo t, (s,t) Para cualquier nodo t, supongamos la partición candidata s, que divide t en tL y tR, de forma que una proporción pL de los casos de t van a tL y una proporción pR van a tR: La partición s divide t en tL y tR Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3.2 Criterios de partición La bondad de la particiónsen un nodot, (s,t), se define como el decrecimiento en impureza conseguido con ella: Si conocemos cómo calcular i(t), para cada s podemos calcular (s,t) y seleccionar la mejor particións como la que proporciona la mayor bondad (s,t). Para establecer el efecto que produce la selección de la mejor partición en cada nodo sobre el árbol final necesitamos una medida de la impureza global del árbol. • Impureza de un árbol, I(T) Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3.2 Criterios de partición Sea I(t) = i(t)p(t), donde p(t) es la probabilidad de que un caso cualquiera esté en el nodo t. La impureza del árbol T, se define como: donde es el conjunto de nodos terminales de T. La selección continuada de las particiones que maximizan i(s,t) es equivalente a seleccionar las particiones que minimizan la impureza global I(T). Esto significa que la estrategia de selección de la mejor partición en cada nodo conduce a la solución óptima considerando el árbol final Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3.2 Criterios de partición • Criterios de medida de impureza * Medida de entropía. Se asume que 0 log0 = 0 * Índice de Gini. Mide la diversidad de clases en un nodo. Reconocimiento de Formas en Data Mining Prof: Héctor Allende

Reconocimiento de Formas en Data Mining

Reconocimiento de Formas en Data Mining

Presentation Transcript

FORMAS DE HABLAR EN P BLICO

Reconocimiento de Formas

Reconocimiento de Formas

Reconocimiento de Ingresos

Reconocimiento de Formas

Reconocimiento de patrones

Formas Clínicas de TBC en Niño

Data Mining y Aplicaciones en Riesgo de Crédito

Formas de pago en nuestra tienda

Reconocimiento de Patentes en automóviles

ACTIVIDAD DE RECONOCIMIENTO

Aplicaciones de data mining en química ambiental:

Formas de tratamiento en el español antiguo

Sistema de reconocimiento profesional en Europa

ESQUEMA DE RECONOCIMIENTO

Reconocimiento de antígenos

Reconocimiento y transferencia de créditos en la UEx

Projeto de Data Mining

DATA MINING EN ENTIDAD FINANCIERA

Reconocimiento de cara basado en “ espectrocara ”

ESQUEMA DE RECONOCIMIENTO

Formas sencillas de Ganar Dinero En Linea