slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Curso-Taller Datos multivariados: Análisis Clásicos y Nuevas Tecnologías PowerPoint Presentation
Download Presentation
Curso-Taller Datos multivariados: Análisis Clásicos y Nuevas Tecnologías

Loading in 2 Seconds...

play fullscreen
1 / 38

Curso-Taller Datos multivariados: Análisis Clásicos y Nuevas Tecnologías - PowerPoint PPT Presentation


  • 169 Views
  • Uploaded on

Curso-Taller Datos multivariados: Análisis Clásicos y Nuevas Tecnologías. Tema 3: Clasificación. Clasificaci ón análisis de conglomerados. ¿Qué es el análisis de conglomerados?.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Curso-Taller Datos multivariados: Análisis Clásicos y Nuevas Tecnologías' - mirari


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

Curso-Taller

Datos multivariados: Análisis Clásicos y Nuevas Tecnologías

Tema 3: Clasificación

slide2

Clasificación

análisis de conglomerados

¿Qué es el análisis de conglomerados?

Técnicas o algoritmos matemáticos que tienen por objeto la búsqueda de grupos de individuos de similares características, o de grupos de variables con comportamiento similar

¿Qué hace el análisis de conglomerados?

Clasificar a la muestra de individuos en grupos lo más homogéneos posible con base en las variables observadas

  • ¿Para qué sirve?
  • Definir de tipos funcionales como base para una clasificación
  • Definir tipologías de productores
  • Identificar ambientes con características particulares
  • …..
slide3

Clasificación

análisis de conglomerados

  • Objetivo:
  • El agrupamiento debe ser tal que individuos dentro de un grupo sean más parecidos entre sí, que aquellos que pertenecen a grupos distintos

Distancia entre individuos (tipo de variables):

La matriz de datos n x p es transformada en una matriz de proximidad o de disimilitud:

  • (n x n) que mide la semejanza o la distancia entre pares de individuos i y i’ para i,i’ = 1,..., n

(p x p) que mide la semejanza o la distancia entre pares de variables j y j’ para j,j’ = 1,..., p

slide4

Clasificación

análisis de conglomerados

En el análisis de conglomerados noes necesarioconocer “a priori” el grupo al que pertenece cada individuo. A diferencia del análisis discriminante que tiene como requisito conocer un agrupamiento a priori

  • Dos decisiones a tomar:
      • elección de la medida de distancia
      • elección del algoritmopara agrupar
        • El algoritmo indica cómo se formarán los grupos a partir de una matriz de distancias
slide5

Clasificación

análisis de conglomerados

  • Distancias:
    • Variables cuantitativas:
    • Se usan Medidas de distancia basadas en el espaciamiento de los puntos representados en un espacio multidimensional (ej. distancia Euclídea o Pitagórica, Mahalanobis … )
    • Variables cualitativas:
    • Se usan medidas de asociación.
      • Distancias definidas como 1-medida de asociación. Medidas de asociación basadas en el número de concordancias y discordancias entre objetos sobre todas las dimensiones observadas
slide6

Clasificación

análisis de conglomerados

Medidas de

similaridad

slide7

Clasificación

análisis de conglomerados

Obtención de medidas de distancia a partir de similitudes

slide8

Clasificación

análisis de conglomerados

Distancias cuando hay mezclas de variables

No existe una metodología única para este problema, diferentes autores lo enfocan de distintas formas

Una solución es combinar una distancia que vaya entre 0 y 1 para variables cuantitativas y otra que tome valores 0 o 1 para variables cualitativas

Usar distancia a partir de la similaridad de Gower

Usar coordenadas principales para resumir la información de variables binarias obtenidas a partir de rasgos cualitativos y tratar a todas como cuantitativas

slide9

Clasificación

análisis de conglomerados

Algoritmos:

Métodos no jerárquicos: producen una única partición

Métodos jerárquicos: producen particiones jerárquicas

  • Aglomerativos (comienzan con tantos grupos como individuos existan y terminan con un solo grupo final)
  • Disociativos(comienzan con un solo grupo y en forma descendente particionan los grupos ya formados hasta que cada grupo tiene un solo individuo)
slide10

Clasificación

análisis de conglomerados

Métodos Jerárquicos

Vecino más próximo o distancias mínimas

Los grupos se unen en base a la distancia entre los dos miembros

más cercanos

A B C D E

slide11

Clasificación

análisis de conglomerados

Algoritmos de agrupamiento

Vecino más lejano o distancias máximas: La distancia entre conglomerados es la del par de objetos más distantes

Encadenamiento Promedio (o de la media de distancias): Para obtener la distancia entre dos conglomerados, se promedian todas las distancias entre pares de objetos donde un miembro del par pertenece a uno de los conglomerados y el otro miembro pertenece al otro conglomerado

Media ponderada

Centroide ( distancia entre medias de variables): Toma el promedio de todos los objetos en un conglomerado (centroide) para representar al conglomerado y medir distancias entre objetos y el conglomerado, o entre conglomerados

Mediana

Método de Ward (minimiza los errores): Promedia todas las distancias entre los pares de objetos en diferentes grupos, ajustando por las covarianzas

slide12

Clasificación

análisis de conglomerados

Métodos de medición de distancias entre conglomerados

Vecino mas cercano

Vecino mas lejano

Centroide

(enlace múltiple)

Promedio

(enlace múltiple)

Encadenamiento

promedio

(UPGMA)

Mínima varianza

WARD-AnaVa

Encadenamiento

simple

Encadenamiento

completo

slide13

Clasificación

análisis de conglomerados

¿Como decidir?

Coeficiente de correlación cofenético

Entre la métrica del árbol jerárquico y la matriz original

Mas alto es mejor

Vecino mas cercano

Vecino mas lejano

Centroide

(enlace múltiple)

Promedio

(enlace múltiple)

Encadenamiento

promedio

(UPGMA)

Mínima varianza

WARD-AnaVa

Encadenamiento

simple

Encadenamiento

completo

slide14

Clasificación

análisis de conglomerados

Técnicas de clasificación jerárquicas:

Dendrograma

slide15

Clasificación

análisis de conglomerados

Ejemplos con software estadístico

  • Archivos que utilizaremos
    • Conglomerado uno.IDB2
    • Conglomerado dos.IDB2

URL: http://www.infostat.com.ar

Cómo citar InfoStat

Di Rienzo J.A., Casanoves F., Balzarini M.G., Gonzalez L., Tablada M., Robledo C.W. InfoStatversión 2010. GrupoInfoStat, FCA, Universidad Nacional de Córdoba, Argentina. URL http://www.infostat.com.ar

slide16

Clasificación

análisis de conglomerados

Resumir repeticiones

Algorítmo

Inspeccionar matriz de similaridad

Distancia

Estandarizar variables y # de conglomerados

Agrupar individuos o variables

slide17

Clasificación

análisis de conglomerados

Comentarios Finales

  • Es una técnica exploratoria. No se necesitan supuestos de agrupamiento “a priori”, ni de otro tipo
  • ¿Qué hacer si hay diferentes escalas y diferentes magnitudes entre las variables?
  • Si tienen diferente escalas elegir una medida de distancia adecuada
  • a mezcla de variables
  • Si tienen diferente magnitud puede convenir estandarizar
  • antes de agrupar
  • ¿Por cuántos grupos o “clusters” decidirse?
  • El criterio a usar depende de la medida de distancia
  • usadas y de la finalidad del agrupamiento
slide18

Clasificación

análisis de conglomerados

  • listo
slide19

Clasificación

análisisdiscriminante

ANÁLISIS DISCRIMINANT (análisis confirmatorio)

Objetivos:

Asignar nuevos individuos a grupos preexistentes usando una regla de clasificación

Discriminar entre grupos conocidos a priori

Construye una regla para predecir la probabilidad

de pertenencia a un grupo

slide20

Clasificación

análisisdiscriminante

  • ¿En qué cosiste?
  • Detectar las variables que permiten discriminar grupos conocidos a ‘a priori’
  • Clasificar nuevos casos dentro de los grupos identificados que tengan mayor probabilidad de contenerlos
slide21

Clasificación

análisisdiscriminante

  • En estudios de ecología es útil para detectar qué conjunto de variables tiene mayor capacidad de identificar diferentes poblaciones
  • Dada una clasificación a priori (obtenida de un conjunto de datos por análisis de conglomerados o algún otro tipo de clasificación), permite asignar nuevos individuos, al grupo al que más se asemejan en su perfil multivariado
  • Determinar si las variables consideradas son suficientes para discriminar entre grupos de individuos
  • Generar una función de varias variables (aquellas de mayor peso en la discriminación) que sirven para evaluar la pertenencia de un individuo a uno de los grupos determinados a priori
slide22

Clasificación

análisisdiscriminante

  • Ofrece tasas de errores de clasificación que dan una idea de la capacidad predictiva de la función discriminante
  • Cuando hay dos grupos ----> Una sola ecuación lineal discriminante (un eje canónico)
  • Cuando hay k grupos ----> hay k-1 funciones discriminantes no correlacionadas (ejes canónicos)
  • Una Regla de asignación ÓPTIMA es la que minimiza la probabilidad de cometer errores durante el proceso de clasificación
slide23

Clasificación

análisisdiscriminante

Discriminante Lineal

  • Se realizan supuestos distribucionales (se habla de Probabilidad)
  • Se pueden usar estadísticos para decidir la entrada o no de una variable
  • Se requiere el supuesto de normalidad multivariada

Violaciones de este supuesto NO son FATALES

slide24

Clasificación

análisisdiscriminante

Función Discriminante Lineal

  • Asume que los grupos tienen matrices de varianzas y covarianzas iguales
  • Homogeneidad de estructura de variación y covariación

Violaciones de este supuesto NO son FATALES

PERO pueden aumentar errores de clasificación

slide25

Clasificación

análisisdiscriminante

  • Función en discriminante canónica
  • Si = Ci +Wi1X1+Wi2X2+ ..... + WipXp
    • i denota el grupo, X las variables, Si es el valor resultante que se utiliza para la clasificación
  • ¿Cómo se usa para clasificar casos?
  • Para un nuevo individuo, usando los valores de sus variables, se calcula un valor para cada variable canónica para ese individuo y se estima la probabilidad de que pertenezca a cada grupo. Se decideasignarlo a aquel grupo con el que presente menor diferencia (mayor probabilidad de parecerse al perfil multivariado que lo caracteriza)
slide26

Clasificación

análisisdiscriminante

  • ¿Importa el tamaño de los grupos?
  • Si, en especial cuando tienen
  • tamaños muy distintos
  • Una forma de mejorar la predicción es incorporar probabilidades a priori diferentes para cada grupos, proporcional a los tamaños muestrales, para mejorar la predicción
  • ¿ Cómo se evalúa la calidad de la regla discriminante?
    • Tasas de error
      • Aparente (usando los datos observados)
      • Validación cruzada (tipo Jackknife)
      • Con un subconjunto de datos
slide27

Clasificación

análisisdiscriminante

¿Cómo se interpretan las funciones discriminantes?

En función de los coeficientes que presentan en la función lineal discriminante (variables estandarizadas).

Mayor magnitud de coeficiente, mayor importancia de la

variable en la discriminación

1 2

SLA 0,19 -0,34

LNC -0,39 -0,16

LPC 0,22 1,01

LCC -0,01 -0,56

Tough 0,18 -0,41

SeedWeight -0,37 -0,26

LDMC 1,02 0,41

VegHeigth -1,05 0,39

InfloHeight 1,35 0,67

slide28

Clasificación

análisisdiscriminante

Tasa de error en la elasificación

(tasa de error aparente)

Tabla de clasificación cruzada

Grupo 1 2 3 4 Total Error(%)

1 11 0 0 0 11 0.00

2 0 7 0 0 7 0.00

3 0 1 11 0 12 8.33

4 0 0 0 7 7 0.00

Total 11 8 11 7 37 2.70

Error de clasificación promedio 2.7%

slide29

Clasificación

análisisdiscriminante

Visualización de las diferencias entre tipos funcionales en el espacio generado por los ejes canónicos

slide30

Clasificación

análisisdiscriminante

Ejemplos con software estadístico

  • Archivos que utilizaremos
    • Conglomerados uno.IDB2

URL: http://www.infostat.com.ar

Cómo citar InfoStat

Di Rienzo J.A., Casanoves F., Balzarini M.G., Gonzalez L., Tablada M., Robledo C.W. InfoStatversión 2010. GrupoInfoStat, FCA, Universidad Nacional de Córdoba, Argentina. URL http://www.infostat.com.ar

slide31

Clasificación

análisisdiscriminante

slide32

Clasificación

análisisdiscriminante

  • listo
slide33

Clasificación

árboles de clasificación y de regresión

Objetivos:

Son modelos predictivos que están pensados para captar comportamientos no aditivos, a diferencia de los modelos de regresión lineal regresiónlogística

Los modelos basados en árboles de regresión y/o clasificación constituyen una alternativa a los modelos lineales aditivos para los problemas de regresión y para modelos logísticos

aditivos en problemas de clasificación.

slide34

Clasificación

árboles de clasificación y de regresión

  • Un árbol de regresión o de clasificación es un conjunto de muchas reglas determinadas por un procedimiento de ajuste por particiones binarias recursivas, donde un conjunto de datos es sucesivamente particionado
  • Esta técnica está relacionada con los conglomerados divisivos
slide35

Clasificación

árboles de clasificación y de regresión

Árbol de regresión

Variable respuesta continua

slide36

Clasificación

árboles de clasificación y de regresión

Árbol de clasificación

Variable respuesta categórica

slide37

Clasificación

árboles de clasificación y de regresión

Ejemplos con software estadístico

  • Archivos que utilizaremos
    • ArbolReg y Clas.IDB2

URL: http://www.infostat.com.ar

Cómo citar InfoStat

Di Rienzo J.A., Casanoves F., Balzarini M.G., Gonzalez L., Tablada M., Robledo C.W. InfoStatversión 2010. GrupoInfoStat, FCA, Universidad Nacional de Córdoba, Argentina. URL http://www.infostat.com.ar