1 / 46

Visualización y Extracción de Características mediante Componentes Principales

Visualización y Extracción de Características mediante Componentes Principales. Tema 5. Métodos de Visualización de Datos. Ejemplo: Solicitantes de un empleo. 48 individuos. FL: Forma de su letra APP: Aspecto AA: Capacidad académica LA: Amabilidad SC: Confianza LC: Lucidez

bessie
Download Presentation

Visualización y Extracción de Características mediante Componentes Principales

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Visualización y Extracción de Características mediante Componentes Principales Tema 5

  2. Métodos de Visualización de Datos

  3. Ejemplo: Solicitantes de un empleo 48 individuos FL: Forma de su letra APP: Aspecto AA: Capacidad académica LA: Amabilidad SC: Confianza LC: Lucidez HON: Honestidad SMS: Su arte de vender EXP: Experiencia DRV: Empuje AMB: Ambición GSP: Capacidad para captar conceptos POT: potencial KJ: Entusiasmo para trabajar en grupo SUIT: Conveniencia Escala del 0 al 10, donde 0 es muy insatisfactorio y 10 muy satisfactorio

  4. Visualización de datos Caras de Chernoff • Se asocia una variable a cada característica de la cara: altura del ojo, ancho del ojo, tamaño del iris, longitud de la nariz, ancho de la nariz, ancho de las cejas, inclinación de las cejas, longitud de las orejas, longitud de la boca, etc. • Utilidad: identificación de outliers, agrupar elementos.

  5. Caras de Chernoff Ejemplo de los solicitantes de un empleo

  6. Excelente para clasificación Vuelve amigable el tedioso análisis de tablas Condensa numerosas variables en una imagen bidimensional La asignación subjetiva de características faciales a las variables afecta la clasificación Sólo permite analizar un número finito de observaciones VIRTUDES LIMITANTES Caras de Chernoff

  7. Visualización de datos Gráficos de estrellas y rayos • Se construyen al representar la distancia a la que se encuentra cada variable de cero sobre rayos o ejes que irradian de un punto central. • Se tiene un rayo para cada variable de respuesta; por ejemplo, los vectores de datos de cinco dimensiones necesitarán cinco rayos o ejes. • Identificación de outliers, agrupación

  8. Gráficos de estrellas y rayos Ejemplo de los solicitantes de un empleo ¿Quiénes parecen ser los mejores candidatos para otorgarles el empleo?

  9. EXTRACTORES DE CARACTERÍSTICAS NECESIDAD • COMPLEJIDAD CRECIENTE DE LOS PROBLEMAS DE CLASIFICACIÓN DEBIDO AL AUMENTO DE : • NÚMERO n DE OBSERVACIONES • DIMENSIÓN p DEL ESPACIO DE VARIABLES

  10. OBJETIVO: HALLAR UNA TRANSFORMACIÓN DEL ESPACIO DE DIMENSIÓN p DE LAS VARIABLES ASOCIADAS A CADA OBSERVACIÓN EN UN ESPACIO DE DIMENSIÓN INFERIOR, (ESPACIO DE LAS CARACTERÍSTICAS), QUE RETENGA LO ESENCIAL DE LA INFORMACIÓN NECESARIA PARA EL PROCESO DE CLASIFICACIÓN

  11. MÁS PRECISAMENTE: QUE EL PROCESO CLASIFICADOR DE LAS OBSERVACIONESENEL ESPACIO DE LA TOTALIDAD DE LAS VARIABLES Y EN EL ESPACIO DE LAS CARACTERÍSTICAS CONDUZ- CA A UNA DIVISIÓN DE LAS OBSERVACIO- NES EN LAS MISMAS CLASES O CON DIFE- RENCIAS INSIGNIFICANTES.

  12. POR QUÉ EXTRAER CARACTERÍSTICAS • REDUCIR LA COMPLEJIDAD COMPUTACIONAL • LOS MÉTODOS ESTADÍSTICOS DE ESTIMACIÓN SE VUELVEN MÁS CONFIABLES EN EL ESPACIO DE DIMENSIÓN REDUCIDA • PARA PERMITIR UNA VISUALIZACIÓN GRÁFICA DE LAS CLASES (DIMENSIÓN A LO SUMO 3)

  13. EXTRACTORES BÁSICOS ANÁLISIS DE COMPONENTES PRINCIPALES ESCALAMIENTO MULTIDIMENSIONAL MAPAS AUTOORGANIZATIVOS REDES NEURONALES

  14. COMPONENTES PRINCIPALES ORIGEN * PEARSON (1901) * HOTELLING(1933) SOPORTE MATEMÁTICO * DESCOMPOSICIÓN ESPECTRAL DE MATRICES * VALORES Y VECTORES PROPIOS AUGE COMO CONSECUENCIA DEL DESARROLLO DEL COMPUTADOR

  15. Objetivo Principal:Reducir dimensionalidad CONSISTE EN LA TRANSFORMACIÓN DEL ESPACIO DE VARIABLES ORIGINALES Rp EN UN NUEVO ESPACIO Rq, CON q<p, DE MODO QUE CIERTAS PROPIEDADES DE LA ESTRUCTURA DE LOS DATOS SEAN PRESERVADAS ESTE PROCESO PERMITE: EXTRAER CARACTERÍSTICAS RELEVANTES DE LOS DATOS. VISUALIZAR LOS DATOS MEDIANTE SU REDUCCIÓN A UNA DIMENSIÓN A LO SUMO 3.

  16. MÉTODOS DE PROYECCIÓN LOS MÉTODOS PARA REDUCIR LA DIMENSIÓN, p, DE LOS DATOS, A UNA DIMENSIÓN INFERIOR, q, PUEDEN CONCEBIRSE COMO UNA PROYECCIÓN DE UN ESPACIO Rp SOBRE OTRO ESPACIO Rq . q  p En lo posible q=2 o q=3

  17. DEFINICIÓN DADO UN CONJUNTO DE DATOS p-DIMENSIONAL DE VARIABLES X1,.......,Xp, OBTENER UN CONJUNTO DE VARIABLES Z1,....,Zq LLAMADAS COMPONENTES PRINCIPALES, q<p TAL QUE: SEAN COMBINACIONES LINEALES DEL CONJUNTO ORIGINAL SEAN LINEALMENTE INDEPENDIENTES Z1 REPRESENTE LA MEJOR APROXIMACIÓN CON UNA SOLA VARIABLE A LA DATA ORIGINAL Z2 LA MEJOR ENTRE AQUELLAS DIRECIONES ORTOGONALES A Z1, Y ASÍ SUCESIVAMENTE ...

  18. Matriz de Covarianza S = Traza(S)= s2(Y1) + …+ s2(Yn)

  19. VECTORES Y VALORES PROPIOS DEFINICIÓN , x = VALOR PROPIO Y VECTOR PROPIO DE UNA MATRIZ A si Ax = x PARA COMPONENTES PRINCIPALES LA MATRIZ, A, ES LA DE COVARIANZA (la de momentos o la de correlación). MATRIZ DE COVARIANZA MUESTRAL

  20. Vectores y valores propios Definición Los valores propios o (eigenvalores) son las raíces de la ecuación polinomial definida por: Nota: Si una matriz es simétrica, sus valores propios (l1,l2,..,lp) siempre serán números reales.

  21. Cada valor propio tiene un vector no cero correspondiente a (una columna de números) llamado vector propio (o eigenvector) que satisface la ecuación matricial: Definición Debido a que tiene p valores propios, tendrá p vectores propios (a1,a2,…,ap). Propiedad La traza de la matriz de covarianza mide la variación total de las variables

  22. Matriz de Covarianza Obtener vectores y valores propios Ordenar vectores propios (a1, a2, …, ap) y valores propios (l1, l2,.., lp ) de acuerdo a estos últimos : Varianza de la j-ésima componente aj es lj.

  23. Variables que tienen fuertes relaciones con las componentes principales: Aquellas que tienen elementos en el vector propio mayores en valor absoluto que las otras variables en el mismo vector propio.

  24. Las componentes principales tienen como característica que son vectores ortonormales, es decir: ai’ai=1 y ai’aj=0 i ≠ j Por ejemplo, 1 0 0 0 0 1 b1= b2= Son vectores ortonormales

  25. Primera componente como combinación lineal de x1 y x2

  26. Cada valor λj representa la varianza de los datos proyectada sobre la componente principal Obsérvese aquí que λ1 >> λ2 ya que es mayor la variabilidad sobre la primera componente

  27. Calificaciones de los Componentes Principales (Scores) Sea xr: vector de variables medidas para la r-ésima observación Vector (calificación) de la j-ésima componente principal, para la r-ésima observación es: yrj = aj’ (xr - m) para j=1,2,…,p y r=1,2,…n

  28. ¿y11? yrj = aj’ (xr -m)

  29. Solicitante 1 ’ 6 7.08 7.08 6.14 . . . 5.958 6 7 2 5 . . . 10 0.149 0.132 0.029 . . . y11 = - = Componente 1 0.149(6-6)+0.132(7- 7.08) + 0.030(2-7.083) + …+0.274(10-5.958) = 4.304 Valor del elemento r (solicitante 1) en la componente principal j (primera componente)

  30. 4.3

  31. ¿CUÁNTAS COMPONENTES ? PUESTO QUE LA VARIANZA TOTAL, ES LA SUMA DE LAS VARIANZAS SOBRE CADA COMPONENTE: SE TOMAN SUFICIENTES λj QUE EXPLIQUEN UN ALTO % DE LA VARIANZA TOTAL UN CRITERIO ALTERNATIVO ES CONSIDERAR los λj QUE SEAN MAYOR QUE EL PROMEDIO DE VARIANZA POR COMPONENTE:

  32. ¿CUÁNTAS COMPONENTES ? Valor propio % individual % acumulado 8 8/20 - 0.40 8/20 = 0.40 6 6/20 - 0.30 14/20 = 0.70 3 3/20 - 0.15 17/20 = 0.85 2 2/20 - 0.10 19/20 = 0.95 1 1/20 - 0.05 20/20 = 1.00 C1 C2 C3 C4 C5 20 Se seleccionan los lambda >= 4 20/5 = 4 =>

  33. LA PRUEBA DEL BASTÓN ROTO LOS CRITERIOS ANTERIORES TIENEN LA DEBILIDAD DE QUE SE ESPERA QUE LOS PRIMEROS VALORES PROPIOS SEAN SUPERIOR AL PROMEDIO SIN QUE ESTO IMPLIQUE UN SIGNIFICADO ESPECIAL. POR AZAR SE QUIEBRA UN BASTÓN EN p PARTES, ¿CUÁL ES EL VALOR ESPERADO DE LOS TROZOS DEL BASTÓN? E(L1) > E(L2) > E(L3)…

  34. Porcentaje Acumulado 52.08 79.16 93.74 100 Supongamos n=4, tenemos:

  35. Las m primeras componentes son significativas si explican mayor varianza que los m primeros valores medios del modelo del bastón roto. Se considera que las demás componentes descomponen la varianza residual al azar. Por ejemplo, si la dimensión es 4 los valores esperados de los trozos son: 0.5208 0.2708 0.1458 0.0625 52.08 79.16 93.74 100% Acumulado Si los valores propios obtenidos son (en %): 0.65; 0.18; 0.09; 0.08 ¿Cuáles componentes se seleccionarían?

  36. ESTUDIO DE LA DISTRIBUCIÓN DE LA FUERZA LABORAL EMPLEADA (%) EN 9 DIFERENTES SECTORES ECONÓMICOS EN 26 PAISES DE EUROPA OBJETIVO: REDUCCIÓN DE LA DIMENSIONALIDAD DE LOS DATOS CON EL PROPÓSITO DE AISLAR GRUPOS DE PAISES CON SIMILAR DISTRIBUCIÓN DEL EMPLEO Y AYUDAR A LA COMPRENSIÓN DE LA RELACIÓN ENTRE LOS PAISES

  37. PAIS AGRO MINE MANU ENER CONST SER_IND FINA SOCIAL TR_COMU BELG 3.3 0.9 27.6 0.9 8.2 19.1 6.2 26.6 7.2 DINA 9.2 0.1 21.8 0.6 8.3 14.6 6.5 32.2 7.1 FRAN 10.8 0.8 27.5 0.9 8.9 16.8 6.0 22.6 5.7 WALE 6.7 1.3 35.8 0.9 7.3 14.4 5.0 22.3 6.1 IRLA 23.2 1.0 20.7 1.3 7.5 16.8 2.8 20.8 6.1 ITAL 15.9 0.6 27.6 0.5 10.0 18.1 1.6 20.1 5.7 LUXE 7.7 3.1 30.8 0.8 9.2 18.5 4.6 19.2 6.2 HOLA 6.3 0.1 22.5 1.0 9.9 18.0 6.8 28.5 6.8 INGL 2.7 1.4 30.2 1.4 6.9 16.9 5.7 28.3 6.4 AUST 12.7 1.1 30.2 1.4 9.0 16.8 4.9 16.8 7.0 FINL 13.0 0.4 25.9 1.3 7.4 14.7 5.5 24.3 7.6 GREC 41.4 0.6 17.6 0.6 8.1 11.5 2.4 11.0 6.7 NORU 9.0 0.5 22.4 0.8 8.6 16.9 4.7 27.6 9.4 PORT 27.8 0.3 24.5 0.6 8.4 13.9 2.7 16.7 5.7 ESPA 22.9 0.8 28.5 0.7 11.5 9.7 8.5 11.8 5.5 SUEC 6.1 0.4 25.9 0.8 7.2 14.4 6.0 32.4 6.8 SUIZ 7.7 0.2 37.8 0.8 9.5 17.5 5.3 15.4 5.7 TURK 66.8 0.7 7.9 0.1 2.8 5.2 1.1 11.9 3.2 BULG 23.6 1.9 32.3 0.6 7.9 8.0 0.7 18.2 6.7 CHEK 16.5 2.9 35.5 1.2 8.7 9.2 0.9 17.9 7.0 EALE 4.2 2.9 41.2 1.3 7.6 11.2 1.2 22.1 8.4 HUNG 21.7 3.1 29.6 1.9 8.2 9.4 0.9 17.2 8.0 POLO 31.1 2.5 25.7 0.9 8.4 7.5 0.9 16.1 6.9 RUMA 34.7 2.1 30.1 0.6 8.7 5.9 1.3 11.7 5.0 USSR 23.7 1.4 25.8 0.6 9.2 6.1 0.5 23.6 9.3 YUGO 48.7 1.5 16.8 1.1 4.9 6.4 11.3 5.3 4.0 TABLA DE DATOS EN % Fuente: Euromonitor(1979)

  38. COMPONENTES PRINCIPALES Eigenvalue Difference Proportion Cumulative PRIN1 3.48258 1.34997 0.386953 0.38695 PRIN1 3.48258 1.34997 0.386953 0.38695 PRIN2 2.13261 1.03443 0.236957 0.62391 PRIN2 2.13261 1.03443 0.236957 0.62391 PRIN3 1.09818 0.10331 0.122020 0.74593 PRIN3 1.09818 0.10331 0.122020 0.74593 PRIN4 0.99487 0.45132 0.110541 0.85647 PRIN4 0.99487 0.45132 0.110541 0.85647 PRIN5 0.54354 0.15683 0.060394 0.91686 PRIN5 0.54354 0.15683 0.060394 0.91686 PRIN6 0.38671 0.16198 0.042968 0.95983 PRIN6 0.38671 0.16198 0.042968 0.95983 PRIN7 0.22473 0.08803 0.024970 0.98480 PRIN7 0.22473 0.08803 0.024970 0.98480 PRIN8 0.13669 0.13661 0.015188 0.99999 PRIN8 0.13669 0.13661 0.015188 0.99999 PRIN9 0.00009 . 0.000010 1.00000 PRIN9 0.00009 . 0.000010 1.00000 CONTRASTES ENTRE LOS SECTORES DE OCUPACIÓN

  39. COMPONENTES PRINCIPALES ESPACIO DE 2 COMPONENTES

  40. Eigenfaces

More Related