1 / 96

David R. González Barreto Universidad de Puerto Rico

David R. González Barreto Universidad de Puerto Rico. Análisis Multivariado de Datos (MVDA ), un enfoque aplicado ( gráfico - geométrico ), y sus Aplicaciones en Umetrics. Motivación.

Download Presentation

David R. González Barreto Universidad de Puerto Rico

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. David R. GonzálezBarreto Universidad de Puerto Rico AnálisisMultivariado de Datos (MVDA),un enfoqueaplicado (gráfico-geométrico),y susAplicaciones en Umetrics

  2. Motivación • La habilidad de capturardatoshacetiempo le vieneganando la carrera a la habilidad de obtenerinformaciónsignificativa de estosdatos. • Es necesariohaceruso de herramientasanalíticasadecuadasqueextraiganinformaciónsustantiva de grandes bases de datos.

  3. Motivación • Existen muchas situaciones (típico de PAT) en donde es necesario la medición y/o monitoreo simultáneo de múltiples variables de proceso o de calidad. • El monitoreo independiente de estas características puede llevarnos a decisiones erróneas con respecto al estado del proceso o producto.

  4. Motivación • Si m pruebas independientes univariadas son realizadas, cada una con probabilidad α de cometer el Error Tipo I, la probabilidad global de cometer este error para todas las pruebas está dado por: αglogal = 1 – (1 – α )m Ejemplo: 10 pruebas con α = 0.05 αglobal= 1 – (1 - 0.05)10 αglobal= 1 – 0.5987 = 0.4013

  5. Estructurade Correlación Univariados Control para dos variables Intro PCA E -PCA PLS E - PLS Q Chart MVDA - DRGB – Septiembre 2011 [5]

  6. Estructura de Datos VARIABLES K OBSERVACIONES, OBJETOS, MUESTRAS, CASOS, ÍTEMS N

  7. Tipos de ProblemasBásicos • Visión general de los datos (data overview) • Clasificación y/o discriminación entre grupos de observaciones • Regresión y modelaje entre dos bloques de datos (X y Y)

  8. Tipos de ProblemasBásicos Clasificación y/o discriminación entre grupos de observaciones Regresión y modelaje entre dos bloques de datos (X y Y) Visión general de los datos I II III X • X • Y PCA PCA PLS

  9. Técnicas Multivariadas Datos del Proceso X Datosde Calidad, Productividad Y Temperatura, Presión, Velocidad, Nivel de fluido, Ph, concentración, rendimiento, ……, Peso, Dureza, Grosor, Potencia, Presión, Velocidad, Content Uniformity, Disolución, …… Existen Técnicas para: Explicar la variación en X ó Y (PCA) - mientras maximiza la Varianza (X) ó (Y) Explicar la variación en X eY yla relación entre X e Y (PLS) - mientras maximiza la Covarianza (X ,Y)

  10. Principio de Proyecciones • Las bases de MVDA pueden ser delineadas en términos de la geometría de espaciosmultidimensionales. • Los datosmultivariados y susmodelospuedenrepresentarsecomopuntos, líneas, planos e hiperplanos en éstosespaciosmultidimensionales.

  11. Principio de Proyecciones Supongaque K = 3, estoesexisten 3 variables. Cadaobservaciónpuede ser representada en un conjunto de ejes, un espacio tridimensional

  12. Principio de Proyecciones El principio de representarcadaobservacióncomo un punto en el espacio multidimensional haceposibleconvertirunatabla de datos en unarepresentacióngráfica. Todaslasobservaciones de X se desplegan en el espacio de dimensión K, comounanube de puntos. En estagráfica se presentan 20 observaciones.

  13. Principio de Proyecciones • El análisis de datoscorresponde a formularunadescripcióncuantitativa de la forma de la nube de puntos. Este modelopuede verse comounaventanaen el espacio tridimensional. • Estaventana se orienta de forma talqueproveeunavisión general de los datos y permitesuinterpretación. • El principio detrás de estaconverisón se conocecomoproyección. • La proyecciónlogradisminuir el espacio tridimensional original en un espaciobidimensional(la ventana). Examinando la posición de cadaobservación en la ventanaobetenemosunavisión general de los datos.

  14. Principio de Proyecciones • El principio de proyeccionespuede ser matemáticamenteextendedido a cualquiernúmero de variables en el espacio K. • Ejemplo: el archivo FOODS, suministradoporUmetrics, es un ejemplodondetenemos 16 observaciones (N) paracadauna de 20 variables (K, K > N, imposibleusarregresión). El objetivo del estudioes el de investigarpatrones de consumoalimenticio en paiseseuropeos.

  15. Principio de Proyecciones Base de Datos – FOODS.xls

  16. Principio de Proyecciones • K (20) > N (16) • Cadauna de las 16 observaciones (países) se convierte en un punto de la nube de puntosen el espacio de veintedimensiones. • Este espaciopuedereducirse a muchasmenosdimensionesextrayendo la informaciónsustancial de los datos, proyectandocadaobservación en la ventana. • Note como los paísesnórdicos se agrupan en la parte superior. • Estaes la escencia de la metodología de PCA.

  17. Ejemplo FOODS Ejemplo Foods: Score Plot Ejemplo Foods: Loadings Plot

  18. Ejemplo FOODS Ejemplo Foods: Distance to Model: DMODX No se observanoutliers, todos los países se ajustanbien al modelo

  19. Principal Component Analysis PCA

  20. ComponentesPrincipales-PCA • PCA es un método para crear combinaciones lineales de las características originales que son ortogonales; a estas combinaciones se le llama los componentes principales (PC). • Los PCs, a través de las combinaciones lineales independientes intentan contienen la mayoría de la variabilidad de las características originales.

  21. PCA • PCA se utiliza para encontrar las estructuras de correlación entre las múltiples variables. • La idea es encontrar un puñado de variables no correlacionadas, que son combinaciones lineales de las variables originales, que contengan la mayoría de la variabilidad de éstas. Por esta razón, se le conoce como una técnica de reducción de dimensiones.

  22. DatosMultivariados Matriz de Datos: • Las filas corresponden a las unidades experimentales y las columnas a las características • p: número de características consideradas • n: número de unidades experimentales • Xrj: valor de la característica j en la unidad experimental r donde r = 1,2,…,n and j = 1,2,…,p.

  23. PCA Si p variables son consideradas, existen p PCs: PC1= α11X1 + α12X2 + … + α1pXp PC2= α21X1 + α22X2 + … + α2pXp : : PCp= αp1X1 + αp2X2 + … + αppXp

  24. PCA • El primer PC contiene la mayor proporción de la variabilidad. • El segundo PC contiene la segunda mayor proporción de la variabilidad, así sucesivamente….

  25. 3 2 1 0 X2 -1 -2 -3 -4 -4 -3 -2 -1 0 1 2 3 4 X1 PCA Dos ComponentesPrincipales PC1 PC2

  26. PCA Matriz de Covarianza: σii = Var(Xi) parai = 1,2,…,p σij = Cov(Xi,Xj) parai ≠ j = 1,2,…,p

  27. PCA Coeficiente de Correlación: ρij = coeficiente de correlación entre Xi and Xj para i ≠ j = 1,2,…,p. -1 ≤ ρij ≤ 1 para cada i ≠ j

  28. PCA Matriz de Correlación: ρij = coeficiente de correlación entre Xi and Xjfor i ≠ j = 1,2,…,p.

  29. PCA Simca – realizaestepretratamiento pordefault Centralización y Varianza Unitaria Tomado de: IBS Caribe,Inc. presentationonChemometrics Interpretaciónde Centralización Tomado de: IBS Caribe, Presentation on Chemometrics and Multivariate Model Development.

  30. PCA • Estandarización de los datos: necesaria para tener las variables en unidades comparables (codificación). • A esta estandarización se le conoce como “Standard Normal VariateTransformation” o “SNV correction” en pre-tratamiento espectral.

  31. PCA DatosEstandarizados: son el promedio y desviaciónestándar de cada variable paratodaslasobservaciones.

  32. PCA Matrix de DatosEstandarizados: Las filascorresponden a lasunidadesexperimentales y lascolumnas a lascaracterísticas

  33. PCA • Las variables deben ser estandarizadas si son medidas en escalas muy diferentes o si sus varianzas difieren siginificativamente. • Usar la matriz de correlación para calcular los componentes principales PC’s es equivalente a estandarizar los datos. • La matriz de covarianza se utiliza cuando no es necesario estandarizar los datos.

  34. PCA • Los componentesprincipales de un conjunto de variables del proceso x1, x2, ….., xp, son unascombinacioneslinealesparticulares de estas variables. z1 = c11x1 + c12x2 + … + c1pxp z2 = c21x1 + c22x2 + … + c2pxp : : : zp = cp1x1 + cp2x2 + … + cppxp

  35. PCA • Cij’s son constantes que se obtienen de los vectores propios (eigenvectors). • Las variables de los componentes principales z1, z2, …., zp son los ejes de un nuevo sistema de coordenadas que se obtienen de rotar el sistema original de ejes (basado en las x’s). • Los nuevos ejes representan las direcciones de máxima variabilidad.

  36. PCA • Encontrar los cij’s es relativamente fácil. • Si las variables x1, x2, …, xp se representan con un vector x con matriz de covarianza Σ y los valores propios (eigenvalues) de Σ son λ1> λ2> …. λp> 0. • Entonces las constantes cij’s son los elementos del “eigenvector” i asociados con el “eigenvalue” i. • La varianza del componente principal i es el “eigenvalue” i, λi. • La proporción de la variabilidad explicada por el componente principal i está dado por:

  37. PCA • Encontrar los cij’s es relativamente fácil. • Si las variables x1, x2, …, xp se representan con un vector x con matriz de covarianza Σ y los valores propios (eigenvalues) de Σ son λ1> λ2> …. λp> 0. • Entonces las constantes cij’s son los elementos del “eigenvector” i asociados con el “eigenvalue” i. • La varianza del componente principal i es el “eigenvalue” i, λi. • La proporción de la variabilidad explicada por el componente principal i está dado por: Intro PCA E -PCA PLS E - PLS Q Chart MVDA - DRGB – Septiembre 2011 [37]

  38. PCA • Los vectores propios (eigenvectors) proveen los coeficientes para los PC’s: • PC1 = α11Z1 + α12Z2 + … + α1pZp • Los valores propios (eigenvalues) corresponden a las varianzas de los PC’s. • λ1, λ2, …, λp • La suma de las varianzas de las variables originales es igual a la suma de las varianzas de los PC’s.

  39. Geometría de PCA

  40. Geometría de PCA

  41. PCA ¿Cuantos PC’s? • “ScreePlot” – “estado estable” • Porcentaje de la Varianza • Criterio: Eigenvalues > 1 – Matriz de Correlación

  42. PCA Figure 7: “Scree Plot” (Matriz de Covarianza)

  43. PCA ¿Cuantos PC’s? • Porcentaje de la varianza • Puededecidirmantener los PCs queexpliquen el 85% de la varianza, porejemplo.

  44. PCA ¿Cuántos PC’s? Criterio Eigenvalue > 1: los eigenvalues son las varianzas de los PCs; por lo tanto , cuando usamos variables estandarizadas (matriz de correlación), se pueden considerar todos los PCs cuyo eigenvalue sea mayor de 1. ScreePlot (Matriz de Correlacion)

  45. PCA Tradeoff entre el número de componentes y el “overfitting” R2 – goodness of fit Q2 – goodness of prediction

  46. Pasos en PCA • Seleccione las variables para el análisis. • Decida si utilizara datos estandarizados, o, • Seleccione la matriz a utilizarse: matriz de covarianza ∑ o matriz de correlación P. • Determine el numero de PCs significativos. • Interprete los PCs (cuando sea posible). • Use los PCs estudios futuros.

  47. PCA • “Scores plots”: • Muestralasobservationesproyectadas en el hiper-planocreadopor los PCs. • Muestra un resumen de la relacion entre lasobservaciones. Score Plot

  48. PCA • Loadingsplots: • Muestra la relación entre distintas variables. • Los “loadings” son los pesos que combinan las variables originales para obtener los scores. • Geométricamente, representan la dirección de los PCs. • La dirección del plano de proyección provee información sobre la importancia de las variables.

  49. PCA Loading Plot

  50. PCA - Ejemplo Escuela % de Retención GPA_ESP GPA-ING GPA-MAT T_PromedioProportion A 0.909091 3.03502 3.06276 2.10736 5.113 0.714571 B 0.869010 3.02640 2.93806 1.99109 5.335 0.678788 D 0.864078 2.85926 2.78610 1.79392 5.345 0.674847 E 0.849829 3.23867 3.11757 2.23159 5.525 0.689655 F 0.824074 2.81570 2.71528 1.81269 5.742 0.603896 H 0.819788 3.24921 3.36993 2.42833 4.822 0.743590 A 0.818750 2.66353 2.58026 1.81161 5.523 0.542857 I 0.786806 2.71901 2.59216 1.63373 5.625 0.536278 J 0.786301 2.70699 2.89389 1.72668 5.566 0.515789 K 0.737864 2.80734 3.12958 2.01135 5.636 0.578947 L 0.644776 2.34304 2.28070 1.36698 5.954 0.393939

More Related