1 / 16

ANALISIS MULTIVARIADOS (Definiciones

ANALISIS MULTIVARIADOS (Definiciones. Dr. Roberto Mercado Hernández, Laboratorio de Estadística, México. ANALISIS MULTIVARIADOS (Definiciones).

jody
Download Presentation

ANALISIS MULTIVARIADOS (Definiciones

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ANALISIS MULTIVARIADOS(Definiciones Dr. Roberto Mercado Hernández, Laboratorio de Estadística, México

  2. ANALISIS MULTIVARIADOS (Definiciones) Es la relación (función) entre más de dos variables, donde una de ellas se asume como dependiente de las demás. Es el grado de asociación entre más de dos variables, donde no hay una variable dependiente de las otras. Regresión y Correlación Es una técnica para estudiar las asociaciones entre dos conjuntos de variables. Ccorrelacionar simultaneamente varias variables dependientes y varias var. independientes Correlación canónica Consiste en la extracción de relaciones entre categorías y define similaridades o disimilaridades entre ellas, lo que permitirá su agrupamiento si se detecta que se corresponden. Correspondencia (A F C) Es una técnica estadística de síntesis de la información, o reducción de la dimensión (número de variables). Es decir, ante un banco de datos con muchas variables, el objetivo será reducirlas a un menor número, perdiendo la menor cantidad de información posible. Los nuevos componentes principales o factores serán una combinación lineal de las variables originales, y además serán independientes entre sí. Componentes principales R M H Es un conjunto de técnicas que se utilizan para clasificar los objetos o casos en grupos relativamente homogéneos llamados conglomerados (clusters). Los objetos en cada grupo (conglomerado) tienden a ser similares entre sí (alta homogeneidad interna, dentro del cluster) y diferentes a los objetos de los otros grupos (alta heterogeneidad externa, ente clusters) Análisis Cluster Es una técnica multivariante de clasificación de individuos, en la que se presupone la existencia de dos o más grupos bien definidos a priori (por ejemplo, ejemplares de la misma especie en dos localidades diferentes, clientes solventes y no solventes; votantes de uno u otro partido; compradores y no compradores de un producto; etc) Análisis Discriminante

  3. ANALISIS MULTIVARIADOS (Condiciones) En la relación de las variables independientes (todas con distribución normal), con la variable dependiente (también normal), se establece un error. Regresión En este análisis se ordenan los datos en una tabla disyuntiva completa (Z) que consta de un conjunto de individuos I=1,2,…n (filas), unconjunto de variables o caracteres cualitativos JI, …, JK,…, JQ (columnas) y un conjunto de modalidades excluyentes 1, …, mk para cada carácter cualitativo. Correspondencias (A F C) Los únicos requerimientos previos para la aplicación del ACP son: a) Continuidad en las variables. b) El número n de individuos o elementos observados debe ser mayor que el número p de variables originales. Por otra parte, el ACP tiene la ventaja de no exigir supuestos tales como la normalidad u homoscedasticidad. Componentes principales (ACP) R M H El AC es un objetivo metodológico para cuantificar las características de un conjunto de observaciones. Por ello, tiene fuertes propiedades matemáticas, pero no fundamentos estadísticos. Los requisitos de normalidad, linealidad y homocedasticidad (tan relevantes en otras técnicas), tienen poca consistencia en el AC. Análisis Cluster (AC) Es una técnica estadística de la rama del análisis multivariante, en la cual la variable dependiente es indicadora y no numérica como en el análisis de regresión. El modelo se construye basado en un set de observaciones para las cuales se conocen las clases. Este set de observaciones es algunas veces conocido como el training set. Análisis Discriminante

  4. ANALISIS MULTIVARIADOS (a considerar) Regresión Correlación Es importante analizar la magnitud, sigo y significancia de los coeficientes. Su valor indica el grado de asociación entre las variables. Es centrado y el centro de gravedad de las modalidades de una variable coincide con el del conjunto J, y con el origen, las modalidades de cada variable están centradas en torno al origen, no pudiendo tener todas el mismo signo. Correspondencias (A F C) Un aspecto clave en ACP es la interpretación de los factores, ya que ésta no viene dada a priori, sino que será deducida tras observar la relación de los factores con las variables iniciales (habrá, pues, que estudiar tanto el signo como la magnitud de las correlaciones). Componentes Principales Asignan los casos a grupos diferenciados que el propio análisis configura, sin que unos dependan de otros. No jerárquicos R M H Análisis Cluster Aquéllos que configuran grupos con estructura arborescente, de forma que clusters de niveles más bajos van siendo englobados en otros de niveles superiores. Jerárquicos La pertenencia de cada caso del archivo patrón a uno u otro grupo, en función de las variables de su perfil, para comprobar su pertenencia. Explicar Análisis Discriminante A qué grupo más probable habrá de pertenecer un nuevo individuo del que únicamente se conoce su perfil de variables. Predecir

  5. ANALISIS MULTIVARIADOS (Ecuaciones) Regresión Regresión múltiple Y= a0 + a1X1 + a2X2 + …. + apXp +ε Correspondencias (Inercia = variación explicada) Inercia total Inercia debida a la modalidad J Inercia debida a una variable Componentes principales R M H Primer componente principal Z1i = u1iX1i + u2iX2i + …. + u1pXpi Análisis Cluster Fórmula de Lance y Williams Dk(ij) = αiDki + αjDkj + βDij + γ│Dki - Dkj│ Análisis Discriminante Función discriminante de Fisher D1i = u1iX1 + u2iX2 + …. + ukiXk

  6. EJEMPLO DE REGRESION Y CORRELACION MULTIPLE R M H Variables no significativas

  7. EJEMPLO DE CORRELACION CANONICA R M H The canonical correlation measures the association between the discriminant scores and the groups.

  8. EJEMPLO DE CORRSPONDENCIAS Frecuencias de pupas y larvas de dos especies encontradas en cadáveres en dos localidades. Resultados del análisis de correspondencias R M H X2 = 19.11 gl = 9 p < 0.05 Inercia total = 0.0028 Los primeros dos eigenvalues comprenden el 95.5% de la inercia

  9. 0.2 7 2 0.05 4 0.01 Coordenada 2 3 0.0 8 R M H 5 -0.001 6 1 -0.002 -0.01 0.0 0.1 0.2 0.3 0.4 Coordenada 1

  10. EJEMPLO DE COMPONENTES PRINCIPALES R M H

  11. EJEMPLO DE COMPONENTES PRINCIPALES (Localidad 1) R M H

  12. R M H % of Variance = 94.84 in Component 1 l. pico Localidad 2 Localidad 3

  13. EJEMPLO DE ANALISIS CLUSTER R M H

  14. EJEMPLO DE ANALISIS DISCRIMINANTE R M H

  15. R M H

  16. LITERATURA • Everitt, B. S. and Graham Dunn, 2001. Applied Multivariate data Analysis, Edt. ARNOLD • Gnanadesikan, R., 1997. Methods for Statistical Data Analysis of Multivariate Observations, JOHN WILEY & SONS, INC. • Johnson R. A. and Dean W. Wichern, 2002. Applied Multivariate Statistical Analysis, PRENTICE HALL. • Kachigan, S. K., 1991. Multivariate Statistical Analysis, RADIUS PRESS, NY. • Hair J. F., R. E. Anderson, R. L. Tatham y W. C. Black, 1999. PRENTICE HALL. • Kleinbaum, D. G., L. L. Kupper, K. E. Muller and A. Nizam, 1998. Applied Regression Analysis and Other Multivariate Methods, DUXBURY PRESS.

More Related