1 / 36

Técnicas estadísticas multivariantes: ordenación

Técnicas estadísticas multivariantes: ordenación. Ejemplo Supongamos 3 muestras (A1, A2, A3) con 2 spp. (x, y) y quiero visualizar las relaciones de similitud entre las 3 muestras. Y. Espacio bidimensional. A3. A1. A2. X. Supongamos 3 muestras (A1, A2, A3) con 3 spp. (x, y, z). Z.

Download Presentation

Técnicas estadísticas multivariantes: ordenación

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Técnicas estadísticas multivariantes: ordenación

  2. Ejemplo Supongamos 3 muestras (A1, A2, A3) con 2 spp. (x, y) y quiero visualizar las relaciones de similitud entre las 3 muestras Y Espacio bidimensional A3 A1 A2 X

  3. Supongamos 3 muestras (A1, A2, A3) con 3 spp. (x, y, z) Z Espacio tridimensional A1 A3 X A2 Y Si > 3 especies (variables) – se complica¡; hay alguna forma de reducir la “dimensionalidad” a algo palpable (2-3 dimensiones), pero relevante e interpretable?

  4. P.e. quiero conocer cómo una comunidad de 40 spp. responden a un impacto; podría hacer 40 tests…pero, con propósito de “condensar” información, preciso de técnicas que cuantifiquen la respuesta “global” (“a nivel de comunidad”, que incorpore los 2 atributos de la biodiversidad: composición y abundancia de las especies) Técnicas multivariantes Testar hipótesis en el contexto multivariante: “a nivel de comunidad” Visualizar tendencias y patrones “globales”

  5. ¿Qué son técnicas estadísticas multivariantes? Herramientas que nos permiten el estudio de cómo múltiples variables dependientes u objetos (como p.e. conjuntos de especies = comunidades) responden a múltiples variables independientes y/o tratamientos procurando reducir la dimensionalidad de los datos a aquellas dimensiones (“gradientes ambientales”) relevantes

  6. Técnicas multivariantes: se basan en matrices Matriz de variables dependientes

  7. b a a b b a c c c Técnicas multivariantes: filosofía general muestras especies matriz triangular de similitudes ordenación Ordenación multivariante son formas de explorar/visualizar las relaciones de similitud entre muestras/tratamientos/factores

  8. Ordenación Conjunto de técnicas exploratorias, visualización de patrones – no permiten contraste hipotético Objetivo ordenación: buscar gradientes (ejes o componentes) que explican la mayor variabilidad en la matriz de datos: reducir la dimensionalidad a 2-3 ejes que nos explican la mayor parte de la variabilidad en las muestras/especies

  9. Medidas de disimilitud: el comienzo de todo P.e. Matriz abundancia, biomasa, % cobertura, un perfil de ácidos grasos “Distancia ecológica” entre cada par de muestras: algoritmo que cuantifique la magnitud de las diferencias Matriz triangular de distancias/similitudes/disimilitudes

  10. Medidas de disimilitud  Idea: Si 2 muestras son iguales su similitud es del 100% = disimilitud máxima, distancia ecológica = mínima • Existen muchos tipo de “distancias” y/o “índices de disimilitud”; depende de tipo de datos y objetivo (consultar literatura); • Clarke et al., 2006, On resemblance measures for ecological studies, including taxonomic dissimilarities and a zero-adjusted Bray-Curtis coefficient for denuded assemblages." J Exp Mar Biol Ecol 330: 55-80 •  Dista. euclidiana; Dij =  (yik – yjk)2 (no tiene límite superior¡) muestras 1 2 3 1 2 3 1 especies 2 3

  11. Disimilitud de Bray-Curtis  “Ratio” con límite superior: 0 < d < 1; podemos interpretarlo como “porcentaje de diferencias”, en un contexto ecológico  Refleja tanto cambios en abundancias relativas como en composición, en un contexto ecológico  ¿Es la mejor? No, todo depende de nuestros datos y lo que queremos enfatizar: diferencias en composición (e.g. presencia/ausencia) o abundancia. Recomiendo “jugar” con los datos siempre que usemos una lógica basada en criterios de juego establecidos en la literatura

  12. Pero antes…trasformación de los datos brutos Datos brutos (matriz original) Trasformación Matriz de distancias/disimilitudes Objetivo: controlar el “peso” de las variables/spp.

  13. Ejemplo de trasformación Forma de controlar especies muy abundantes que pueden “distorsionar” patrones No Ejemplo Datos brutos Ö (X + 1) ÖÖ (X + 1)

  14. Estandarización  Cuando las variables tienen distintas unidades¡ no mezclo peras con limones¡  La más típica: divido cada valor(Xij) entre el total o máximo de cada variable (Xj)…aunque hay gente que “estandariza” siguiendo otros criterios Cualquier software permite multitud de estandarizaciones y/o trasformaciones previas en análisis de datos (lo vemos en las prácticas)

  15. Resumiendo: previo a ordenación/clasificación Matriz datos brutos Estandarizados Trasformados Matriz de disimilitudes

  16. PCA (Análisis de Componentes Principales)

  17. Volvamos a lo que vimos antes: 4 objetos (muestras) con 3 variables A1 A2 A3 A4 Si p > 3 variables – se complica el tema; hay alguna forma de reducir la “dimensionalidad” de los datos (esa nube de datos en el espacio p-dimensional) a algo palpable (2-3 dimensiones), pero q sea relevante e interpretable?

  18. Es decir: Reducción de dimensionalidad = Busco eje relevante explicando la variabilidad de los datos A1 A3 A2 A4 Reducción de la dimensionalidad (común a todas las técnicas de ordenación) A1 A2 Ai A4 A3 GRADIENTE LATENTE

  19. PC1 es como un laser que pasa por el centro de una nube de globos (objetos); ese PC1 corre a lo largo del eje que explica la mayor variabilidad de los datos

  20. PCA: ¿cómo actúa?  PCA (1eo) busca y (2do) rota los ejes en ese espacio “n-dimensional” a posiciones tal que el primer eje (PC 1) sea la que explique (acumule) más variabilidad, el PC 2 el siguiente que explica más variabilidad y así sucesivamente hasta el último eje (PC p); pero ejes están no correlacionados  PCA usa distancias euclidianas calculadas de las “p” variables como medida de similitud entre los “n” objetos  PCA deriva la mejor representación k dimensional (k<p) de las distancias euclidianas entre objetos. Por sencillez, k =2 ó 3 ejes

  21. PCA, es decir:  PC1 es pues la dirección de máxima varianza en ese espacio p-dimensional; PC2 es la dirección de la siguiente mayor varianza, siendo su correlación de 0 con PC1, y así sucesivamente…  Cada eje explica cierta cantidad de la varianza (variabilidad) total): lo importante es que esos ejes se corresponden generalmente con gradientes ambientales¡…pero no sabemos cuál: es una técnica de análisis indirecto de gradiente = debemos usar nuestra intuición/conocimiento para explicar los patrones

  22. PCA: ventajas e inconvenientes Pros: útil para visualizar/reducir variables que tienen relaciones lineales con los ejes Contras: no sirve como método de ordenación, en especial si tenemos muchas especies, q generalmente muestran respuestas tipo gaussiana (no lineales) a gradientes ambientales (q son generalmente esos ejes PC1 y PC 2)

  23. PCA: inconveniente “efecto herradura” “Efecto herradura” en el espacio bidimensional: no se observa el gradiente correctamente; las que deberían aparecer más separadas a lo largo del gradiente aparecen cerca. Si nos puede servir cuando las variables muestran relaciones lineales con PC1 y PC2 Pregunto: ¿Qué casos?

  24. nm-MDS (non metric-multidimensional scaling) MDS a secas…

  25. (ii) nm-MDS (non metric-multidimensional scaling) nm-MDS usa el rango en las similitudes entre objetos (p.e. muestras) para ordenarlas en el espacio de ordenación A1 está más cerca de A2 q A3, a continuación A1 y A3 y así sucesivamente

  26. nm-MDS intenta colocar las muestras en un espacio bi- o tri-dimensional manteniendo ese orden de rangos: En este ejemplo… A1 está más cerca de A2 q A3 A3 A2 A1 Seguidamente, compara las distancias en el espacio 2-3 dimensional con el orden de rangos en la matriz de disimilitudes y vuelve a ordenar = proceso iterativo¡

  27. Consecuentemente, el nm-MDS no puede representar todas las relaciones de disimilitud de forma precisa en el espacio de ordenación: cometemos un error¡

  28. Stress = forma de evaluar la “calidad” del nm-MDS Como criterio general: 0.0: perfecto; 0.1: bastante decente; 0.2: ok; 0.3 : chungo de interpretar . . . . . . . . . Disimilitudes en la matriz . . . . . . . . . . . Distancias en el nm-MDS Diseño experimental y análisis estadístico: su aplicación en biología marina

  29. nm-MDS: ventajas e inconvenientes Pros: no se ve afectado por respuestas no lineales de las especies¡ Resuelvo el problema que vimos con PCA. Puedo trabajar con cualquier medida de disimilitud (que elijo según las peculiaridades de los datos). Esto hace que sea la técnica predilecta en ecología, donde los datos generalmente se “comportan mal” (respuestas no lineales, muchos 0s, etc.). Es una técnica, consecuentemente, muy robusta (p.e. no le afecta “outliers”= valores atípicos) Contras: si el “stress” es alto puedo hacer una interpretación dudosa / errónea de los verdaderos patrones. Trabajo con rangos y no con disimilitudes absolutas, eso impide que pueda saber el % de variabilidad explicado por cada eje

  30. Pregunta del millón ¿Existe alguna técnica que no se vea muy afectada por respuestas no lineales de las especies (puedo trabajar con cualquier medida de disimilitud en función de las peculiaridades de los datos), pero que no trabaje con rangos sino con verdaderas disimilitudes (que preserve disimilitudes entre muestras/tratamientos, etc.? Diseño experimental y análisis estadístico: su aplicación en biología marina

  31. PCO (Principal coordinates analysis) Diseño experimental y análisis estadístico: su aplicación en biología marina

  32. (iii) PCO (Principal coordinates analysis) Denominado “MDS métrico” (usa verdaderas disimilitudes, no rangos); puedo saber el % de variación explicada por cada eje (componente). Al igual que el PCA, el 1er eje (componente o PCO 1) explica la mayor variabilidad, el segundo (PCO 2), la segunda mayor cantidad de variabilidad y así sucesivamente. % Variabilidad total acumulada Ejes PCO  Al igual que nm-MDS, la relación entre las variables y los ejes NO es lineal Diseño experimental y análisis estadístico: su aplicación en biología marina

  33. PCO vs. nm-MDS: ¿qué diferencias específicas hay?  PCO mantiene las disimilitudes mientras que el nm-MDS preserva el orden de rangos de las disimilitudes; eso hace que no sea tan robusto a datos “que se comportan mal”  En la práctica los resultados del PCO son siempre parecidos al nm-MDS, si los datos no se comportan “extremadamente mal”. La ventaja del PCO es que los ejes tienen significado y explican una cierta cantidad de la variabilidad total Diseño experimental y análisis estadístico: su aplicación en biología marina

  34. PCO: ejemplo Diseño experimental y análisis estadístico: su aplicación en biología marina

  35. PCO: ventajas e inconvenientes Pros: trabajo con verdaderas disimilitudes (no con rangos como nm-MDS), puedo saber el % de variabilidad explicado por casa eje. Puedo seleccionar cualquier medida de disimilitud, según el tipo de datos Contras: Si los datos se “portan muy mal” (muchos 0s, “outliers”; es decir, lo que ocurre en ciertas ocasiones), es sensible: no es tan robusto como su “primo hermano” el nm-MDS Diseño experimental y análisis estadístico: su aplicación en biología marina

  36. Cuidadín, cuidadín  PCA/nm-MDS/PCO son técnicas de visualización de patrones: no permite contraste de hipótesis  Necesidad de un test para contrastar las diferencias entre grupos que acompañe a una técnica de visualización de patrones Diseño experimental y análisis estadístico: su aplicación en biología marina

More Related