RESIDUALES DE LA REGRESIÓN

RESIDUALES DE LA REGRESIÓN BIOMETRIA II 10-O

Residuales En la regresión • Definición • Es la diferencia entre el punto Observado y el predicho por el modelo de la regresión (Y^ - Y)

Interpretaciones(formas de verlo) • Es aquello que no es explicado por el modelo de regresión • Son considerados el error de observación es por eso que se llama el error en el ANOVA.

Propiedades de los Residuales • Σ Ri = 0 • Ri ~ N (0,δ) • Pero si esto último no se da entonces los residuales manifiestan situaciones particulares en la que NO se cumplen algunos de los supuestos

Forma de análisis • El análisis de residuales se puede llevar a cabo gráficamente o en forma analítica. • Distribución Normal • Igualdad de las varianzas • Independencia de las observaciones.

1.- Distribución normal • El NCSS preseta cinco diferntes pruebas numéricas para la normalidad de los residuales. Las pruebas de Shapiro-Wilk y Anderson-Darling son normalmente considerados las mejores. • Desafortundamente , estas pruebas tienen poca potencia (probabilidad de detectar datos nonormales. A menos de que el tamaño de la muestra sea grande, digamos arriba de 300. Por tanto si la decisión es rechazar la normalidad , se puede tener una buena certeza de que los datos no son normales. Sin embargo, si la decisipon es no rechazar , la situación es no clara, pero si se tienen más de trescientos datos se puede asegurar que los datos siguen distribución normal. • En caso de grupos pequeños de datos

Shapiro-Wilk W Test • Esta Prueba de normalidad, desarrollada por Shapiro and Wilk (1965), ha sido descrita como la más poderosa prueba en muchas situaciones. Esta es el cociente de dos estimados de la varianza de una distribución normal basado en una muestra aleratoria de N observaciones. El numerador es proporcional al cuadrado del mejor estimador lineal de la desviación estandar. El denominador es la suma de cuadrados the las observaciones de la media de la. W puede ser escrita como el cuadrado del coeficiente de correlación de Pearson entre las observaciones ordenadas y el un grupo de “pesos” que son usados para calcular el numerador Debido a que los pesos son asintoticamente proportcional al correapondiente orden Normal, W is aproximadamente una medida de la rectitud de la distribución normal quantil-quantil. Mientras mas cerca esta W a uno, más normal es la muestra. • Las medidas de W son válidas para muestras de 3 a 5000.

Prueba deAnderson-Darling • Esta prueba, desarrollada por Anderson and Darling (1954), esta basada en la estadistica EDF. En algunas situaciones se ha encontrado que es tan potente como la prueba de Shapiro-Wilk . • La prueba no se calcula cuand se especifica una una tabla de frecuencia.

Prueba D’Agostino para el Sesgo • D’Agostino (1990) propuso una prueba de normalidad basada en el coeficiente de sesgo. Debido que la distribución es simétrica el estadistico es igual a cero para una distribución normal. Por tanto, una prueba puede hacerse si el valor es significativamente diferente de. Si lo es los datos son obviamente nonormal. El estadístico es, bajo la hipótesis nula de normalidad, distribuida aproximadamente normal. El cómputo de esta estadística esta a tamaños de muestra mayores de 8.

Prueba D’Agostino para la Curtosis • D’Agostino (1990) propuso otra prueba de normalidad, pero basada en el coeficiente de Curtosis. Para la Distribución normal el valor teórico es 3. Por lo tanto, una prueba puede ser hecha para determinar si el valor es significativamente diferente de 3. Si lo es, los residuales obviamente no son Normales. La priueba estadística es bajo la hipótesis nula de normalidad, aproximadamente para tamaños de muestra N > 20.

Prueba Omnibus D’Agostino • D’Agostino (1990) Propone una prueba mas que combina las dos pruebas anteriores (sesgo y Kurtosis) proposed a normality test that combines the tests for skewness and kurtosis. The statistic, , is approximately distributed as a chi-square with two degrees of freedom.

Sesgo y Curtosis Sesgada (negativa) Normal Leptocúrtica Platiocúrtica

Ejemplo • 1.- Para realizar un manejo de pastizales se realizó un experimento de quema controlada en diferentes parcelas, doce en total, el fuego se mantuvo durante diferentes tiempos y después se extinguió con agua. Posteriormente se midió el contenido de materia orgánica en un espacio de un metro cuadrado de cada parcela. Se pretendía predecir el contenido de materia orgánica en fuegos de duración media. Determine y presente el modelo completo y diga si cumple o no los supuestos de la regresión.

Grafica

Gráfica para probar normalidad

2. Homogeneidad de la varianza de los residuales • La regresión lineal asume que los residuales tienen varianza constante (para cada valor de x) La validez de este supuesto puede ser probada usando la prreba de Levine modificada o bien usando la gráfica de residuales vs la variable explicativa.

Prueba modificada de Levene • La prueba modificada de Levene puede ser usada para evaluar la validez del supuesto de la homogenidad de varianzas. Ha probado ser una prueba confiable aún y cuando los residuales no siguen la distribución normal. • La prueba se construye agrupando los residules de acuerdo a los valores de X. El número de grupos es arbitrario sin embargo usualmente, dos grupos son usados . En este caso el valor absoluto de los residulas con bajos valores de X se compara con otro grupo con altos valores de X. Si la variabilidad es constante la varioabilidad de estos grupos debe ser igual en estos grupos

Constant Variance • Los errores se suponen constante a lo largo de los diferentes valores de X si se tiene un grupo de datos grande (N > 100), la homogeneidad de la varianza puede ser detectada en la gráfica de los residuales contra X, sin embargo la herramienta más importante es la gráfica de los varlores absolutos de los residuales vs X. Frecuentemente el supuesto es violado porque la varianza se incrementa con X, mostrando un esquema como de Megáfono

Grafica de R vs X

Residuales Absolutos Vs X

Residuales mostrando tendencias cuadráticas

3 – Independencia de los Errores • Las Y’s, y sus errores, se asumen como independietes. Este supuesto es usualmente ignorada (porque es muy poco lo que se puede hacer ) a menos de que se tenga una Razón suficientemente fuerte para consider que es violada, como cuando las observaciones fueron tomadas en el tiempo. Una forma fácil de evaluar este supuesto es usar el diagrama de los residuales vs la secuencia de su numero (asumiendo que los data estan arreglados en secuencia de tiempo). Si no hay “correlación Serial esta rafica debe mostrar un patron relativamente al azar.

Gráfica de correlación serial

Gráfica sin correlación serial

Durbin-Watson • LA prueba de Durbin-Watson es usada como una prueba formal (numérica) de la presencia de correlación serial de primer orden. Autocorrelaciones grandes son encontradas probando las llamadas transformaciones de Fisher, pero son raras en Biología.

Efectos • Si la independencia es violada, los intervalo de confianza y pruebas de hipótesis son erroneos. Algunos métodos remediales que ayudan con esta falta de independencia deben ser adoptados. Tal como la técnica de usar las primeras diferencias o el procedimiento de Cochrane-Orcutt.

Residuales de Influencia

Explicación • Otra utilidad de los residuales es el poder determinar la influencia de los datos y los llamados outliers o valores disparados. • Para esto se desarrollan varias estadísticas (en esta clase veremos las que proporciona el NCSS)

Gráfica con valores disparados

Estadisticas que determinan la influencia • Dffits es la diferencia estandarizada entre el valor predicho de Y con y sin observación j. Este representaque el valor predicho el numero de los errores estandar estimados que cambia si las observacion es omitida. Dffits > 1 marcaran las observaciones que tienen una alta influencia en la predicción.

Cook’s D • intenta medirla influencia de una observación en todos los N valores fijos.. The formula for Cook’s D is • Dj = Σ wj [ỹj - ỹj(i) ]2/ps2 • Las ỹj(i) son encontradas removiendo la observación i antes de los cálculos. Una Cook’s D de valor mayor a 1 indica una observación con gran influencia. Algunas veces algunos estadísticos han sugerido. Que la mejor cota es 4 / (N - 2).

DFBETAS(1) • DFBETAS(1) es el cambio estandarizado de la pendiente cuando la observación es omitida del analisis. Belsley, Kuh, y Welsch (1980) recomiendan usar un corte de 2/√N cuando N es mayor que 100. Cuando N es menor se ha sugerido usar 1 o 2 del valor absoluto.

Residuales

Sección de dejar un renglon fuera

RESIDUALES DE LA REGRESIÓN