Curso de bioestad stica parte 16 regresi n lineal
Download
1 / 36

Curso de Bioestad - PowerPoint PPT Presentation


  • 120 Views
  • Uploaded on

Curso de Bioestadística Parte 16 Regresión lineal. Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud e Ingenierías Campus Celaya-Salvatierra Universidad de Guanajuato México. Presentación.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Curso de Bioestad' - Lucy


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Curso de bioestad stica parte 16 regresi n lineal

Curso de BioestadísticaParte 16Regresión lineal

Dr. en C. Nicolás Padilla Raygoza

Departamento de Enfermería y Obstetricia

División Ciencias de la Salud e Ingenierías

Campus Celaya-Salvatierra

Universidad de Guanajuato México


Presentaci n
Presentación

  • Médico Cirujano por la Universidad Autónoma de Guadalajara.

  • Pediatra por el Consejo Mexicano de Certificación en Pediatría.

  • Diplomado en Epidemiología, Escuela de Higiene y Medicina Tropical de Londres, Universidad de Londres.

  • Master en Ciencias con enfoque en Epidemiología, Atlantic International University.

  • Doctorado en Ciencias con enfoque en Epidemiología, Atlantic International University.

  • Profesor Asociado B, Facultad de Enfermería y Obstetricia de Celaya, Universidad de Guanajuato.

  • [email protected]


Competencias
Competencias

  • Conocerá como trazar una línea de regresión

  • Sabrá como probar hipótesis acerca de la línea de regresión

  • Sabrá como realizar un análisis ANOVA


Introducci n
Introducción

  • Cuando se piensa que una variable depende de la otra, se debe cuantificar la relación entre ellas.

  • Al hacer esto, podemos estimar el valor de una variable, si conocemos el valor de la otra.

  • Este método se llama regresión.


Regresi n lineal
Regresión lineal

  • La gráfica de puntos dispersos muestra la relación entre edad y presión arterial sistólica de 37 mujeres.

  • La presión arterial cambia con la edad.


Trazando una l nea de regresi n
Trazando una línea de regresión

  • Nuestro objetivo es trazar una línea, que mejor describa la relación entre X y Y.

  • Se puede trazar una línea con una regla, que una los puntos, pero es improbable que obtengamos una misma línea y cada una de ellas, da diferente descripción de la relación entre X y Y.


Trazando una l nea de regresi n1
Trazando una línea de regresión

  • Cada distancia vertical es la diferencia entre el valor observado para la variable dependiente (en el eje y) y el valor de la línea trazada para el correspondiente valor del eje x.

  • La distancia vertical entre los valores observados y los trazados es conocida como residual. Llamamos a cada uno de los residuales e1.

Residuales e1


Trazando una l nea de regresi n2
Trazando una línea de regresión

  • La línea que mejor traza los datos se le conoce como línea de regresión.

  • Da una estimación del valor promedio de y por algún valor de x. En general decimos que es una regresión de y sobre x.

  • Se puede pensar en la línea de regresión como una línea que une los valores medios de y por cada valor de x.


Trazando una l nea de regresi n3
Trazando una línea de regresión

  • La expresión matemática para la línea de regresión es la ecuación:

    y= α + βx

    donde α es la intersección de la línea con el eje y,

    β es la pendiente de la línea.

  • Regresión de los cuadrados mínimos da una línea de mejor trazo con una intersección y una pendiente determinada.


Trazando una l nea de regresi n4
Trazando una línea de regresión

  • Podemos trabajar sobre la pendiente de la línea tomando dos puntos a lo largo de la línea.

    Por ejemplo, tomamos los puntos 1 y 2 de la gráfica de abajo.

    Punto 1 tiene los valores x=4, y= 16

    Punto 2 tiene los valores x=8, y=22

2

1


Trazando una l nea de regresi n5
Trazando una línea de regresión

  • Esta gráfica corresponde a un valor fijo de a= 10 y un valor de b diferente.

  • Muestra tres líneas que corresponden a un valor fijo de a y un valor diferente de y.

Esta gráfica corresponde a un valor fijo de b y un valor diferente de a.

2

1

0.5

20

10

5

a=10


Interpretando una l nea de regresi n
Interpretando una línea de regresión

  • Una vez que se obtiene la línea de regresión, podemos usarla para dar un resumen de la relación entre la variable explicativa y respuesta (independiente, dependiente).

  • Podemos decir: Por una unidad de incremento en x, y se incrementa por un cierto valor (el valor de b). y = a + bx



Inferencias con una l nea de regresi n
Inferencias con una línea de regresión

  • Hasta ahora hemos visto sólo la descripción de la relación entre dos variables con una línea de regresión, donde a (la intersección) y b (la pendiente) son estimadas de los puntos de los datos de la muestra.

  • La ecuación de regresión describiendo la relación entre dos variables en la población se escribe: y = a + bx Así, a es una estimación de α y b es una estimación de β.

    Población Muestra

    Intercepción α a

    Pendiente β b


Inferencias con una l nea de regresi n1
Inferencias con una línea de regresión

  • La línea de regresión da una estimación de la relación entre las dos variables x y, y en la población.

  • De la misma forma que hemos usado la inferencia para hacer conclusiones acerca de medias y proporciones, usaremos la línea de regresión para llegar a conclusiones acerca de la relación entre dos variables cuantitativas en la población.

  • Si tomamos diferentes muestras de la población, con cada muestra podemos obtener una línea de regresión trazada por el método de los cuadrados mínimos.

  • En la población hay una relación lineal entre dos variables y cada muestra puede ser ligeramente diferente.


Inferencias con una l nea de regresi n2
Inferencias con una línea de regresión

  • En la muestra y = a + bx.

  • En la población y =α + βx.

  • Hay tres suposiciones subyacentes en el método de regresión lineal:

    1. La variable respuesta, y, tiene una distribución Normal en cada x

    2. La variabilidad de y deberá ser la misma a través de x

    3. La relación entre x y deberá ser lineal.


Inferencias con una l nea de regresi n3
Inferencias con una línea de regresión

  • La pendiente b es de fundamental interés en el análisis de regresión.

  • Nos da la más importante información acerca de la relación entre x y, esto es, el cambio promedio en y por una unidad de cambio en x.

  • Obteniendo el error estándar de b, podemos calcular el intervalo de confianza y realizar una prueba de hipótesis sobre b.


Ejemplo
Ejemplo

  • La ecuación de regresión para la relación entre altura y madurez ósea es:

  • Estatura = 97.9 + 0.215 x edad gestacional al nace


Ejemplo1
Ejemplo

  • Cuando esos valores fueron analizados usando un programa de computación los siguientes valores para la intersección, pendiente y sus errores estándar fueron calculados: a = 97.9, b = 0.215, ES(a) = 3.20, ES(b) = 0.0781.

  • Note que cuando edad gestacional fue de 0, la estatura es de 97.9 cm. ¿Es posible esto?


Intervalos de confianza para b
Intervalos de confianza para b

  • La gráfica sugiere una relación lineal razonable entre estatura y edad gestacional al nacer.

  • ¿Pero es debido al valor de b que hemos obtenido en estos 21 niños?

  • Podemos calcular el intervalo de confianza para b para obtener un rango de valores que podemos tener la confianza contiene la verdadera pendiente de β.

  • Un intervalo de confianza al 95% para la pendiente b es calculado usando la distribución t. b ± t0.05ES(b)

    donde t es a n-2 grados de libertad.


Intervalos de confianza para b1
Intervalos de confianza para b

  • Para la relación entre altura y edad gestacional:

    b = 0.215,

    n - 2 = 21 - 2 = 19,

    t19, 0.05 = 2.093,

    ES(b) = 0.0781

  • Entonces el intervalo de confianza al 95% para b es: 0.052 a 0.378

  • Esto sugiere que la verdadera inclinación en la población no es cero.


Prueba de hip tesis para b
Prueba de hipótesis para b

  • Podemos calcular la prueba de hipótesis acerca de la verdadera pendiente β, la pendiente de la relación lineal entre dos variables en la población.

    • Hipótesis nula

      • La hipótesis nula es que la pendiente en la población es cero.

      • Esto está implícito cuando decimos que no hay relación lineal entre altura y madurez ósea.

      • Ho: b = 0

    • Hipótesis alternativa

      • La hipótesis alternativa es que la pendiente en la población no es cero. Si esto es verdad, podemos decir que hay una relación lineal entre estatura y madurez ósea.

      • H1: b ≠ 0


Prueba de hip tesis para b1
Prueba de hipótesis para b

  • Para probar la hipótesis nula dividimos la estimación de b entre su error estándar y comparamos el resultado en la distribución t con n - 2 grados de libertad.

    • En este ejemplo, b = 0.215, ES(b) = 0.0781

    • Ahora, refiriéndonos a las tablas de la distribución t con (n - 2) = (21 - 2) = 19 grados de libertad, el valor de p es 0.01< P < 0.02.

    • ¿Qué concluimos de este resultado?

    • Rechazamos la hipótesis nula y decimos que hay evidencia de que la pendiente de la relación entre estatura y madurez ósea en la población no es cero.


An lisis de varianza anova
Análisis de varianza (ANOVA)

  • Evaluación de un análisis de regresión involucra la comparación de la varianza de los residuales y la variación en los datos explicada por la línea de regresión.

  • Esto se puede mostrar en una tabla de análisis de varianza.

  • Este análisis se le llama ANOVA.


An lisis de varianza anova1
Análisis de varianza (ANOVA)

  • Regresión

    • La gráfica muestra la relación entre x y, con cuatro puntos.

    • Se traza la línea de regresión y se analiza las diferentes partes de la variación en la relación entre x y, para evaluar la regresión

1

Línea de la hipótesis nula

Residuales para suma

total de cuadrados

3.5 – 2.5 – 0.5 - 5.5

1

1

1


An lisis de varianza anova2
Análisis de varianza (ANOVA)

  • La diferencia entre la suma total de cuadrados y la suma de los cuadrados de los residuales (la variación que permanece después de que es trazada una línea a través de los puntos) es la variación que es explicada por la regresión de y sobre x.

  • En el ejemplo:

    • La suma de los cuadrados de los residuales es 4

    • La suma total de cuadrados es 49.


An lisis de varianza anova3
Análisis de varianza (ANOVA)

  • ¿Qué es la suma de cuadrados de regresión?

    • La línea de regresión trazada explica la proporción de la variabilidad en la variable respuesta mientras que los residuales indican la cantidad de variabilidad sin explicación.

    • Una línea de regresión que describe bien los datos y explica la mayoría de la variación es preferible.


An lisis de varianza anova4
Análisis de varianza (ANOVA)

  • La suma de cuadrados muestran cuanto de la variación es explicada por la línea de regresión y cuánto es explicada por los residuales.

  • Esto se muestra en un análisis de varianza a través de la tabla ANOVA.


An lisis de varianza anova5
Análisis de varianza (ANOVA)

  • Tabla de análisis de varianza (ANOVA)

Fuente Suma de cuadrados Grados de libertad Media de suma de cuadrados F Valor de p

Regresión 45 1 45 22.5 0.042

Residual 4 2 2

Total 49 3

El enfoque del análisis de varianza es comparar las dos fuentes de

variación (regresión y residual) para saber cuál explica mejor la

variación en la variable respuesta.

Para hacer esto, usamos una prueba que compara la variación en

regresión y la variación residual, conocida como la prueba F.


An lisis de varianza anova6
Análisis de varianza (ANOVA)

  • La razón de usar una prueba F es que la razón de dos varianzas tiene una distribución de muestreo conocida como distribución F.

    • La suma de cuadrados debido a la línea de regresión tiene un grado de libertad.

    • La suma de cuadrados debido a la variación residual (inexplicable) tiene n-2 grados de libertad.

  • Para tomar en cuenta los grados de libertad, calculamos la media de la suma de cuadrados, dividiendo la suma de cuadrados entre los grados de libertad.

  • Media de la suma de cuadrados = Suma de cuadrados/grados de libertad


An lisis de varianza anova7
Análisis de varianza (ANOVA)

  • Podemos calcular el valor de F como la razón de la media suma de cuadrados: F = Media de suma de cuadrados de regresión/ media de suma de cuadrados de residuales = 45/2 = 22.5

  • La prueba F, basada en ANOVA, es una forma alternativa de probar la hipótesis nula, β = 0.

  • Es equivalente al cuadrado de la prueba de t sobre la pendiente b.

  • La prueba F y la prueba t son para probar la hipótesis nula de que x no tiene relación con y.

  • El valor de F es referido a las tablas de la distribución F con 1 y n-2 grados de libertad, para obtener el valor correspondiente de p. p = 0.042


An lisis de varianza anova8
Análisis de varianza (ANOVA)

  • ¿Qué concluimos del valor de p?

    • El valor de p nos dice la probabilidad de observar una relación lineal en la muestra si la hipótesis nula fuera verdad y no hubiera relación lineal en la población.

    • Así, para un valor de p bajo podemos rechazar la hipótesis nula y decir que hay una relación lineal en la población y la línea de regresión traza bien los datos.


An lisis de varianza anova9
Análisis de varianza (ANOVA)

  • R2

    • Hemos trabajado en casi todos los términos de una tabla ANOVA.

    • Sólo falta calcular el porcentaje de la variación total explicada por la línea de regresión.

    • Es una forma general de evaluar qué bien la línea de regresión traza los datos.

  • ¿Cuánto de la variación total de la variable respuesta puede ser explicada por la línea de regresión?

    • Llamamos a este valor R² y lo calculamos como la razón de la suma de cuadrados de la regresión dividida entre la total suma de cuadrados.

  • R2 = Suma de cuadrados de regresión/Total suma de cuadrados x100


Cu ndo es v lido usar la regresi n
¿Cuándo es válido usar la regresión?

  • Suposiciones para la regresión

    • Recuerde las suposiciones que están subyacentes al método de regresión lineal:

      • La variable respuesta deberá estar normalmente distribuida

      • La variabilidad de y deberá ser la misma a través de todos los valores de x

      • Deberá haber una relación lineal entre x y.


Cu ndo es v lido usar la regresi n1
¿Cuándo es válido usar la regresión?

  • Precauciones

    • Es posible obtener una línea de regresión de cualquier gráfica de puntos dispersos pero una regresión lineal deberá sólo ser aplicada donde existe una relación lineal.

    • Una asociación lineal entre dos variables no significa que una causa a la otra.

    • Puede ser necesario ajustar para confusores potenciales.


Bibliograf a
Bibliografía

  • 1.- Last JM. A dictionary of epidemiology. New York, 4ª ed. Oxford University Press, 2001:173.

  • 2.- Kirkwood BR. Essentials of medical ststistics. Oxford, Blackwell Science, 1988: 1-4.

  • 3.- Altman DG. Practical statistics for medical research. Boca Ratón, Chapman & Hall/ CRC; 1991: 1-9.


ad