curso de bioestad stica parte 16 regresi n lineal
Download
Skip this Video
Download Presentation
Curso de Bioestadística Parte 16 Regresión lineal

Loading in 2 Seconds...

play fullscreen
1 / 36

Curso de Bioestad - PowerPoint PPT Presentation


  • 121 Views
  • Uploaded on

Curso de Bioestadística Parte 16 Regresión lineal. Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias de la Salud e Ingenierías Campus Celaya-Salvatierra Universidad de Guanajuato México. Presentación.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Curso de Bioestad' - Lucy


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
curso de bioestad stica parte 16 regresi n lineal

Curso de BioestadísticaParte 16Regresión lineal

Dr. en C. Nicolás Padilla Raygoza

Departamento de Enfermería y Obstetricia

División Ciencias de la Salud e Ingenierías

Campus Celaya-Salvatierra

Universidad de Guanajuato México

presentaci n
Presentación
  • Médico Cirujano por la Universidad Autónoma de Guadalajara.
  • Pediatra por el Consejo Mexicano de Certificación en Pediatría.
  • Diplomado en Epidemiología, Escuela de Higiene y Medicina Tropical de Londres, Universidad de Londres.
  • Master en Ciencias con enfoque en Epidemiología, Atlantic International University.
  • Doctorado en Ciencias con enfoque en Epidemiología, Atlantic International University.
  • Profesor Asociado B, Facultad de Enfermería y Obstetricia de Celaya, Universidad de Guanajuato.
  • [email protected]
competencias
Competencias
  • Conocerá como trazar una línea de regresión
  • Sabrá como probar hipótesis acerca de la línea de regresión
  • Sabrá como realizar un análisis ANOVA
introducci n
Introducción
  • Cuando se piensa que una variable depende de la otra, se debe cuantificar la relación entre ellas.
  • Al hacer esto, podemos estimar el valor de una variable, si conocemos el valor de la otra.
  • Este método se llama regresión.
regresi n lineal
Regresión lineal
  • La gráfica de puntos dispersos muestra la relación entre edad y presión arterial sistólica de 37 mujeres.
  • La presión arterial cambia con la edad.
trazando una l nea de regresi n
Trazando una línea de regresión
  • Nuestro objetivo es trazar una línea, que mejor describa la relación entre X y Y.
  • Se puede trazar una línea con una regla, que una los puntos, pero es improbable que obtengamos una misma línea y cada una de ellas, da diferente descripción de la relación entre X y Y.
trazando una l nea de regresi n1
Trazando una línea de regresión
  • Cada distancia vertical es la diferencia entre el valor observado para la variable dependiente (en el eje y) y el valor de la línea trazada para el correspondiente valor del eje x.
  • La distancia vertical entre los valores observados y los trazados es conocida como residual. Llamamos a cada uno de los residuales e1.

Residuales e1

trazando una l nea de regresi n2
Trazando una línea de regresión
  • La línea que mejor traza los datos se le conoce como línea de regresión.
  • Da una estimación del valor promedio de y por algún valor de x. En general decimos que es una regresión de y sobre x.
  • Se puede pensar en la línea de regresión como una línea que une los valores medios de y por cada valor de x.
trazando una l nea de regresi n3
Trazando una línea de regresión
  • La expresión matemática para la línea de regresión es la ecuación:

y= α + βx

donde α es la intersección de la línea con el eje y,

β es la pendiente de la línea.

  • Regresión de los cuadrados mínimos da una línea de mejor trazo con una intersección y una pendiente determinada.
trazando una l nea de regresi n4
Trazando una línea de regresión
  • Podemos trabajar sobre la pendiente de la línea tomando dos puntos a lo largo de la línea.

Por ejemplo, tomamos los puntos 1 y 2 de la gráfica de abajo.

Punto 1 tiene los valores x=4, y= 16

Punto 2 tiene los valores x=8, y=22

2

1

trazando una l nea de regresi n5
Trazando una línea de regresión
  • Esta gráfica corresponde a un valor fijo de a= 10 y un valor de b diferente.
  • Muestra tres líneas que corresponden a un valor fijo de a y un valor diferente de y.

Esta gráfica corresponde a un valor fijo de b y un valor diferente de a.

2

1

0.5

20

10

5

a=10

interpretando una l nea de regresi n
Interpretando una línea de regresión
  • Una vez que se obtiene la línea de regresión, podemos usarla para dar un resumen de la relación entre la variable explicativa y respuesta (independiente, dependiente).
  • Podemos decir: Por una unidad de incremento en x, y se incrementa por un cierto valor (el valor de b). y = a + bx
inferencias con una l nea de regresi n
Inferencias con una línea de regresión
  • Hasta ahora hemos visto sólo la descripción de la relación entre dos variables con una línea de regresión, donde a (la intersección) y b (la pendiente) son estimadas de los puntos de los datos de la muestra.
  • La ecuación de regresión describiendo la relación entre dos variables en la población se escribe: y = a + bx Así, a es una estimación de α y b es una estimación de β.

Población Muestra

Intercepción α a

Pendiente β b

inferencias con una l nea de regresi n1
Inferencias con una línea de regresión
  • La línea de regresión da una estimación de la relación entre las dos variables x y, y en la población.
  • De la misma forma que hemos usado la inferencia para hacer conclusiones acerca de medias y proporciones, usaremos la línea de regresión para llegar a conclusiones acerca de la relación entre dos variables cuantitativas en la población.
  • Si tomamos diferentes muestras de la población, con cada muestra podemos obtener una línea de regresión trazada por el método de los cuadrados mínimos.
  • En la población hay una relación lineal entre dos variables y cada muestra puede ser ligeramente diferente.
inferencias con una l nea de regresi n2
Inferencias con una línea de regresión
  • En la muestra y = a + bx.
  • En la población y =α + βx.
  • Hay tres suposiciones subyacentes en el método de regresión lineal:

1. La variable respuesta, y, tiene una distribución Normal en cada x

2. La variabilidad de y deberá ser la misma a través de x

3. La relación entre x y deberá ser lineal.

inferencias con una l nea de regresi n3
Inferencias con una línea de regresión
  • La pendiente b es de fundamental interés en el análisis de regresión.
  • Nos da la más importante información acerca de la relación entre x y, esto es, el cambio promedio en y por una unidad de cambio en x.
  • Obteniendo el error estándar de b, podemos calcular el intervalo de confianza y realizar una prueba de hipótesis sobre b.
ejemplo
Ejemplo
  • La ecuación de regresión para la relación entre altura y madurez ósea es:
  • Estatura = 97.9 + 0.215 x edad gestacional al nace
ejemplo1
Ejemplo
  • Cuando esos valores fueron analizados usando un programa de computación los siguientes valores para la intersección, pendiente y sus errores estándar fueron calculados: a = 97.9, b = 0.215, ES(a) = 3.20, ES(b) = 0.0781.
  • Note que cuando edad gestacional fue de 0, la estatura es de 97.9 cm. ¿Es posible esto?
intervalos de confianza para b
Intervalos de confianza para b
  • La gráfica sugiere una relación lineal razonable entre estatura y edad gestacional al nacer.
  • ¿Pero es debido al valor de b que hemos obtenido en estos 21 niños?
  • Podemos calcular el intervalo de confianza para b para obtener un rango de valores que podemos tener la confianza contiene la verdadera pendiente de β.
  • Un intervalo de confianza al 95% para la pendiente b es calculado usando la distribución t. b ± t0.05ES(b)

donde t es a n-2 grados de libertad.

intervalos de confianza para b1
Intervalos de confianza para b
  • Para la relación entre altura y edad gestacional:

b = 0.215,

n - 2 = 21 - 2 = 19,

t19, 0.05 = 2.093,

ES(b) = 0.0781

  • Entonces el intervalo de confianza al 95% para b es: 0.052 a 0.378
  • Esto sugiere que la verdadera inclinación en la población no es cero.
prueba de hip tesis para b
Prueba de hipótesis para b
  • Podemos calcular la prueba de hipótesis acerca de la verdadera pendiente β, la pendiente de la relación lineal entre dos variables en la población.
    • Hipótesis nula
      • La hipótesis nula es que la pendiente en la población es cero.
      • Esto está implícito cuando decimos que no hay relación lineal entre altura y madurez ósea.
      • Ho: b = 0
    • Hipótesis alternativa
      • La hipótesis alternativa es que la pendiente en la población no es cero. Si esto es verdad, podemos decir que hay una relación lineal entre estatura y madurez ósea.
      • H1: b ≠ 0
prueba de hip tesis para b1
Prueba de hipótesis para b
  • Para probar la hipótesis nula dividimos la estimación de b entre su error estándar y comparamos el resultado en la distribución t con n - 2 grados de libertad.
    • En este ejemplo, b = 0.215, ES(b) = 0.0781
    • Ahora, refiriéndonos a las tablas de la distribución t con (n - 2) = (21 - 2) = 19 grados de libertad, el valor de p es 0.01< P < 0.02.
    • ¿Qué concluimos de este resultado?
    • Rechazamos la hipótesis nula y decimos que hay evidencia de que la pendiente de la relación entre estatura y madurez ósea en la población no es cero.
an lisis de varianza anova
Análisis de varianza (ANOVA)
  • Evaluación de un análisis de regresión involucra la comparación de la varianza de los residuales y la variación en los datos explicada por la línea de regresión.
  • Esto se puede mostrar en una tabla de análisis de varianza.
  • Este análisis se le llama ANOVA.
an lisis de varianza anova1
Análisis de varianza (ANOVA)
  • Regresión
    • La gráfica muestra la relación entre x y, con cuatro puntos.
    • Se traza la línea de regresión y se analiza las diferentes partes de la variación en la relación entre x y, para evaluar la regresión

1

Línea de la hipótesis nula

Residuales para suma

total de cuadrados

3.5 – 2.5 – 0.5 - 5.5

1

1

1

an lisis de varianza anova2
Análisis de varianza (ANOVA)
  • La diferencia entre la suma total de cuadrados y la suma de los cuadrados de los residuales (la variación que permanece después de que es trazada una línea a través de los puntos) es la variación que es explicada por la regresión de y sobre x.
  • En el ejemplo:
    • La suma de los cuadrados de los residuales es 4
    • La suma total de cuadrados es 49.
an lisis de varianza anova3
Análisis de varianza (ANOVA)
  • ¿Qué es la suma de cuadrados de regresión?
    • La línea de regresión trazada explica la proporción de la variabilidad en la variable respuesta mientras que los residuales indican la cantidad de variabilidad sin explicación.
    • Una línea de regresión que describe bien los datos y explica la mayoría de la variación es preferible.
an lisis de varianza anova4
Análisis de varianza (ANOVA)
  • La suma de cuadrados muestran cuanto de la variación es explicada por la línea de regresión y cuánto es explicada por los residuales.
  • Esto se muestra en un análisis de varianza a través de la tabla ANOVA.
an lisis de varianza anova5
Análisis de varianza (ANOVA)
  • Tabla de análisis de varianza (ANOVA)

Fuente Suma de cuadrados Grados de libertad Media de suma de cuadrados F Valor de p

Regresión 45 1 45 22.5 0.042

Residual 4 2 2

Total 49 3

El enfoque del análisis de varianza es comparar las dos fuentes de

variación (regresión y residual) para saber cuál explica mejor la

variación en la variable respuesta.

Para hacer esto, usamos una prueba que compara la variación en

regresión y la variación residual, conocida como la prueba F.

an lisis de varianza anova6
Análisis de varianza (ANOVA)
  • La razón de usar una prueba F es que la razón de dos varianzas tiene una distribución de muestreo conocida como distribución F.
    • La suma de cuadrados debido a la línea de regresión tiene un grado de libertad.
    • La suma de cuadrados debido a la variación residual (inexplicable) tiene n-2 grados de libertad.
  • Para tomar en cuenta los grados de libertad, calculamos la media de la suma de cuadrados, dividiendo la suma de cuadrados entre los grados de libertad.
  • Media de la suma de cuadrados = Suma de cuadrados/grados de libertad
an lisis de varianza anova7
Análisis de varianza (ANOVA)
  • Podemos calcular el valor de F como la razón de la media suma de cuadrados: F = Media de suma de cuadrados de regresión/ media de suma de cuadrados de residuales = 45/2 = 22.5
  • La prueba F, basada en ANOVA, es una forma alternativa de probar la hipótesis nula, β = 0.
  • Es equivalente al cuadrado de la prueba de t sobre la pendiente b.
  • La prueba F y la prueba t son para probar la hipótesis nula de que x no tiene relación con y.
  • El valor de F es referido a las tablas de la distribución F con 1 y n-2 grados de libertad, para obtener el valor correspondiente de p. p = 0.042
an lisis de varianza anova8
Análisis de varianza (ANOVA)
  • ¿Qué concluimos del valor de p?
    • El valor de p nos dice la probabilidad de observar una relación lineal en la muestra si la hipótesis nula fuera verdad y no hubiera relación lineal en la población.
    • Así, para un valor de p bajo podemos rechazar la hipótesis nula y decir que hay una relación lineal en la población y la línea de regresión traza bien los datos.
an lisis de varianza anova9
Análisis de varianza (ANOVA)
  • R2
    • Hemos trabajado en casi todos los términos de una tabla ANOVA.
    • Sólo falta calcular el porcentaje de la variación total explicada por la línea de regresión.
    • Es una forma general de evaluar qué bien la línea de regresión traza los datos.
  • ¿Cuánto de la variación total de la variable respuesta puede ser explicada por la línea de regresión?
    • Llamamos a este valor R² y lo calculamos como la razón de la suma de cuadrados de la regresión dividida entre la total suma de cuadrados.
  • R2 = Suma de cuadrados de regresión/Total suma de cuadrados x100
cu ndo es v lido usar la regresi n
¿Cuándo es válido usar la regresión?
  • Suposiciones para la regresión
    • Recuerde las suposiciones que están subyacentes al método de regresión lineal:
      • La variable respuesta deberá estar normalmente distribuida
      • La variabilidad de y deberá ser la misma a través de todos los valores de x
      • Deberá haber una relación lineal entre x y.
cu ndo es v lido usar la regresi n1
¿Cuándo es válido usar la regresión?
  • Precauciones
    • Es posible obtener una línea de regresión de cualquier gráfica de puntos dispersos pero una regresión lineal deberá sólo ser aplicada donde existe una relación lineal.
    • Una asociación lineal entre dos variables no significa que una causa a la otra.
    • Puede ser necesario ajustar para confusores potenciales.
bibliograf a
Bibliografía
  • 1.- Last JM. A dictionary of epidemiology. New York, 4ª ed. Oxford University Press, 2001:173.
  • 2.- Kirkwood BR. Essentials of medical ststistics. Oxford, Blackwell Science, 1988: 1-4.
  • 3.- Altman DG. Practical statistics for medical research. Boca Ratón, Chapman & Hall/ CRC; 1991: 1-9.
ad