modelos lineales generalizados l.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Modelos lineales generalizados PowerPoint Presentation
Download Presentation
Modelos lineales generalizados

Loading in 2 Seconds...

play fullscreen
1 / 60

Modelos lineales generalizados - PowerPoint PPT Presentation


  • 733 Views
  • Uploaded on

Modelos lineales generalizados. Introducción. Modelos lineales generalizados Motivación. Mirar los datos categóricos desde la óptica de la modelación permite… Mayor flexibilidad en el análisis Simplicidad en la construcción y contraste de hipótesis

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Modelos lineales generalizados' - Sophia


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
modelos lineales generalizados motivaci n
Modelos lineales generalizadosMotivación
  • Mirar los datos categóricos desde la óptica de la modelación permite…
    • Mayor flexibilidad en el análisis
    • Simplicidad en la construcción y contraste de hipótesis
    • Unificación de conceptos y procedimientos con los modelos lineales clásicos
modelos lineales generalizados generalidades
Modelos lineales generalizadosGeneralidades
  • En un modelo lineal clásico, Y representa una observación con esperanza , entonces:
    • =x’
    • Y se supone N(x’,2).
    • Las observaciones se suponen independientes
  • En un modelo lineal generalizado
    • g()=x’
    • Y tiene una distribución que pertenece a la familia de distribuciones exponenciales.
    • Las observaciones se suponen independientes
familia exponencial
Familia exponencial
  • Distribuciones que está incluidas en esta familia son
    • Normal
    • Binomial
    • Poisson
    • Gamma
    • ….
modelos lineales generalizados funci n de enlace
Modelos lineales generalizadosFunción de enlace
  • Los que se modela en un MLG no es la esperanza de Y sino una función de la esperanza de Y g()
  • g() se conoce como función de enlace
  • g() es una función monótona y diferenciable
modelos lineales generalizados funci n de enlace6
Modelos lineales generalizadosFunción de enlace
  • Algunas funciones de enlace típicas son
    • Identidad
    • Logit
    • Probit
    • Log
    • Compl. log-log
    • Inversa
modelos lineales generalizados funci n de enlace7
Modelos lineales generalizadosFunción de enlace
  • La función de enlace y la suposición de la distribución para la variable de respuesta pueden combinarse
  • Hay enlaces típicos (canónicos) para las distintas distribuciones
  • Lo usual es utilizar la combinación de la distribución con su enlace canónico
modelos lineales generalizados enlace can nico
Modelos lineales generalizadosEnlace canónico
  • Normal  Identidad
  • Poisson  Log
  • Binomial  Logit
  • Gamma  Inversa
  • Otras combinaciones
    • Binomial  Probit
    • Binomial  Comp. Log Log
modelos lineales generalizados estimaci n
Modelos lineales generalizadosEstimación
  • Los estimadores del vector de parámetros () son aquellas soluciones que maximizan la función de verosimilitud
  • El máximo no se encuentra resolviendo un sistema de ecuaciones lineales como en el casos normal
  • El máximo se obtiene por un método iterativo
  • Un algoritmo: mínimos cuadrados ponderados iterados
modelos lineales generalizados deviance
Modelos lineales generalizadosDeviance
  • Modelos lineales clásicos
    • Minimización de la suma de cuadrados residual
  • Modelos lineales generalizados
    • Minimización de la deviance
modelos lineales generalizados residuo deviance
Modelos lineales generalizadosResiduo Deviance
  • Modelo lineal clásico
    • SCResidual=Suma((residuoi)2)
  • Modelo lineal generalizado
    • Deviance=Suma((Residuo deviancei)2)
  • Residuo deviance es:
    • Normal
    • Binomial
    • Poisson
modelos lineales generalizados inferencia
Modelos lineales generalizadosInferencia
  • Contraste de hipótesis
    • Prueba del cociente de verosimilitudes
    • Prueba de Wald
  • Intervalos de confianza
    • Inversión de la prueba de verosimilitud
    • Inversión de la prueba de Wald
regresi n log stica14
Regresión logística
  • Yi: Bi(1, i), P(Yi=1)=i
  • Esperanza de Yi
    • µi=i;
  • Función de enlace
    • g(µ)=logit(µ)=log(µ/(1-µ))
  • Modelo
    • g(µi)=x’i
    • Si  vector (n x 1) con i=g(µi), entonces =X
regresi n log stica15
Regresión logística
  • Es el MLG más conocido y utilizado
  • Aplicado en medicina
    • Análisis de estudios prospectivos, retrospectivos y transversales
    • Modelación de la sensibilidad y especificidad
    • Modelación de curvas ROC
  • Utilizado como un clasificador en:
    • Aplicaciones bancarias
    • Identificación de consumidores
    • Pronóstico médico
regresi n log stica historia
Regresión logísticaHistoria
  • Bartlett (1937)
    • Introduce la transformación log(y/(1-y)) para el análisis de proporciones en ANAVA
  • Fisher y Yates (1938)
    • Sugieren la transformación para el parámetro de la binomial
  • Berkson (1944)
    • Introduce el término logit para la transformación log(y/(1-y))
    • Observa resultados similares a los obtenidos Probit
  • Cornfield (1951)
    • Introduce el odds ratio como aproximación del riesgo relativo en el análisis de estudios caso-control y muestra su relación con los parámetros del modelo de regresión logística
  • Cox (1958)
    • Populariza el uso de la regresión logística con la publicación de The Análisis of Binary Data
  • La regresión logística madura en los 60’s
regresi n log stica un ejemplo cangrejos
Regresión logísticaUn ejemplo – Cangrejos…
  • La hembra del “cangrejo zapato de caballo” tiene un macho permanente en su nido, pero puede tener otros machos llamados satélites…
  • ¿La posesión de satélites dependen del tamaño de la hembra?
  • Dada una muestra de hembras tendremos dos variables
    • Y= 1 si la hembra posee satélites, Y=0 si no posee
    • X= Ancho del caparazón (una media del tamaño)
cangrejos
Cangrejos…

Regresión Logística

Distribución: Binomial

Función de enlace: Logit

Parámetros Est. EE WChi² p-valor

Constante -12.35 2.63 22.07 <0.0001

Ancho 0.50 0.10 23.89 <0.0001

Valor gl

Log Likelihood -97.23 171

Deviance 194.45 171

Escala (fijada) 1.00

cangrejos valores esperados
Cangrejos…Valores esperados
  • La función inversa de g(µ) es:

-0/ 1

odds ratio
Odds ratio
  • La chance (odds) de que una hembra, cuyo ancho de caparazón es w, tenga un satélite esta dada por:
odds ratio21
Odds ratio
  • La razón de chances (odds ratio) de que una hembra tenga un satélite es cuando su ancho de caparazón es w=w+1 respecto de una hembra cuyo ancho de caparazón es w esta dada por:
slide22

Exp(i) es la razón de chances (odds ratio) del evento cuya prabilidad se modela, cuando la i-esima regresora pasa del valor xi a xi+1.

cangrejos23
Cangrejos…
  • La razón de chances de que una hembra del cangrejo “zapato de caballo” tenga al menos un macho satélite es:
  • La chance de que una hembra tenga un macho satélite es casi 65% mayor si tiene un caparazón un centímetro mas grande
  • ¿Cuanto mas grande es esta chance si tiene un caparazón 10 cm más ancho?
regresi n log stica m ltiple m s sobre los cangrejos
Regresión logística múltipleMás sobre los cangrejos…
  • La regresión logística se extiende naturalmente al caso con múltiples regresoras
  • Además del ancho del caparazón, ¿es el peso de la hembra un factor pronóstico de la posesión de satélites?
  • El modelo en este caso es:
regresi n log stica m ltiple m s sobre los cangrejos25
Regresión logística múltipleMás sobre los cangrejos…

Regresión Logística

Distribución: Binomial

Función de enlace: Logit

Parámetros Est. EE Wald Chi² p-valor

Constante -9.3547 3.5281 7.0305 0.0080

Ancho 0.3068 0.1819 2.8430 0.0918

Peso 0.8338 0.6716 1.5411 0.2145

Valor gl

Log Likelihood -96.4459 170

Deviance 192.8919 170

Escala (fijada) 1.0000

regresi n log stica m ltiple
Regresión logística múltiple
  • Estimación es mínimos cuadrados ponderados iterados
  • Los problemas en regresión lineal múltiple también se observan en regresión logística
    • Multicolinearidad
    • Datos con alto leverage
    • Selección de modelo
regresi n log stica regresoras cualitativas
Regresión logísticaRegresoras cualitativas
  • Las variables cualitativas se incluyen como variables indicadoras (dummy)
  • Una regresora cualitativa con k modalidades se convierte en (k-1) variables indicadoras
  • Las (k-1) variables indicadoras se incluyen en el modelo
  • La k-ésima modalidad: es la referencia
regresi n log stica ataque card aco
Regresión logísticaAtaque cardíaco
  • Este ejemplo se analizó como una tabla de contingencia
  • La hipótesis era de homogeneidad de proporciones
  • ¿Cómo puede analizarse con un modelo logístico?
  • La variable regresora es la medicación con dos modalidades placebo y aspirina
regresi n log stica ataque card aco an lisis
Regresión logísticaAtaque cardíaco - análisis

Regresión Logística

Distribución: Binomial

Función de enlace: Logit

Frecuencias: Conteo

Parámetros Est. EE Odd WChi² p-valor

Constante -4.05 0.07 0.02 3045.10 <0.0001

Aspirina -0.61 0.12 0.55 24.37 <0.0001

Valor gl

Log Likelihood -1544.49 22059

Deviance 3088.98 22059

Escala (fijada) 1.00

regresi n log stica regresoras cuanti y cualitativas
Regresión logísticaRegresoras cuanti y cualitativas
  • El modelo logístico permite incluir variables regresoras y categóricas
  • En el ejemplo del cangrejo se dispone de datos sobre el color del caparazón
  • Se puede construir un modelo que incluya el efecto del ancho del caparazón y su color
regresoras cuanti y cualitativas mas sobre los cangrejos
Regresoras cuanti y cualitativasMas sobre los cangrejos…

Regresión Logística

Distribución: Binomial

Función de enlace: Logit

Parámetros Est. EE Odd Wald Chi² p-valor

Constante -12.72 2.76 3.0E-06 21.20 <0.0001

Color_1 1.33 0.85 3.78 2.43 0.1188

Color_2 1.40 0.55 4.06 6.54 0.0106

Color_3 1.11 0.59 3.02 3.49 0.0617

Ancho 0.47 0.11 1.60 19.66 <0.0001

Parámetros igualados a cero

Efecto Parámetro

Color Color_4

Valor gl

Log Likelihood -93.73 168

Deviance 187.46 168

Escala (fijada) 1.00

slide33
Curvas de probabilidad según color del caparazón, para la posesión de satélites en función del ancho del caparazón
modelo probit

Modelo Probit

Bliss 1935

modelo probit motivaci n
Modelo ProbitMotivación
  • Estudios toxicológicos de evaluación de la respuesta a una dosis
  • La respuesta es en general la muerte del individuo pero puede extenderse a cualquier otra respuesta binaria
  • La base del desarrollo de este modelo es el concepto de tolerancia
modelo probit tolerancia
Modelo ProbitTolerancia
  • Si un individuo muere cuando es desafiado con una dosis x>T
  • Se dice que el individuo tiene una tolerancia T
  • La tolerancia varia entre individuos y puede considerarse una variable aleatoria y F(t)=P(T<t)
modelo probit tolerancia37
Modelo ProbitTolerancia
  • Y representa la respuesta al desafío con la toxina
    • Y=1: muere
    • Y=0: vive
    • P(Y=1|X=x)=P(T<=x)=F(x)
  • Si (.) es la distribución estandarizada de la familia de distribuciones a la que pertenece F(.). Entonces..
    • P(Y=1|X=x)=((x-µ)/)=(0+1x)
    • Donde 0= -µ/ y 1 = 1/
modelo probit38
Modelo Probit
  • Si F(.) es la distribución acumulada de una normal con media µ y desviación estándar entonces
  • (.) es la distribución acumulada NORMAL estándar
  • µ es la media de tolerancia.
    • Es igual a - 0/1
    • Es la dosis a la cual muere la mitad de los individuos en la población
    • Se conoce como Dosis Letal 50 (LD50).
modelo probit39
Modelo Probit
  • Si P(Y=1|X=x)=(0+1x) encontes
  • -1(P(Y=1|X=x))= 0+1x
  • Luego, cuando la distribución de tolerancias, sigue una distribución normal, la función de enlace natural es la inversa de la normal estándar
probit
Probit
  • Es un caso particular de MLG
  • La variable Y se supone binomial
  • La función de enlace es la inversa de la función de distribución acumulada normal estándar
  • El modelo general incluye una o mas regresoras, cuantitativas o cualitativas
modelo probit escarabajos
Modelo ProbitEscarabajos
  • Escarabajos sometidos a distintas dosis de un insecticida durante 5 horas
  • La dosis se reporta como logaritmo de la concentración del insecticida

Regresión Probit

Distribución: Binomial

Función de enlace: Probit

Frecuencias: Expuestos

Parámetros Est. EE Wald Chi² p-valor

Constante -34.96 2.65 174.13 <0.0001

Dosis 19.74 1.49 175.99 <0.0001

modelo probit escarabajos42
Modelo ProbitEscarabajos
  • La tolerancia media
    • -(-34.96/ 19.74)=1.77
  • Desviación estándar de la tolerancia
    • (1/ 19.74)=0.05
modelo probit escarabajos45
Modelo ProbitEscarabajos

1.00

0.75

Probabilidad de muerte

0.50

0.25

0.00

1.68

1.73

1.79

1.84

1.89

Dosis

regresi n poisson

Regresión Poisson

Modelando los conteos

regresi n poisson47
Regresión Poisson
  • Se trata de un MLG donde la respuesta Y es un conteo que se supone tiene distribución Poisson y la función de enlace es log(µ)
  • Las aplicaciones mas interesante son aquellas en las que los conteos se modelan en función de variables cuantitativas, cualitativas o combinación de ellas
regresi n poisson48
Regresión Poisson
  • La forma mas simple de introducir los modelos de regresión Poisson es pensando en la modelación de las frecuencias observadas en las celdas de una tabla de contingencia
  • El modelo asume tantos datos como celdas en la tabla y no el conjunto de casos que contribuyen a la constitución de las frecuencias de cada celda.
regresi n poisson49
Regresión Poisson
  • En una tabla IxJ, la esperanza de la celda ij se puede modelar como
cintur n de seguridad departamento de seguridad vial de florida 1988
Cinturón de seguridadDepartamento de seguridad vial de Florida (1988)
  • En ese estudio se contabilizaron todos los accidentes ocurridos en Florida en 1988.
cintur n de seguridad departamento de seguridad vial de florida 198851
Cinturón de seguridadDepartamento de seguridad vial de Florida (1988)

Tablas de contingencia

Frecuencias: Conteo

Frecuencias esperadas

Accident:Fatal

Cinturón No Si Total

No 163527 600 164128

Si 411368 1511 412878

Total 574895 2111 577006

Estadístico Valor gl p

Chi Cuadrado Pearson 2338.41 1 <0.0001

Chi Cuadrado MV-G2 2041.16 1 <0.0001

MODELO DE INDEPENDENCIA

cintur n de seguridad departamento de seguridad vial de florida 198852
Cinturón de seguridadDepartamento de seguridad vial de Florida (1988)

Regresión Poisson

Distribución: Poisson

Función de enlace: Log

Parámetros Est. EE Wald Chi² p-valor

Constante 7.32 0.02 66328.23 <0.0001

Fatal_No 5.61 0.02 66124.37 <0.0001

Cinturón_No -0.92 2.9E-03 99945.23 <0.0001

Valor gl

Log Likelihood 6718844.88 1

Deviance 2041.16 1

Escala (fijada) 1.00

MODELO DE INDEPENDENCIA

cintur n de seguridad departamento de seguridad vial de florida 198853
Cinturón de seguridadDepartamento de seguridad vial de Florida (1988)
  • Valores predichos

MODELO DE INDEPENDENCIA

Fatal Cinturón Conteo Predicho

Si No 1601 600

Si Si 510 1511

No No 162527 163528

No Si 412368 411367

cintur n de seguridad departamento de seguridad vial de florida 198854
Cinturón de seguridadDepartamento de seguridad vial de Florida (1988)

MODELO SATURADO

Regresión Poisson

Distribución: Poisson

Función de enlace: Log

Parámetros Est. EE Wald Chi² p-valor

Constante 6.23 0.04 22861.52 <0.0001

Fatal_No 6.70 0.04 22833.28 <0.0001

Cinturón_No 1.14 0.05 506.18 <0.0001

Fatal_No_Cinturón_No -2.08 0.05 1659.93 <0.0001

Valor gl

Log Likelihood 6719865.46 0

Deviance 0.00 0

AIC -13439722.92

Escala (fijada) 1.00

cintur n de seguridad departamento de seguridad vial de florida 198855
Cinturón de seguridadDepartamento de seguridad vial de Florida (1988)

MODELO SATURADO

  • Valores predichos

Fatal Cinturón Conteo Predicho

Si No 1601 1601

Si Si 510 510

No No 162527 162527

No Si 412368 412368

regresi n poisson56

Regresión Poisson

Modelando tasas

regresi n poisson c ncer de piel
Regresión PoissonCáncer de Piel
  • Se quiere saber si la incidencia de Cáncer de piel difiere entre las ciudades A y B y si esta incidencia depende de la edad

Ciudad Edad CANCER POBLACION

A E1 3 120000

A E2 7 200000

A E3 8 30000

B E1 4 130000

B E2 10 220000

B E3 16 60000

regresi n poisson c ncer de piel59
Regresión PoissonCáncer de Piel

Variable Offset: Población

regresi n poisson c ncer de piel60
Regresión PoissonCáncer de Piel
  • Regresión Poisson
  • Distribución: Poisson
  • Función de enlace: Log
  • Offset: ln(POBLACION)
  • Parámetros Est. EE Wald Chi² p-valor
  • Constante -8.19 0.22 1337.79 <0.0001
  • Ciudad_A -0.13 0.30 0.19 0.6656
  • Edad_E1 -2.23 0.43 26.80 <0.0001
  • Edad_E2 -1.87 0.32 34.09 <0.0001