1 / 36

Equations d’estimation généralisées: GEE

Michel Chavance. Equations d’estimation généralisées: GEE. Equations d’estimation généralisées (GEE). Adaptation au cadre du modèle linéaire généralisé de 2 extensions du modèle linéaire

elwyn
Download Presentation

Equations d’estimation généralisées: GEE

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Michel Chavance Equations d’estimation généralisées: GEE

  2. Equations d’estimation généralisées (GEE) Adaptation au cadre du modèle linéaire généralisé de 2 extensions du modèle linéaire Remplacement de l’hypothèse sur la distribution par une hypothèse sur sa moyenne et sa variance (mais on estime toujours les paramètres par les moindres carrés) Prise en compte d’une éventuelle mauvaise spécification de la variance

  3. Modèle linéaire Les observations sont supposées normales, indépendantes et de variance constante Les équations du maximum de vraisemblance ont la forme La variance de l’estimateur est l’inverse de la variance des scores

  4. Modèle linéaire (2) Si les observations sont normales, indépendantes et de variance constante, l’estimateur des moindres carrés est l’estimateur du maximum de vraisemblance. Il est asymptotiquement sans biais et de variance minimale Si les observations ne sont pas normales, indépendantes et de variance constante, les moindres carrés restent un critère d’optimisation raisonnable, les équations d’estimation sont les mêmes et on obtient l’estimateur linéaire de variance minimale

  5. Modèle linéaire généralisé On connaît la famille de distribution, donc la relation entre moyenne et variance : fonction variance V Les équations du maximum de vraisemblance ont la forme Si V est correctement spécifiée, la variance de l’estimateur est l’inverse de la variance des scores

  6. Maximisation de la quasi-vraisemblance On ne connaît pas la distribution de Y (ni la vraisemblance des paramètres) On connaît la fonction variance V() et on suppose E(Yi) =  g() =Xi Var(Yi) = Vi = V(i) L’équation optimise en  une « quasi-vraisemblance » et fournit un estimateur de bonne qualité : asymptotiquement sans biais et normal. Il est inutile de connaître l’expression de la log-quasi-vraisemblance (= intégrale du quasi-score / )

  7. Maximisation de la quasi-vraisemblance (2) Les équations du maximum de quasi vraisemblance optimisent en  une « quasi-vraisemblance » Variance de l’estimateur: c’est l’inverse de la variance des quasi-scores

  8. Maximisation de la quasi-vraisemblance (3) Si la matrice de variance est mal spécifiée, des simplifications dans le calcul de la variance de  ne sont plus possibles, elle devient

  9. Exemple : observations corrélées Si les observations individuelles sont normales, la loi conjointe est multinormale Si les observations individuelles sont binaires ou de comptage pas d’équivalent multivarié de la binomiale ou de la Poisson facile à manipuler Solution : formuler un modèle marginal pour les moyennes, supposer les observations indépendantes, mais utiliser un estimateur robuste (sandwich) pour la variance de 

  10. Modèle marginal Le modèle stipule - le lien g(ij) - le prédicteur linéaire g(ij) = Xij  - la variance marginale Var(Yij) = Vij - la structure de la matrice des corrélations

  11. GEE = équations d’estimation généralisées • On peut espérer obtenir un estimateur plus efficace si l’on tient compte de la structure de corrélation en spécifiant une matrice de corrélation R autre que l’identité et en estimant  • Liang et Zeger (1986) ont proposé d’alterner • Estimation de par • Estimation de  par la méthode des moments • C’est un estimateur asymptotiquement sans biais, même si V est mal spécifiée, à condition que V soit estimable; mais on gagne en efficacité quand V est bien spécifiée

  12. Symétrie de composition Type =independent :  = 0 Type=exchangeable

  13. Autorégressive Type=AR(1)

  14. Type = m-dependent On peut fixer le nombre m de diagonales non nulles

  15. Non structurée

  16. Enquête de satisfaction Deux questions Etes vous satisfait de votre logement NON / OUI (Y=0, 1) Etes vous satisfait de son environnement NON / OUI / Très satisfait (X = 0, 1, 2) 20 zones, 3 à 5 foyers par zone Modéliser la relation entre Y et X

  17. GEE procgenmoddata =mixb descending ; class groupe ; model domb = voisinage/ dist=binomial link=logit ; repeated subject=groupe / type = cs modelsecovbcorrw ; =0.82 écart-type sandwich = 0.38 écart-type modèle = 0.34

  18. Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance 94 124.9594 1.3294 Scaled Deviance 94 124.9594 1.3294 Pearson Chi-Square 94 96.0305 1.0216 Scaled Pearson X2 94 96.0305 1.0216 Log Likelihood -62.4797 Analysis Of Initial Parameter Estimates Standard Wald 95% Confidence Chi- Parameter DF Estimate Error Limits Square Pr > ChiSq Intercept 1 -0.9761 0.3994 -1.7588 -0.1933 5.97 0.0145 voisinage 1 1.0007 0.3761 0.2635 1.7379 7.08 0.0078 Scale 0 1.0000 0.0000 1.0000 1.0000 Ce tableau concerne l’estimation par maximisation de la vraisemblance de données supposées indépendantes

  19. GEE Model Information Correlation Structure Exchangeable Subject Effect groupe (20 levels) Number of Clusters 20 Correlation Matrix Dimension 5 Maximum Cluster Size 5 Minimum Cluster Size 3 Covariance Matrix (Model-Based) Prm1 Prm2 Prm1 0.17135 -0.10377 Prm2 -0.10377 0.11502 Covariance Matrix (Empirical) Prm1 Prm2 Prm1 0.19373 -0.13163 Prm2 -0.13163 0.14464

  20. GEE Model Information Correlation Structure Exchangeable Subject Effect groupe (20 levels) Number of Clusters 20 Correlation Matrix Dimension 5 Maximum Cluster Size 5 Minimum Cluster Size 3 Covariance Matrix (Model-Based) Prm1 Prm2 Prm1 0.17135 -0.10377 Prm2 -0.10377 0.11502 Covariance Matrix (Empirical) Prm1 Prm2 Prm1 0.19373 -0.13163 Prm2 -0.13163 0.14464

  21. Working Correlation Matrix Col1 Col2 Col3 Col4 Col5 Row1 1.0000 0.1979 0.1979 0.1979 0.1979 Row2 0.1979 1.0000 0.1979 0.1979 0.1979 Row3 0.1979 0.1979 1.0000 0.1979 0.1979 Row4 0.1979 0.1979 0.1979 1.0000 0.1979 Row5 0.1979 0.1979 0.1979 0.1979 1.0000

  22. Analysis Of GEE Parameter Estimates Empirical Standard Error Estimates Standard 95% Confidence Parameter Estimate Error Limits Z Pr > |Z| Intercept -0.8106 0.4401 -1.6732 0.0521 -1.84 0.0655 voisinage 0.8204 0.3803 0.0750 1.5658 2.16 0.0310 Analysis Of GEE Parameter Estimates Model-Based Standard Error Estimates Standard 95% Confidence Parameter Estimate Error Limits Z Pr > |Z| Intercept -0.8106 0.4139 -1.6219 0.0008 -1.96 0.0502 voisinage 0.8204 0.3391 0.1557 1.4851 2.42 0.0156 Scale 1.0000 . . . . .

  23. Régression logistique alternée • Corrélation entre 2 observations d’un même groupe • Pour les observations binaires, Carey, Diggle et Zeger (1993) ont proposé de modéliser les associations intra-groupe à l’aide de l’odds ratio par paires • Pratiquement, on estime alternativement, et jusqu’à convergence • Le vecteur  sachant  •  sachant 

  24. Régression logistique alternée procgenmod data =mixb descending ; class groupe ; model domb = voisinage / dist=binomial link=logit ; repeated subject=groupe / logor=exch modelse covb ; vois= 0.84 sd = 0.38 (sandwich) sd = 0.35 (modèle)

  25. Données de comptage corrélées: GEE Comparaison de 2 traitements (TT) de l’épilepsie Suivi longitudinal du nombre de crises hebdomadaires, visite = rang de l’observation, logsemaines = terme de compensation (offset) pour tenir compte de la durée inégale des délais entre 2 visites Log[E(crises)] = +TT) visite +logsemaines

  26. GEE procgenmoddata=epilepsie2; title"EPILEPSIE modele log-lineaire" ; class tt id ; model crises = tt visite tt*visite / offset = logsemaines dist=poisson link=log ; repeated subject=id/ type=ind covbcorrw ; Log[E(crises)] = +TT) visite +logsemaines

  27. procgenmoddata=epilepsie2 order=data ; title"EPILEPSIE modele log-lineaire" ; class tt id visiteb ; model crises = tt visite tt*visite / offset = logsemaines dist=poisson link=log ; repeated subject=id / withinsubject=visiteb type=ind covbcorrw ;

  28. Analysis Of GEE Parameter Estimates Empirical Standard Error Estimates Standard 95% Confidence Parameter Estimate Error Limits Z Pr > |Z| Intercept 1.3810 0.1586 1.0700 1.6919 8.70 <.0001 tt 1 -0.1523 0.1939 -0.5322 0.2277 -0.79 0.4323 tt 0 0.0000 0.0000 0.0000 0.0000 . . visite 0.0185 0.0400 -0.0598 0.0969 0.46 0.6426 visite*tt 1 -0.0865 0.0573 -0.1988 0.0258 -1.51 0.1311 visite*tt 0 0.0000 0.0000 0.0000 0.0000 . .

  29. Estimation des ressemblances par quasi-vraisemblance • Estimer la matrice de travail en maximisant une quasi-vraisemblance, non par la méthode des moments (Prentice, 1988) • On modélise les probabilités et les corrélations marginales • On estime et par GEE

  30. Ressemblances intra-groupes: GEE1 • Que l’on estime les paramètres de la ressemblance intra-groupe par la méthode des moments, par la régression logistique alternée, ou avec les équations précédentes, les estimateurs de  et  sont indépendants. • Avantage : les erreurs de spécifications de la structure intra-groupe ne biaisent pas l’estimation de  • Inconvénient: on risque de perdre de l’efficacité par rapport à un estimateur qui saurait prendre en compte les corrélations entre les deux estimateurs

  31. Extension : de GEE1 à GEE2 • Les Zijk sont supposés indépendants • Les estimateurs de  et  sont supposés indépendants • Il faut donc utiliser l’estimateur sandwich de la variance qui fait maintenant intervenir les moments d’ordre 4 des observations

  32. Extension des GEE: GEE2 • Les Zijk ne sont pas supposés indépendants :on spécifie une matrice de corrélations de travail • Les estimateurs de  et  ne sont plus supposés indépendants • Les erreurs de spécification de la matrice des corrélations vont biaiser l’estimation de puisque celle ci intervient maintenant dans l’estimateur

  33. Modèle linéaire généralisé mixte: GLMM • Pour estimer  et Gi, il faut intégrer par rapport aux bi • On ne sait le faire analytiquement que dans des cas particuliers • Y et b normaux, • Y Poisson et b ordonnée à l’origine gamma • Y binomiale et b ordonnée à l’origine beta

  34. GLMM: estimation Que faire dans le cas général: utiliser des méthodes numériques • Approcher l’espérance par un développement limité autour de la médiane des bi = 0 (1er ou 2ème ordre) C’est la justification du modèle logistique marginal • Utiliser une approximation autour du mode de la distribution des bi (méthode de Laplace) • Utiliser une méthode d’intégration numérique • Quadrature • Quadrature adaptative

  35. Biblio Gouriéroux, C, Monfort, A, Trognon, A. Pseudo maximum likelihood methods: theory. Econometrika, 1984;52:681-700 Liang KY, Zeger, SL. Longitudinal analysis using generalized linear models. Biometrika, 1986;73:13-22. Prentice RL. Correlated binary regression with covariates specific to each binary observation. Biometrics, 1988;44:1033-1048. Zhao, LP, Prentice SL. Correlated binary regression using a quadratic exponential model. Biometrika,1990;77:642-648.

  36. Carey, VJ, Zeger, SL, Diggle, PJ., Modelling multivariate binary data with alternating logistic regression. Biometrika, 1993;80:517-526.

More Related