1 / 47

Benoît Laplante, professeur

Programmes de maîtrise et de doctorat en démographie Modèles de risque et de durée Cours 6 Séance du 21 février 2014. Benoît Laplante, professeur. Plan. Les modèles de risque dans la recherche démographique Un exemple: le départ du foyer parental Temps continu, temps discret, temps regroupé

Download Presentation

Benoît Laplante, professeur

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Programmes de maîtrise et de doctorat en démographieModèles de risque et de duréeCours 6Séance du 21 février 2014 Benoît Laplante, professeur

  2. Plan Les modèles de risque dans la recherche démographique • Un exemple: le départ du foyer parental Temps continu, temps discret, temps regroupé Un modèle de risque en temps discret : le modèle logistique Un modèle de risque semi-paramétrique en temps continu : le modèle de Cox

  3. Les modèles de risque dans la recherche démographique L’analyse statistique des biographies • ou analyse démographique des biographies • ou analyse des transitions • ou event history analysis est la principale manière d’utiliser la notion de parcours de vie avec des modèles statistiques pour étudier les phénomènes démographiques • natalité, mortalité, migration et leurs corrélats proches ou lointains • nuptialité, divortialité, morbidité • contraception, avortement, usage des soins de santé • étapes de la vie • passage à la vie adulte, vieillissement lorsqu’on utilise des données individuelles (ou microdonnées) plutôt que des données agrégées.

  4. Les modèles de risque dans la recherche démographique Les modèles de risque sont les modèles linéaires qui conviennent le mieux au cas où • le phénomène étudié est un changement d’état et • l’on s’intéresse aux effets d’une ou plusieurs variables indépendantes sur • le rythme auquel ce changement d’état se produit ou • le moment auquel se produit ce changement.

  5. Un exemple: le départ du foyer parental Pascale Beaupré, Pierre Turcotte et Anne Milan (2006) « Quand fiston quittera-t-il la maison? Transition du domicile parental à l’indépendance » Tendances sociales canadiennes, 82: 8-15.

  6. Un exemple: le départ du foyer parental Le phénomène étudié est un • changement d’état ou • le passage d’un état à un autre • d’habiter chez ses parents à ne pas habiter chez ses parents • un événement • cesser d’habiter chez ses parents.

  7. Un exemple: le départ du foyer parental On cherche à vérifier certaines hypothèses en estimant l’effet de certaines variables indépendantes dont • la cohorte de naissance • la structure familiale pendant l’enfance • la fratrie • l’activité de la mère et du père • le lieu de naissance de la mère • etc.

  8. Un exemple: le départ du foyer parental On utilise un modèle à risques proportionnels • (le modèle de Cox même si la chose n’est pas précisée) pour estimer les effets des variables indépendantes sur le risque (et non pas la probabilité) qui régit le processus de changement d’état.

  9. Un exemple: le départ du foyer parental L’ effet de la variable indépendante s’exprime en rapport de risque (hazard ratio) également nommé risque relatif (relative risk): • une variable qui augmente le risque (et donc accélère le processus) a un effet supérieur à 1 et • une variable qui diminue le risque (et donc ralentit le processus) a un effet compris entre 0 et 1 (c.-à-d. [0,1[).

  10. Temps continu, temps discret, temps regroupé En statistique, on connaît deux types de caractère : • le caractère qualitatif (p. ex. le sexe ou la langue) et • le caractère quantitatif (p. ex. l’âge, le revenu ou le nombre des enfants mis au monde par une femme). On distingue de plus deux types de caractères quantitatifs : • le caractère quantitatif continu (p. ex. l’âge ou le revenu) et • le caractère quantitatif discret (p. ex. le nombre des enfants mis au monde par une femme). À strictement parler, on réserve le mot « variable » au caractère quantitatif. • L’expression « variable discrète » désigne donc un caractère quantitatif discret alors que • l’expression « variable continue » désigne un caractère quantitatif continu.

  11. Temps continu, temps discret, temps regroupé La variable discrète ne prend que des valeurs entières et positives (ses valeurs sont éléments de ℕ) : • on n’a pas 2,5 enfants ou -3 enfants. Une statistique d’une variable discrète peut être un nombre négatif ou décimal : • la moyenne du nombre d’enfants par femme est un réel positif (élément de ℝ+); • le coefficient de symétrie de sa distribution statistique est un réel (élément de ℝ).

  12. Temps continu, temps discret, temps regroupé Il faut absolument éviter de confondre • la variable discrète et • la distribution qui résulte du regroupement des valeurs d’une variable discrète ou continue en classes. Fort malheureusement, la démographie classique utilise l’expression « temps discret » pour désigner • le regroupement en classes des valeurs de la variable continue « temps » (qu’il s’agisse de l’âge, du temps écoulé depuis la dernière naissance ou depuis la formation d’une union) et • les opérations mathématiques ou statistiques propres au traitement d’une variable continue dont les valeurs sont regroupées en classes.

  13. Temps continu, temps discret, temps regroupé Pour éviter la confusion, • on conservera aux mots « discret » et « continu » le sens qu’ils ont en statistique et • on nommera « regroupé » ce qui se rapporte au traitement des variables dont les valeurs sont regroupées en classes.

  14. Temps continu, temps discret, temps regroupé La table « classique » traite le cas « regroupé » au moyen d’un artifice : • on estime le taux au centre de l’intervalle de classe et • on présume que le flux des événements est constant tout au long de l’intervalle, • ce qui implique que le taux augmente du début à la fin de l’intervalle. La table construite à partir de taux dont les dénominateurs sont le temps à risque exact et le modèle de Poisson par parties traitent le cas « regroupé » au moyen d’une simplification moins irréaliste : • le taux est présumé constant du début à la fin de l’intervalle, • ce qui implique que le flux diminue, • chose réaliste dans le cas d’un événement non renouvelable puisque la proportion des « survivants » diminue nécessairement au fil du temps.

  15. Temps continu, temps discret, temps regroupé En sciences sociales, le « cas discret » au sens de la statistique est rare. Il exige que l’événement ne puisse se produire qu’à des moments qui puissent être représentés par des entiers naturels. Le « meilleur » exemple • la promotion des professeurs d’université, qui ne se fait qu’une fois par année (Paul D. Allison) Autre exemple, moins bon en pratique : • la réussite d’un programme d’études régulier, qui ne peut survenir qu’une fois par trimestre. À strictement parler, les modèles statistiques développés pour l’étude des phénomènes qui se déroulent « en temps discret » ne valent que pour ces cas rares.

  16. Temps continu, temps discret, temps regroupé Lorsqu’on traite un phénomène « en continu » • l’intervalle devient infinitésimal, • la distinction entre le moment (la valeur de t sur l’échelle du temps) et la quantité de temps à risque disparaît, • la probabilité (donc le quotient de la démographie et le risque de l’épidémiologie) et le taux se confondent. « En continu », • quotient instantané, • risque instantané et • taux instantané sont synonymes.

  17. Temps continu, temps discret, temps regroupé Le risque instantané comme limite • Le risque instantané (ou quotient instantané ou taux instantané) est la probabilité de changer d’état au cours d’un intervalle de largeur infinitésimale (quantité de temps d’exposition infiniment petite) si on n’a pas déjà changé d’état avant cet intervalle (position de cet intervalle sur l’axe du temps).

  18. Un modèle de risque en temps discret : le modèle logistique Rappel de la régression logistique L’usage de la régression logistique • dans l’étude du changement d’état • plutôt que dans l’étude de l’appartenance statique à une modalité d’un caractère qualitatif.

  19. Un modèle de risque en temps discret : le modèle logistique La régression logistique est un modèle linéaire qui permet d’estimer les effets d’une ou plusieurs variables indépendantes sur une variable dépendante Comme tout modèle linéaire, il est composé de trois éléments: • un élément déterministe • un élément aléatoire et • une fonction de liaison. Son élément le plus intéressant est sa fonction de liaison.

  20. Un modèle de risque en temps discret : le modèle logistique La variable dépendante d’un modèle linéaire doit pouvoir varier entre moins l’infini et plus l’infini. On ne peut pas construire directement un modèle linéaire dont la variable dépendanteserait 0 ou 1. On ne peut pas non plus construire directement un modèle linéaire dont la variable dépendantevarierait entre 0 et 1.

  21. Un modèle de risque en temps discret : le modèle logistique Construire un modèle linéaire dont on sait que la variable dépendante varie entre 0 et 1 (comme c’est le cas d’une probabilité) en utilisant simplement la probabilité comme variable dépendante d’une régression conventionnelle conduit à une absurdité: les valeurs prédites peuvent être inférieures à 0 ou supérieures à 1.

  22. Un modèle de risque en temps discret : le modèle logistique La chose a cependant été courante pendant quelques décennies du XXe siècle. Ce mauvais modèle permet cependant de voir comment on passe (naïvement) d’une variable dépendante observée binaire à une variable dépendante estimée qui est continue (même si elle n’est pas bornée correctement). On pose que la valeur observée (0 ou 1) qui est la réalisation d’un tirage aléatoire correspond à la probabilité (comprise en principe entre 0 et 1) qui a régi ce tirage et que l’on estime au moyen du modèle.

  23. Un modèle de risque en temps discret : le modèle logistique L’élément le plus intéressant de la régression logistique est sa fonction de liaison qui propose une autre manière de passer d’une variable observée binaire à une probabilité. Plutôt que d’estimer la probabilité d’appartenir à la modalité représentée par la valeur 1, on estime le rapport entre la probabilité d’appartenir à cette modalité et la probabilité d’appartenir à l’autre modalité:

  24. Un modèle de risque en temps discret : le modèle logistique Dans la régression logistique (également nommée « modèle logit »), on utilise la courbe logistique comme fonction de liaison.

  25. Un modèle de risque en temps discret : le modèle logistique Le modèle peut être représenté sous sa forme multiplicative ou additive. Nous l’utiliserons surtout sous sa forme multiplicative.

  26. Un modèle de risque en temps discret : le modèle logistique Le modèle comprend bien sûr un élément aléatoire. Il s’agit de la loi binomiale dont nous montrons ici la fonction de densité sous trois formes différentes mais reliées.

  27. Un modèle de risque en temps discret : le modèle logistique L’espérance mathématique du modèle est la probabilité que la probabilité vaille π. La variance est égale au produit de π et 1-π.

  28. Un modèle de risque en temps discret : le modèle logistique Un exemple simple de régression logistique, sous forme additive: Le même exemple simple, sous forme multiplicative:

  29. Un modèle de risque en temps discret : le modèle logistique Il est plus simple d’interpréter les coefficients de la régression logistique sous sa forme multiplicative que sous sa forme additive:

  30. Un modèle de risque en temps discret : le modèle logistique Dans la forme multiplicative de la régression logistique: • la variable dépendante est le quotient de deux probabilités; • pour cette raison, l’effet d’une variable indépendante est d’augmenter ou de réduire le rapport entre ces deux probabilités; • les effets des variables indépendantes ne s’additionnent pas à l’ordonnée à l’origine et ne s’additionnent pas les uns aux autres, • ils multiplient l’ordonnée à l’origine et se multiplient les uns les autres.

  31. Un modèle de risque en temps discret : le modèle logistique Interprétation des coefficients On a réalisé une enquête qui permet de relier le fait d’avoir obtenu ou non le diplôme de premier cycle dans les délais prévus au nombre d’heures consacré aux études par semaine. On a interrogé les étudiants au moment où ils devaient compléter leur programme et on estimé l’effet du nombre d’heures d’études par semaine sur la probabilité d’avoir obtenu le diplôme au moyen d’un régression logistique. On a les coefficients suivants: • α = -1,3863 et • β = 0,0953.

  32. Un modèle de risque en temps discret : le modèle logistique La modalité de référence: ne pas avoir étudié du tout Rapport de cotes ou rapport de probabilités ou rapport de « chances » Probabilité

  33. Un modèle de risque en temps discret : le modèle logistique Un autre cas: avoir étudié 20 heures par semaine Rapport de cotes ou rapport de probabilités ou rapport de « chances » Probabilité

  34. Un modèle de risque en temps discret : le modèle logistique La régression logistique comme modèle de risque et non plus de probabilité. On reprend l’enquête sur l’obtention du diplôme, mais • on la réalise à tous les ans, • on vérifie si le diplôme est obtenu à la fin de chaque année et on mesure le nombre d’heures consacrées à l’étude à chaque année et • on suit les étudiants pendant huit ans.

  35. Un modèle de risque en temps discret : le modèle logistique On construit un fichier biographique où on a, pour chaque étudiant, une ligne par année de présence dans le groupe à risque. On sort du groupe à risque en • obtenant le diplôme (en changeant d’état), • en abandonnant les études (sans changer d’état) ou • après huit ans d’études sans avoir obtenu le diplôme (également sans changer d’état).

  36. Un modèle de risque en temps discret : le modèle logistique La variable dépendante • vaut 1 lorsque l’année se termine par l’obtention du diplôme et • vaut 0 lorsque l’année se termine sans l’obtention du diplôme. La variable dépendante • n’est donc plus la probabilité d’avoir obtenu le diplôme, • mais bien la probabilité de l’obtenir si l’on est toujours à risque de l’obtenir, ou encore • le nombre de changements d’état divisé par le nombre des individus à risque au cours de l’année. La variable dépendante n’est donc plus une probabilité, mais bien un risque.

  37. Un modèle de risque en temps discret : le modèle logistique On estime une régression logistique où chaque ligne du fichier biographique ajoute une contribution à la fonction de vraisemblance. On permet généralement à l’ordonnée à l’origine de prendre une valeur différente pour chaque unité de temps, puisque l’on sait qu’il est plus « probable » d’obtenir le diplôme au cours de certaines années et moins au cours d’autres années. L’équation a donc la forme suivante:

  38. Un modèle de risque en temps discret : le modèle logistique Les effets des variables indépendantes se manipulent et s’interprètent de manière analogue à ceux de la régression logistique « ordinaire », sauf qu’ils ne font plus augmenter ou décroître un rapport de probabilités, mais bien un taux.

  39. Un modèle de risque semi-paramétrique en temps continu : le modèle de Cox On représente généralement comme suit le modèle semi-paramétrique à risques proportionnels (ou relatifs) de Cox où h(t|x1, x2, …, xn) est le risque au temps t pour une combinaison donnée de valeurs des variables indépendantes x1, x2, …, xn, h0(t) est le risque de base, x est le vecteur des variables indépendantes et βest le vecteur des coefficients du modèle.

  40. Un modèle de risque semi-paramétrique en temps continu : le modèle de Cox Le modèle de Cox a une forme semblable à celle de la régression logistique utilisée comme modèle de risque. La principale différence est que dans le modèle de Cox, on estime le risque de base avec la logique de l’estimateur de Kaplan-Meier (c.-à-d. un nouvel intervalle à chaque changement d’état dans l’échantillon) plutôt qu’en « échantillonnant » le temps à intervalles égaux prédéfinis (comme on échantillonne la musique pour en faire un enregistrement numérique).

  41. Un modèle de risque semi-paramétrique en temps continu : le modèle de Cox La fonction de vraisemblance partielle du modèle de Cox et son rapport avec le fichier biographique.

  42. Sur le modèle logistique et le modèle de Cox Ces modèles utilisent l’effectif du groupe à risque plutôt que le temps passé à risque au dénominateur des taux. Les unités qui sortent du groupe à risque sans changer d’état sortent du groupe à risque • après chaque instant discret dans le modèle logistique et • après l’instant qui marque la fin de chaque intervalle dans le modèle de Cox. Ceci ne crée pas de biais si le modèle logistique s’il est utilisé pour étudier un phénomène véritablement discret, • mais sous-estime systématiquement le risque si le modèle logistique est utilisé pour étudier un phénomène intrinsèquement continu. Ceci sous-estime systématiquement le risque dans le modèle de Cox. Les unités qui sortent du groupe à risque en changeant d’état ne sont pas comptées au dénominateur et le taux est donc systématiquement surestimé.

  43. Annexe La régression logistique en économétrie Les économètres ont développé une interprétation particulière de la régression logistique. Pour les statisticiens, la régression logistique a une composante aléatoire — la loi binomiale — et une fonction de liaison — la courbe logistique centrée réduite (sic) — qui sert à faire correspondre l’étendue des valeurs prédites ([-∞,+∞]) à l’étendue d’une probabilité ([0,1]). Pour les économètres, la régression logistique a deux composantes aléatoires: la loi binomiale et la loi logistique centrée réduite.

  44. Annexe La régression logistique en économétrie Les économètres interprètent de manière analogue le modèle probit. Pour les statisticiens, le modèle probit a une composante aléatoire — la loi binomiale — et une fonction de liaison — l’intégrale de la courbe normale centrée réduite (sic) — qui, comme la courbe logistique dans la régression logistique, sert à faire correspondre l’étendue des valeurs prédites ([-∞,+∞]) à l’étendue d’une probabilité ([0,1]). Pour les économètres, la régression logistique a deux composantes aléatoires: la loi binomiale et la loi normale centrée réduite.

More Related