1 / 20

Statistique et Causalité

Statistique et Causalité. Selon J. Pearl. Lithiase rénale (paradoxe de Simpson). Lithiase rénale. Où est le problème? Succès Petite lithiase Percutané K. Pearson (1899) :

sharla
Download Presentation

Statistique et Causalité

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Statistique et Causalité Selon J. Pearl

  2. Lithiase rénale(paradoxe de Simpson)

  3. Lithiase rénale • Où est le problème? • Succès Petite lithiase Percutané • K. Pearson (1899) : • A mixture of heterogeneous groups, each of which exhibits in itself no correlation, will exhibit a greater or lesser amount of correlation. To those who persist in looking upon correlation as cause and effect, this fact must come rather as a shock • C’est l’interprétation causale qui est à l’origine du paradoxe • Mais: que propose-t-on au prochain patient? • Si on regarde le dossier: chirurgie • Si on ne regarde pas: procédure percutanée !!

  4. Autrement dit… • Quelle est la bonne analyse : ajuster ou ne pas ajuster… • Quelles covariables doit-on introduire dans le modèle? (sélection des covariables ≠ sélection de modèle) • Qu’est-ce qu’un facteur de confusion? • Intuitivement: si je l’oublie, je vais conclure à une association statistique « fausse » (i.e. non causale!!!) • Plus formellement: • En relation causale avec la réponse, indépendamment de l’exposition • Associé à l’exposition, sans en être une conséquence

  5. Donc… • Le problème de sélection des covariables • N’est pas de nature statistique • Il est de nature causale • Il faut : • Un formalisme pour la causalité : graphes acycliques orientés, calcul des interventions • Spécifier un modèle causal (expliciter les hypothèses causales)

  6. Graphes • Graphe = (S,A) • S: sommets • A: arêtes (relient les sommets 2 par 2) • Graphes orientés acycliques (Directed Acyclic Graphs, réseaux bayésiens) • Arêtes orientées (flèches), pas de cycle • Flèche: représente un mécanisme causal (hypothétique) b b b a a a d c d d c c

  7. Graphes • Pratiques pour représenter les lois conjointes (reflètent les hypothèses d’indépendance): une variable est indépendante de ses prédécesseurs, conditionnellement à ses parents • Peuvent être élaborés selon des hypothèses causales (réseaux bayésiens causaux) • Causalité: intuitive (qualitative, asymétrique)), contrairement à dépendance statistique (quantitative, symétrique)

  8. Calcul des interventions • Consiste à élaguer le modèle causal de base • do(X=x): imposer X=x • On élague les flèches arrivant sur X • On fixe X à la valeur x • : • loi de Y dans le graphe élagué • effet (causal) de X sur Y • en général ≠ (facteurs de confusion)

  9. Imposer le traitement =élaguer le modèle causal Niveau socio-culturel Chirurgie Traitement T Voiture Taille lithiase TA Age Résultat Résultat R

  10. Sélection des covariables: la solution dépend du modèle causal Niveau socio-culturel Traitement Traitement T Voiture Taille lithiase TA Age Résultat Résultat V associée à T et R!! R Ajuster Ne pas ajuster

  11. Essai randomisé Essai randomisé Observation Randomisation Traitement U* U* Traitement Réponse Réponse • La randomisation élague les flèches • arrivant à la variable traitement…

  12. Retour sur le paradoxe de Simpson • Il n’y a pas de paradoxe • Théorème

  13. Observer vs. Faire • Dans les modèles de causalité, on suppose que chaque relation fonctionnelle parent-descendant représente un mécanisme stable et autonome: • Le modèle obtenu en modifiant un mécanisme sans changer les autres reste un modèle valide de la réalité (organisation modulaire) • Modèle probabiliste (bayésien): définit la probabilité d’événements et comment ces probabilités varieront avec les observations futures (modèle lui-même: statique) • Modèle de causalité: définit en outre comment varieront les probabilités après des interventions (modèle dynamique: changements possibles)

  14. Conclusion • Clarifie/simplifie (Simpson, facteurs de confusion) • Conduit à expliciter les hypothèses causales sous-jacentes • Formalisme pour expliciter/discuter/calculer

  15. d-séparation dans GAO • Soient X, Y, Z sous-ensembles de variables • X et Y d-séparés : tout chemin (non orienté) de X à Y contient un confluent (collider): i k j • X et Y d-séparés par Z : tout chemin (non orienté) de X à Y est bloqué par Z, i.e. contient • une chaîne igzgj ou une fourche ifzgj, • ou un confluent igz*fj tel que ni z* ni ses descendants ne sont dans Z

  16. d-séparation et indépendance • d-séparation dans le graphe indépendance en probabilité : • Si X et Y sont d-séparés par Z dans un GAO, alors X et Y sont indépendants conditionnellement à Z pour toute probabilité compatible avec le GAO • Si X et Y sont indépendants conditionnellement à Z pour toute probabilité compatible avec un GAO, alors X et Y sont d-séparés par Z dans le GAO

  17. d-séparation • chaîne igzgj ou fourche ifzgj: • le conditionnement sur z rend i et j indépendantes • confluent igz*fj: • le conditionnement sur z* (ou un descendant) rend i et j dépendantes • Exemple: • A,B binaires, indépendantes • C = A + B (AgCfB) • Si C=1: B = 1 – A • A et B dépendantes conditionnellement à C • biais de sélection (Berkson)

  18. Le critère ‘back-door’ • On observe X, Y et des covariables Z et on veut calculer P(Y|do(X=x)) • S’il n’y a pas de facteur de confusion P(Y|do(X=x)) = P(Y|X=x) (par définition!) • Chemin back-door: contient une flèche vers X (‘affecte’ X) • Z satisfait le critère ‘back-door’ si • Z ne contient aucun descendant de X (X n’affecte pas Z) • Z bloque tout chemin back-door c de X à Y (X n’affecte pas Z), i.e. • c contient une chaîne ou une fourche dont l’élément médian est dans Z (indépendance conditionnelle) • Ou: c contient un confluent dont ni l’élément médian ni ses descendants ne sont dans Z (l’indépendance marginale est préservée par conditionnement sur Z)

  19. Back-door et ajustement • Si Z satisfait le critère back-door pour X et Y, alors : • Les covariables à inclure dans le modèle (de régression) sont celles qui permettent le calcul ci-dessus (Z: ensemble minimal satisfaisant le back-door)

  20. Exemple Niveau socio-culturel Traitement Traitement T Voiture Taille lithiase TA Age Résultat Résultat R Taille bloque (fourche) TA descend de T V ne bloque pas (confluent)

More Related