1 / 21

Sélection de variables : quelle(s) méthode(s) ?

Sélection de variables : quelle(s) méthode(s) ?. Anne Viallefont. Pourquoi la sélection de variables pose-t-elle problème en écologie ?. Sur certains jeux de données, l’utilisation de méthodes différentes donne des résultats différents

chaim
Download Presentation

Sélection de variables : quelle(s) méthode(s) ?

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Sélection de variables : quelle(s) méthode(s) ? Anne Viallefont

  2. Pourquoi la sélection de variables pose-t-elle problème en écologie ? • Sur certains jeux de données, l’utilisation de méthodes différentes donne des résultats différents • Si les variables explicatives sont complètement indépendantes, alors toutes les méthodes donnent le même résultat. • La « nouvelle statistique » permet de décrire les phénomènes complexes de l’écologie (Hobbs & Hilborn, Ecol. Applic., 2006)

  3. De très nombreux articles récents… • Méthode de l’étude bibliographique : • Thèmes retenus : sélection de modèles, de variables, model averaging, tests multiples d’hypothèses nulles • tous les articles de l’ESA + JASA & Biometrics sur le sujet depuis 2003 • toutes les références dans les articles disponibles (ESA + Biometrics +…) • Thèmes non retenus : modèles de mélange

  4. Fréquence des articles consacrés à la sélection de modèles

  5. Notions de base • Maximum de vraisemblance C’est la valeur des paramètres qui maximise la probabilité d’apparition du jeu de données effectivement observé • Distance de Kullback - Leibler C’est une mesure de la quantité d’information perdue lorsqu’on représente la « vérité » par le modèle Problème : pour la connaître il faut connaître explicitement la « vérité » (p) Pour une distribution discrète :

  6. Notions de base • Principe de parcimonie Optimisation du trade-off entre variance et biais (ou entre ajustement et complexité) • « rasoir d’Occam » L’explication la plus simple est la plus probable…

  7. Différentes méthodes possibles… • Tests d’hypothèses par comparaison de modèles emboîtés : tests F partiels / LRT • « cross-validation » • AIC • Autres critères avec terme de pénalité • Approche « bayésienne »

  8. La sélection de variables « à l’ancienne » - tests successifs entre modèles emboîtés • Références : • Voir par exemple Stephens et al. 2005 – JAE 42:4-12. • Avantages : • Pertinence des questions / contrôle de ce qu’on fait • Inconvénients : • Encouragerait (?) les questions « triviales », et les hypothèses nulles « silly » • test de nombreux facteurs    • Le modèle final choisi dépend du « chemin » pris • Précautions d’emploi • Contrôle de  • Choix d’une procédure « step-down » après VALIDATION du modèle initial (test d’ajustement)

  9. Le Critère d’Information d’Akaike (AIC) - 1973 • Estime la valeur attendue de la distance de Kullback – Leibler • Avantages : • Simplicité d’utilisation • Interprétation : Sélectionne le modèle le plus proche possible de la « vérité » • Inconvénients : • A tendance à favoriser un modèle d’autant plus compliqué qu’il y a plus de données • Précautions d’emploi : • S’assurer que le modèle le plus complexe est ajusté aux données, sinon utiliser un « facteur d’inflation » et QAIC (Lebreton et al. 1992)

  10. De quoi se perdre… • AIC 1973 • TIC 1976 • BIC Schwarz 1978 • AICCHurvich et Tsai 1989 • NIC Murata et al. 1994 • QAIC, QAICC Burnham et Anderson 1998 • RIC Basu et al. 1998 • DIC Spiegelhalter et al. 2002 • FIC et FRIC (!) Claeskens et Hjort 2003 + Cp, CVL, FPE, PredSS…

  11. AICC – QAIC - QAICC • Hurvich et Tsai ont montré que AIC était biaisé pour les petits échantillons. • QAIC et QAICC Modification de AIC à utiliser si le modèle le plus complexe n’est pas ajusté aux données

  12. L’approche bayésienne • On fixe une « probabilité a priori » à chacun des modèles que l’on veut tester (1, 2, 3…). Exemples : « Rasoir d’Ockham » : pondération plus forte des modèles les plus simples ; équiprobabilité entre les modèles • On ajuste ces modèles (par des méthodes bayésiennes si possible…), et on en déduit une « probabilité a posteriori » selon la formule :

  13. L’approche bayésienne • On utilise le critère BIC : • Si l’a priori est « plat », alors • On peut trouver des estimateurs « intermédiaires » par « model averaging » avec comme poids les proba a posteriori des modèles.

  14. L’approche bayésienne • Remarque intéressante (Burnham and Anderson 2004, Link and Barker 2006) : Si on utilise comme « a priori » : alors AIC = BIC • Ce qui signifie que AIC est un cas particulier de BIC, avec des a priori dépendant directement du nombre de paramètres

  15. L’approche bayésienne • Avantages : • On peut intégrer de l’information provenant d’autres sources ou d’études antérieures • Si le « vrai modèle » se trouve parmi les modèles testés, c’est celui-ci qui est choisi par BIC • Le modèle choisi a peu de paramètres facilement interprétables, et leur nombre n’augmente pas lorsqu’on ajoute des données • Inconvénients : • Manque de « puissance statistique » • Comportement imprévisible si le « vrai modèle » n’est pas parmi ceux testés

  16. Le débat en écologie… Où en sommes-nous ? • Nous sommes loin d’une procédure sur laquelle tout le monde s’accorde… • « In some cases, model-selection verbiage occupies numerous pages, whereas the only useful biological information might be a model-averaged estimate of some demographic variable. We suspect, therefore, that IT-AIC has increased the ratio of statistics to biology in the pages of ecological journals, which we view as unfortunate » Guthery et al. JWM 2005

  17. Le débat en écologie… 1.arguments pro-AIC • « all statements in science are approximations of a complex truth (…) » (Burnham & Anderson 2002)  AIC • ce qui n’interdit pas le « model averaging » AIC weights : Burnham et Anderson préconise de moyenner sur les modèles avec i «  some value that is roughly 4 to 7 »

  18. Le débat en écologie… 2.arguments pro-BIC • Le « model averaging » n’a pas de sens hors du contexte bayésien • Attention ! L’utilisation d’AIC favorise les modèles complexes… (Link & Barker)  choisir les proba a priori adéquates et utiliser BIC Link et Barker proposent 4 calculs de proba a priori : Equiproba, AIC, proportionnel à Exp(k) et « Occam » (proportionnel à Exp(-k))

  19. Le débat en écologie… 3.Autres arguments • Guthery et al (2005) voient l’utilisation des critères de sélection de modèle comme • une forme d’induction scientifique, à condition d’avoir BIEN CHOISI en amont les modèles à tester • une analyse de sensibilité sur les variables du modèle le plus complexe • La sélection parmi de mauvais modèles ne peut donner un bon modèle • Il peut y avoir des « silly » modèles, comme des « silly hypotheses »

  20. Eléments de conclusion… • Avoir de bonnes données ! (« garbage in, garbage out ») • Choisir à l’avance les modèles intéressants/plausibles est PRIMORDIAL (on a vu un « meilleur modèle » prédire la présence de castors en l’absence d’eau…)  • Utiliser le bon outil • L’utilisation de multiples tests successifs sur modèles emboîtés est à éviter • L’utilisation d’outils t.q. AICc est inutile pour comparer 2 ou 3 modèles • Voir les cas où TIC/DIC sont préférables dans Burnham et Anderson 2002 : 268-351

  21. Eléments de conclusion… « Finally, we urge wildlife scientists to keep ecology, not statistics, in the forefront of wildlife science. Statistics are messy tools we use because time and money constraints force insufficient sampling » Guthery et al. 2005

More Related