S lection de variables quelle s m thode s
This presentation is the property of its rightful owner.
Sponsored Links
1 / 21

Sélection de variables : quelle(s) méthode(s) ? PowerPoint PPT Presentation


  • 74 Views
  • Uploaded on
  • Presentation posted in: General

Sélection de variables : quelle(s) méthode(s) ?. Anne Viallefont. Pourquoi la sélection de variables pose-t-elle problème en écologie ?. Sur certains jeux de données, l’utilisation de méthodes différentes donne des résultats différents

Download Presentation

Sélection de variables : quelle(s) méthode(s) ?

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


S lection de variables quelle s m thode s

Sélection de variables : quelle(s) méthode(s) ?

Anne Viallefont


Pourquoi la s lection de variables pose t elle probl me en cologie

Pourquoi la sélection de variables pose-t-elle problème en écologie ?

  • Sur certains jeux de données, l’utilisation de méthodes différentes donne des résultats différents

  • Si les variables explicatives sont complètement indépendantes, alors toutes les méthodes donnent le même résultat.

  • La « nouvelle statistique » permet de décrire les phénomènes complexes de l’écologie (Hobbs & Hilborn, Ecol. Applic., 2006)


De tr s nombreux articles r cents

De très nombreux articles récents…

  • Méthode de l’étude bibliographique :

    • Thèmes retenus : sélection de modèles, de variables, model averaging, tests multiples d’hypothèses nulles

    • tous les articles de l’ESA + JASA & Biometrics sur le sujet depuis 2003

    • toutes les références dans les articles disponibles (ESA + Biometrics +…)

    • Thèmes non retenus : modèles de mélange


Fr quence des articles consacr s la s lection de mod les

Fréquence des articles consacrés à la sélection de modèles


Notions de base

Notions de base

  • Maximum de vraisemblance

    C’est la valeur des paramètres qui maximise la probabilité d’apparition du jeu de données effectivement observé

  • Distance de Kullback - Leibler

    C’est une mesure de la quantité d’information perdue lorsqu’on représente la « vérité » par le modèle

    Problème : pour la connaître il faut connaître explicitement la « vérité » (p)

Pour une distribution discrète :


Notions de base1

Notions de base

  • Principe de parcimonie

    Optimisation du trade-off entre variance et biais (ou entre ajustement et complexité)

  • « rasoir d’Occam »

    L’explication la plus simple est la plus probable…


Diff rentes m thodes possibles

Différentes méthodes possibles…

  • Tests d’hypothèses par comparaison de modèles emboîtés : tests F partiels / LRT

  • « cross-validation »

  • AIC

  • Autres critères avec terme de pénalité

  • Approche « bayésienne »


La s lection de variables l ancienne tests successifs entre mod les embo t s

La sélection de variables « à l’ancienne » - tests successifs entre modèles emboîtés

  • Références :

    • Voir par exemple Stephens et al. 2005 – JAE 42:4-12.

  • Avantages :

    • Pertinence des questions / contrôle de ce qu’on fait

  • Inconvénients :

    • Encouragerait (?) les questions « triviales », et les hypothèses nulles « silly »

    • test de nombreux facteurs   

    • Le modèle final choisi dépend du « chemin » pris

  • Précautions d’emploi

    • Contrôle de 

    • Choix d’une procédure « step-down » après VALIDATION du modèle initial (test d’ajustement)


Le crit re d information d akaike aic 1973

Le Critère d’Information d’Akaike (AIC) - 1973

  • Estime la valeur attendue de la distance de Kullback – Leibler

  • Avantages :

    • Simplicité d’utilisation

    • Interprétation : Sélectionne le modèle le plus proche possible de la « vérité »

  • Inconvénients :

    • A tendance à favoriser un modèle d’autant plus compliqué qu’il y a plus de données

  • Précautions d’emploi :

    • S’assurer que le modèle le plus complexe est ajusté aux données, sinon utiliser un « facteur d’inflation » et QAIC (Lebreton et al. 1992)


De quoi se perdre

De quoi se perdre…

  • AIC 1973

  • TIC1976

  • BICSchwarz 1978

  • AICCHurvich et Tsai 1989

  • NICMurata et al. 1994

  • QAIC, QAICCBurnham et Anderson 1998

  • RICBasu et al. 1998

  • DICSpiegelhalter et al. 2002

  • FIC et FRIC (!)Claeskens et Hjort 2003

    + Cp, CVL, FPE, PredSS…


Aic c qaic qaic c

AICC – QAIC - QAICC

  • Hurvich et Tsai ont montré que AIC était biaisé pour les petits échantillons.

  • QAIC et QAICC Modification de AIC à utiliser si le modèle le plus complexe n’est pas ajusté aux données


L approche bay sienne

L’approche bayésienne

  • On fixe une « probabilité a priori » à chacun des modèles que l’on veut tester (1, 2, 3…). Exemples : « Rasoir d’Ockham » : pondération plus forte des modèles les plus simples ; équiprobabilité entre les modèles

  • On ajuste ces modèles (par des méthodes bayésiennes si possible…), et on en déduit une « probabilité a posteriori » selon la formule :


L approche bay sienne1

L’approche bayésienne

  • On utilise le critère BIC :

  • Si l’a priori est « plat », alors

  • On peut trouver des estimateurs « intermédiaires » par « model averaging » avec comme poids les proba a posteriori des modèles.


L approche bay sienne2

L’approche bayésienne

  • Remarque intéressante (Burnham and Anderson 2004, Link and Barker 2006) :

    Si on utilise comme « a priori » :

    alors AIC = BIC

  • Ce qui signifie que AIC est un cas particulier de BIC, avec des a priori dépendant directement du nombre de paramètres


L approche bay sienne3

L’approche bayésienne

  • Avantages :

    • On peut intégrer de l’information provenant d’autres sources ou d’études antérieures

    • Si le « vrai modèle » se trouve parmi les modèles testés, c’est celui-ci qui est choisi par BIC

    • Le modèle choisi a peu de paramètres facilement interprétables, et leur nombre n’augmente pas lorsqu’on ajoute des données

  • Inconvénients :

    • Manque de « puissance statistique »

    • Comportement imprévisible si le « vrai modèle » n’est pas parmi ceux testés


Le d bat en cologie o en sommes nous

Le débat en écologie… Où en sommes-nous ?

  • Nous sommes loin d’une procédure sur laquelle tout le monde s’accorde…

  • « In some cases, model-selection verbiage occupies numerous pages, whereas the only useful biological information might be a model-averaged estimate of some demographic variable. We suspect, therefore, that IT-AIC has increased the ratio of statistics to biology in the pages of ecological journals, which we view as unfortunate »

    Guthery et al. JWM 2005


Le d bat en cologie 1 arguments pro aic

Le débat en écologie… 1.arguments pro-AIC

  • « all statements in science are approximations of a complex truth (…) » (Burnham & Anderson 2002)

     AIC

  • ce qui n’interdit pas le « model averaging »

    AIC weights :

    Burnham et Anderson préconise de moyenner sur les modèles avec i «  some value that is roughly 4 to 7 »


Le d bat en cologie 2 arguments pro bic

Le débat en écologie… 2.arguments pro-BIC

  • Le « model averaging » n’a pas de sens hors du contexte bayésien

  • Attention ! L’utilisation d’AIC favorise les modèles complexes… (Link & Barker)

     choisir les proba a priori adéquates et utiliser BIC

    Link et Barker proposent 4 calculs de proba a priori :

    Equiproba, AIC, proportionnel à Exp(k) et « Occam » (proportionnel à Exp(-k))


Le d bat en cologie 3 autres arguments

Le débat en écologie… 3.Autres arguments

  • Guthery et al (2005) voient l’utilisation des critères de sélection de modèle comme

    • une forme d’induction scientifique, à condition d’avoir BIEN CHOISI en amont les modèles à tester

    • une analyse de sensibilité sur les variables du modèle le plus complexe

  • La sélection parmi de mauvais modèles ne peut donner un bon modèle

  • Il peut y avoir des « silly » modèles, comme des « silly hypotheses »


El ments de conclusion

Eléments de conclusion…

  • Avoir de bonnes données ! (« garbage in, garbage out »)

  • Choisir à l’avance les modèles intéressants/plausibles est PRIMORDIAL (on a vu un « meilleur modèle » prédire la présence de castors en l’absence d’eau…) 

  • Utiliser le bon outil

    • L’utilisation de multiples tests successifs sur modèles emboîtés est à éviter

    • L’utilisation d’outils t.q. AICc est inutile pour comparer 2 ou 3 modèles

    • Voir les cas où TIC/DIC sont préférables dans Burnham et Anderson 2002 : 268-351


El ments de conclusion1

Eléments de conclusion…

« Finally, we urge wildlife scientists to keep ecology, not statistics, in the forefront of wildlife science.

Statistics are messy tools we use because time and money constraints force insufficient sampling »

Guthery et al. 2005


  • Login