s lection de variables quelle s m thode s n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Sélection de variables : quelle(s) méthode(s) ? PowerPoint Presentation
Download Presentation
Sélection de variables : quelle(s) méthode(s) ?

Loading in 2 Seconds...

play fullscreen
1 / 21

Sélection de variables : quelle(s) méthode(s) ? - PowerPoint PPT Presentation


  • 142 Views
  • Uploaded on

Sélection de variables : quelle(s) méthode(s) ?. Anne Viallefont. Pourquoi la sélection de variables pose-t-elle problème en écologie ?. Sur certains jeux de données, l’utilisation de méthodes différentes donne des résultats différents

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Sélection de variables : quelle(s) méthode(s) ?' - chaim


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
pourquoi la s lection de variables pose t elle probl me en cologie
Pourquoi la sélection de variables pose-t-elle problème en écologie ?
  • Sur certains jeux de données, l’utilisation de méthodes différentes donne des résultats différents
  • Si les variables explicatives sont complètement indépendantes, alors toutes les méthodes donnent le même résultat.
  • La « nouvelle statistique » permet de décrire les phénomènes complexes de l’écologie (Hobbs & Hilborn, Ecol. Applic., 2006)
de tr s nombreux articles r cents
De très nombreux articles récents…
  • Méthode de l’étude bibliographique :
    • Thèmes retenus : sélection de modèles, de variables, model averaging, tests multiples d’hypothèses nulles
    • tous les articles de l’ESA + JASA & Biometrics sur le sujet depuis 2003
    • toutes les références dans les articles disponibles (ESA + Biometrics +…)
    • Thèmes non retenus : modèles de mélange
notions de base
Notions de base
  • Maximum de vraisemblance

C’est la valeur des paramètres qui maximise la probabilité d’apparition du jeu de données effectivement observé

  • Distance de Kullback - Leibler

C’est une mesure de la quantité d’information perdue lorsqu’on représente la « vérité » par le modèle

Problème : pour la connaître il faut connaître explicitement la « vérité » (p)

Pour une distribution discrète :

notions de base1
Notions de base
  • Principe de parcimonie

Optimisation du trade-off entre variance et biais (ou entre ajustement et complexité)

  • « rasoir d’Occam »

L’explication la plus simple est la plus probable…

diff rentes m thodes possibles
Différentes méthodes possibles…
  • Tests d’hypothèses par comparaison de modèles emboîtés : tests F partiels / LRT
  • « cross-validation »
  • AIC
  • Autres critères avec terme de pénalité
  • Approche « bayésienne »
la s lection de variables l ancienne tests successifs entre mod les embo t s
La sélection de variables « à l’ancienne » - tests successifs entre modèles emboîtés
  • Références :
    • Voir par exemple Stephens et al. 2005 – JAE 42:4-12.
  • Avantages :
    • Pertinence des questions / contrôle de ce qu’on fait
  • Inconvénients :
    • Encouragerait (?) les questions « triviales », et les hypothèses nulles « silly »
    • test de nombreux facteurs   
    • Le modèle final choisi dépend du « chemin » pris
  • Précautions d’emploi
    • Contrôle de 
    • Choix d’une procédure « step-down » après VALIDATION du modèle initial (test d’ajustement)
le crit re d information d akaike aic 1973
Le Critère d’Information d’Akaike (AIC) - 1973
  • Estime la valeur attendue de la distance de Kullback – Leibler
  • Avantages :
    • Simplicité d’utilisation
    • Interprétation : Sélectionne le modèle le plus proche possible de la « vérité »
  • Inconvénients :
    • A tendance à favoriser un modèle d’autant plus compliqué qu’il y a plus de données
  • Précautions d’emploi :
    • S’assurer que le modèle le plus complexe est ajusté aux données, sinon utiliser un « facteur d’inflation » et QAIC (Lebreton et al. 1992)
de quoi se perdre
De quoi se perdre…
  • AIC 1973
  • TIC 1976
  • BIC Schwarz 1978
  • AICCHurvich et Tsai 1989
  • NIC Murata et al. 1994
  • QAIC, QAICC Burnham et Anderson 1998
  • RIC Basu et al. 1998
  • DIC Spiegelhalter et al. 2002
  • FIC et FRIC (!) Claeskens et Hjort 2003

+ Cp, CVL, FPE, PredSS…

aic c qaic qaic c
AICC – QAIC - QAICC
  • Hurvich et Tsai ont montré que AIC était biaisé pour les petits échantillons.
  • QAIC et QAICC Modification de AIC à utiliser si le modèle le plus complexe n’est pas ajusté aux données
l approche bay sienne
L’approche bayésienne
  • On fixe une « probabilité a priori » à chacun des modèles que l’on veut tester (1, 2, 3…). Exemples : « Rasoir d’Ockham » : pondération plus forte des modèles les plus simples ; équiprobabilité entre les modèles
  • On ajuste ces modèles (par des méthodes bayésiennes si possible…), et on en déduit une « probabilité a posteriori » selon la formule :
l approche bay sienne1
L’approche bayésienne
  • On utilise le critère BIC :
  • Si l’a priori est « plat », alors
  • On peut trouver des estimateurs « intermédiaires » par « model averaging » avec comme poids les proba a posteriori des modèles.
l approche bay sienne2
L’approche bayésienne
  • Remarque intéressante (Burnham and Anderson 2004, Link and Barker 2006) :

Si on utilise comme « a priori » :

alors AIC = BIC

  • Ce qui signifie que AIC est un cas particulier de BIC, avec des a priori dépendant directement du nombre de paramètres
l approche bay sienne3
L’approche bayésienne
  • Avantages :
    • On peut intégrer de l’information provenant d’autres sources ou d’études antérieures
    • Si le « vrai modèle » se trouve parmi les modèles testés, c’est celui-ci qui est choisi par BIC
    • Le modèle choisi a peu de paramètres facilement interprétables, et leur nombre n’augmente pas lorsqu’on ajoute des données
  • Inconvénients :
    • Manque de « puissance statistique »
    • Comportement imprévisible si le « vrai modèle » n’est pas parmi ceux testés
le d bat en cologie o en sommes nous
Le débat en écologie… Où en sommes-nous ?
  • Nous sommes loin d’une procédure sur laquelle tout le monde s’accorde…
  • « In some cases, model-selection verbiage occupies numerous pages, whereas the only useful biological information might be a model-averaged estimate of some demographic variable. We suspect, therefore, that IT-AIC has increased the ratio of statistics to biology in the pages of ecological journals, which we view as unfortunate »

Guthery et al. JWM 2005

le d bat en cologie 1 arguments pro aic
Le débat en écologie… 1.arguments pro-AIC
  • « all statements in science are approximations of a complex truth (…) » (Burnham & Anderson 2002)

 AIC

  • ce qui n’interdit pas le « model averaging »

AIC weights :

Burnham et Anderson préconise de moyenner sur les modèles avec i «  some value that is roughly 4 to 7 »

le d bat en cologie 2 arguments pro bic
Le débat en écologie… 2.arguments pro-BIC
  • Le « model averaging » n’a pas de sens hors du contexte bayésien
  • Attention ! L’utilisation d’AIC favorise les modèles complexes… (Link & Barker)

 choisir les proba a priori adéquates et utiliser BIC

Link et Barker proposent 4 calculs de proba a priori :

Equiproba, AIC, proportionnel à Exp(k) et « Occam » (proportionnel à Exp(-k))

le d bat en cologie 3 autres arguments
Le débat en écologie… 3.Autres arguments
  • Guthery et al (2005) voient l’utilisation des critères de sélection de modèle comme
    • une forme d’induction scientifique, à condition d’avoir BIEN CHOISI en amont les modèles à tester
    • une analyse de sensibilité sur les variables du modèle le plus complexe
  • La sélection parmi de mauvais modèles ne peut donner un bon modèle
  • Il peut y avoir des « silly » modèles, comme des « silly hypotheses »
el ments de conclusion
Eléments de conclusion…
  • Avoir de bonnes données ! (« garbage in, garbage out »)
  • Choisir à l’avance les modèles intéressants/plausibles est PRIMORDIAL (on a vu un « meilleur modèle » prédire la présence de castors en l’absence d’eau…) 
  • Utiliser le bon outil
    • L’utilisation de multiples tests successifs sur modèles emboîtés est à éviter
    • L’utilisation d’outils t.q. AICc est inutile pour comparer 2 ou 3 modèles
    • Voir les cas où TIC/DIC sont préférables dans Burnham et Anderson 2002 : 268-351
el ments de conclusion1
Eléments de conclusion…

« Finally, we urge wildlife scientists to keep ecology, not statistics, in the forefront of wildlife science.

Statistics are messy tools we use because time and money constraints force insufficient sampling »

Guthery et al. 2005