boostrap jacknife et c ie
Download
Skip this Video
Download Presentation
Boostrap, Jacknife et C ie

Loading in 2 Seconds...

play fullscreen
1 / 39

Boostrap, Jacknife et Cie - PowerPoint PPT Presentation


  • 96 Views
  • Uploaded on

Boostrap, Jacknife et C ie. M. Dramaix-Wilmet Département de Biostatistique Novembre 2004. Introduction. Réf. : Bradley Efron (1979). Introduction. Bootstrap : méthode basée sur le ré-échantillonnage (RESAMPLING) Principales applications : Calcul d’intervalles de confiance

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Boostrap, Jacknife et Cie' - keena


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
boostrap jacknife et c ie

Boostrap, Jacknife et Cie

M. Dramaix-Wilmet

Département de Biostatistique

Novembre 2004

introduction
Introduction

Réf. : Bradley Efron (1979)

introduction1
Introduction
  • Bootstrap : méthode basée sur le

ré-échantillonnage (RESAMPLING)

  • Principales applications :
    • Calcul d’intervalles de confiance
    • Tests d ’hypothèse
    • Réduction de biais
    • Validation
introduction2
Introduction
  • Intérêt dans le cadre des calculs d’intervalles de confiance et des tests d’hypothèse
    • les méthodes usuelles ont le plus souvent des conditions d’application assez « sévères »
    • le bootstrap n’exige « rien »!
introduction3
Introduction
  • On peut reconstituer la distribution d ’une variable en faisant un certain nombre de « simulations »
  • Simulations = échantillons aléatoires des données sélectionnés avec remplacement
  • Plus le nombre de simulations est élevé, plus la reconstitution est meilleure
bootstrap principe
Bootstrap - Principe
  • Echantillon « bootstrap » : échantillon aléatoire simple avec remplacement de n éléments parmi l’échantillon de taille n
  • Calcul de la statistique « bootstrap » : valeur de la statistique étudiée dans l’échantillon bootstrap
  • Répétition des deux premières étapes un très grand nombre « B » de fois
bootstrap principe1
Bootstrap-Principe
  • Distribution des statistiques calculées à partir des B échantillons « bootstrap » : simulation de la distribution échantillonnée de la statistique

calcul moyenne distribution échantillonnée

calcul DS distribution échantillonnée = erreur standard Intervalle de Confiance

bootsrap exemple i
Bootsrap – Exemple (I)
  • Estimation erreur standard (ES)
    • Calcul avec EXCEL
bootstrap exemple ii
Bootstrap – Exemple (II)
  • Corrélation entre

résultat fin secondaire

et résultat à un

test national

(Efron, 1983)

bootstrap exemple ii1
Bootstrap – Exemple (II)
  • 1000 échantillons bootstrap
bootstrap exemple ii2
Bootstrap – Exemple (II)
  • Erreur Standard de r
    • Bootstrap : 0.127
    • Théorie normale : 0.115
bootstrap
Bootstrap
  • Calcul d’intervalle de confiance
    • Formule usuelle (approximation normale)
    • Limites de confiance basées sur les percentiles
bootstrap exemples iii
Bootstrap – Exemples (III)
  • Calculs avec EXCEL
  • Coefficient de corrélation
    • IC asymétrique approximation normale non OK
    • Méthodes « percentiles » IC : 0.65 à 0.91

(cf. IC approximatif basé sur normale)

bootstrap exemples iii1
Bootstrap – Exemples (III)
  • Problème : r = .776 et Me distribution «Bootstrap» = 0.433 biais
  • Méthode des percentiles corrigée pour le Biais

IC : 0.61 à 0.88 (en accord avec théorie standard pour coefficient corrélation)

 Il peut subsister des problèmes même avec ette méthode

bootstrap1
Bootstrap
  • Estimation de biais
    • Moyenne des échantillons « Bootstrap » - estimation du paramètre
    • Ex. : coefficient de corrélation : estimation du biais : -0.014 (id. biais réel)
bootstrap versus approche param trique
Bootstrap versus approche paramétrique
  • Bootstrap peut être appliqué à n’importe quelle statistique : simple ou complexe
  • Avec un nombre raisonnable B d’échantillons (200-500 dans certaines simulations) : estimations presque sans biais des ES
  • Boostrap peut être appliqué qd un test paramétrique ne peut l’être
permutation randomisation
PERMUTATION-RANDOMISATION
  • Tests de randomisation – permutation
    • Fisher 1935-1936
    • Exemple : comparaison de deux moyennes – échantillons indépendants
permutation randomisation1
PERMUTATION-RANDOMISATION
  • Principe du test : comparaison de deux moyennes
    • Deux échantillons de taille m et n
    • Différence absolue observée entre les 2 moyennes = d1
    • Si H0 vraie : n’importe laquelle des valeurs de l’échantillon total aurait aussi bien pu s’observer dans l’un ou l’autre des échantillons
    • On construit un nouvel échantillon 1
permutation randomisation2
PERMUTATION-RANDOMISATION
  • Principe du test : comparaison de deux moyennes
    • On construit un nouvel échantillon 1 en sélectionnant aléatoirement m valeurs parmi toutes les valeurs
    • Les valeurs restantes constituent le nouvel échantillon 2
permutation randomisation3
PERMUTATION-RANDOMISATION
  • Principe du test : comparaison de deux moyennes
    • On répète les deux étapes précédentes un grand nombre de fois (R-1)
    • On obtient R différences on les ordonne
    • On rejette H0 si la valeur de la statistique calculée dans l’échantillon initial est une valeur « extrême » de la distribution « permutation » de la statistique
permutation randomisation4
PERMUTATION-RANDOMISATION
  • Exemples
    • 2 groupes : 2 x 3 scores

20 «réarrangements»

    • PAS
      • Groupe 1 : 5 valeurs
      • Groupe 2 : 5 Valeurs

252 « réarrangements possibles »

bootstrap versus test de permutation
Bootstrap versus Test de permutation
  • Bootstrap ne donne pas des P-valeurs exactes – moins puissant
  • Test de Permutation basé sur l’équivalence de certaines distributions
  • Par ex. test égalité moyennes : il faut que les variances soient égales
  • Bootstrap n’a pas de telles restrictions peut s’appliquer qd un test permutation ne peut l’être
jacknife
JACKNIFE
  • Introduit par M. Quenouille en 1949 (pour estimation biais) et développé par TUKEY
jacknife1
JACKNIFE
  • JACKNIFE : technique non paramétrique pour «approximer» la distribution échantillonnée d’une statistique
  • Soit un échantillon et une statistique étudiée (ex. moyenne, médiane…), le JACKNIFE consiste à:
    • Calculer la statistique en ôtant un sujet de l’échantillon
    • Répéter cette opération pour chaque sujet de l’échantillon
    • La distribution de l’ensemble des statistiques ainsi collectées est une approximation de la distribution échantillonnée de la statistique.
jacknife2
JACKNIFE
  • Estimation du Biais
    • Ex. coefficient de corrélation : estimation du biais = -0.017 (bootstrap et biais réel : -0.014)
jacknife3
JACKNIFE
  • Jacknife : technique de validation
    • Analyse discriminante : identification des variables permettant de discriminer 2 groupes ou + classification prédite par le modèle des sujets dans les différents groupes
    • Modèle validé par le Jacknife
jacknife4
JACKNIFE
  • Le Jacknife comme technique de validation
    • Principe :
      • Chaque sujet ôté tour à tour de l’échantillon.
      • Fonction discriminante recalculée sans le sujet ôté.
      • Sujet ôté classé sur base de la fonction recalculée.
    • Classification globale = regroupement des classifications individuelles de chaque sujet ôté tour à tour
    • Ex. Enfants hospitalisés à Lwiro.
      • Outcome = état à la sortie
      • Variables sélectionnées dans le modèle : PBR, Oedèmes, Albumine sérique
bootstrap versus jacknife
Bootstrap versus Jacknife
  • Jacknife pratiquement un bootstrap lui-même
  • Deux méthodes très proches
  • Jacknife demande moins de calculs
  • Performances du « Bootstrap » meilleures (erreurs standards)
monte carlo
MONTE-CARLO
  • Monte Carlo : solutions approximatives pour une variété de problèmes mathématiques en réalisant des échantillonnages par ordinateur
  • La méthode est ainsi dénnomée d’après la ville de Monte-Carlo à Monaco parce que la roulette est un simple générateur de nombre aléatoire
  • La nom et le développement des méthodes « Monte Carlo » datent d’environ 1944.
monte carlo1
MONTE-CARLO
  • Test de permutation on considère toutes les façons possibles de « renommer » les valeurs
  • Test de permutation 2 échantillons de 3 valeurs: 20 « réarrangements »; 2 échantillons de 6 valeurs: 924; 2 échantillons de 10 valeurs : 184 756!
monte carlo2
MONTE-CARLO
  • MONTE-CARLO : on se limite à un échantillon aléatoire de « réarrangements » on peut ainsi estimer la p-valeur
  • Ex. :400 réarrangements aléatoires, p-valeur de 5%: dans 95% des cas, la p-valeur estimée se trouve dans l’intervalle 4.5% à 5.5%. Si 1600 réarrangements aléatoires, cet intervalle va de 4.75% à 5.25%
resampling quelques logiciels
RESAMPLING : quelques logiciels
  • Resampling Stats : www.resample.com
  • SAS (macros) : www.sas.com
  • Simstat : www.simstat.com
  • S-PLUS (routines) : www:http://statsci.com
  • ……
ad