Boostrap jacknife et c ie
Download
1 / 39

Boostrap, Jacknife et C ie - PowerPoint PPT Presentation


  • 96 Views
  • Uploaded on

Boostrap, Jacknife et C ie. M. Dramaix-Wilmet Département de Biostatistique Novembre 2004. Introduction. Réf. : Bradley Efron (1979). Introduction. Bootstrap : méthode basée sur le ré-échantillonnage (RESAMPLING) Principales applications : Calcul d’intervalles de confiance

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Boostrap, Jacknife et C ie' - keena


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Boostrap jacknife et c ie

Boostrap, Jacknife et Cie

M. Dramaix-Wilmet

Département de Biostatistique

Novembre 2004


Introduction
Introduction

Réf. : Bradley Efron (1979)


Introduction1
Introduction

  • Bootstrap : méthode basée sur le

    ré-échantillonnage (RESAMPLING)

  • Principales applications :

    • Calcul d’intervalles de confiance

    • Tests d ’hypothèse

    • Réduction de biais

    • Validation


Introduction2
Introduction

  • Intérêt dans le cadre des calculs d’intervalles de confiance et des tests d’hypothèse

    • les méthodes usuelles ont le plus souvent des conditions d’application assez « sévères »

    • le bootstrap n’exige « rien »!


Introduction3
Introduction

  • On peut reconstituer la distribution d ’une variable en faisant un certain nombre de « simulations »

  • Simulations = échantillons aléatoires des données sélectionnés avec remplacement

  • Plus le nombre de simulations est élevé, plus la reconstitution est meilleure


Bootstrap principe
Bootstrap - Principe

  • Echantillon « bootstrap » : échantillon aléatoire simple avec remplacement de n éléments parmi l’échantillon de taille n

  • Calcul de la statistique « bootstrap » : valeur de la statistique étudiée dans l’échantillon bootstrap

  • Répétition des deux premières étapes un très grand nombre « B » de fois


Bootstrap principe1
Bootstrap-Principe

  • Distribution des statistiques calculées à partir des B échantillons « bootstrap » : simulation de la distribution échantillonnée de la statistique

    calcul moyenne distribution échantillonnée

    calcul DS distribution échantillonnée = erreur standard Intervalle de Confiance


Bootsrap exemple i
Bootsrap – Exemple (I)

  • Estimation erreur standard (ES)

    • Calcul avec EXCEL


Bootstrap exemple ii
Bootstrap – Exemple (II)

  • Corrélation entre

    résultat fin secondaire

    et résultat à un

    test national

    (Efron, 1983)


Bootstrap exemple ii1
Bootstrap – Exemple (II)

  • 1000 échantillons bootstrap


Bootstrap exemple ii2
Bootstrap – Exemple (II)

  • Erreur Standard de r

    • Bootstrap : 0.127

    • Théorie normale : 0.115


Bootstrap
Bootstrap

  • Calcul d’intervalle de confiance

    • Formule usuelle (approximation normale)

    • Limites de confiance basées sur les percentiles


Bootstrap exemples iii
Bootstrap – Exemples (III)

  • Calculs avec EXCEL

  • Coefficient de corrélation

    • IC asymétrique approximation normale non OK

    • Méthodes « percentiles » IC : 0.65 à 0.91

      (cf. IC approximatif basé sur normale)


Bootstrap exemples iii1
Bootstrap – Exemples (III)

  • Problème : r = .776 et Me distribution «Bootstrap» = 0.433 biais

  • Méthode des percentiles corrigée pour le Biais

    IC : 0.61 à 0.88 (en accord avec théorie standard pour coefficient corrélation)

     Il peut subsister des problèmes même avec ette méthode


Bootstrap1
Bootstrap

  • Estimation de biais

    • Moyenne des échantillons « Bootstrap » - estimation du paramètre

    • Ex. : coefficient de corrélation : estimation du biais : -0.014 (id. biais réel)


Bootstrap versus approche param trique
Bootstrap versus approche paramétrique

  • Bootstrap peut être appliqué à n’importe quelle statistique : simple ou complexe

  • Avec un nombre raisonnable B d’échantillons (200-500 dans certaines simulations) : estimations presque sans biais des ES

  • Boostrap peut être appliqué qd un test paramétrique ne peut l’être


Permutation randomisation
PERMUTATION-RANDOMISATION

  • Tests de randomisation – permutation

    • Fisher 1935-1936

    • Exemple : comparaison de deux moyennes – échantillons indépendants



Permutation randomisation1
PERMUTATION-RANDOMISATION

  • Principe du test : comparaison de deux moyennes

    • Deux échantillons de taille m et n

    • Différence absolue observée entre les 2 moyennes = d1

    • Si H0 vraie : n’importe laquelle des valeurs de l’échantillon total aurait aussi bien pu s’observer dans l’un ou l’autre des échantillons

    • On construit un nouvel échantillon 1


Permutation randomisation2
PERMUTATION-RANDOMISATION

  • Principe du test : comparaison de deux moyennes

    • On construit un nouvel échantillon 1 en sélectionnant aléatoirement m valeurs parmi toutes les valeurs

    • Les valeurs restantes constituent le nouvel échantillon 2


Permutation randomisation3
PERMUTATION-RANDOMISATION

  • Principe du test : comparaison de deux moyennes

    • On répète les deux étapes précédentes un grand nombre de fois (R-1)

    • On obtient R différences on les ordonne

    • On rejette H0 si la valeur de la statistique calculée dans l’échantillon initial est une valeur « extrême » de la distribution « permutation » de la statistique


Permutation randomisation4
PERMUTATION-RANDOMISATION

  • Exemples

    • 2 groupes : 2 x 3 scores

      20 «réarrangements»

    • PAS

      • Groupe 1 : 5 valeurs

      • Groupe 2 : 5 Valeurs

        252 « réarrangements possibles »


Bootstrap versus test de permutation
Bootstrap versus Test de permutation

  • Bootstrap ne donne pas des P-valeurs exactes – moins puissant

  • Test de Permutation basé sur l’équivalence de certaines distributions

  • Par ex. test égalité moyennes : il faut que les variances soient égales

  • Bootstrap n’a pas de telles restrictions peut s’appliquer qd un test permutation ne peut l’être


Jacknife
JACKNIFE

  • Introduit par M. Quenouille en 1949 (pour estimation biais) et développé par TUKEY


Jacknife1
JACKNIFE

  • JACKNIFE : technique non paramétrique pour «approximer» la distribution échantillonnée d’une statistique

  • Soit un échantillon et une statistique étudiée (ex. moyenne, médiane…), le JACKNIFE consiste à:

    • Calculer la statistique en ôtant un sujet de l’échantillon

    • Répéter cette opération pour chaque sujet de l’échantillon

    • La distribution de l’ensemble des statistiques ainsi collectées est une approximation de la distribution échantillonnée de la statistique.


Jacknife2
JACKNIFE

  • Estimation du Biais

    • Ex. coefficient de corrélation : estimation du biais = -0.017 (bootstrap et biais réel : -0.014)


Jacknife3
JACKNIFE

  • Jacknife : technique de validation

    • Analyse discriminante : identification des variables permettant de discriminer 2 groupes ou + classification prédite par le modèle des sujets dans les différents groupes

    • Modèle validé par le Jacknife


Jacknife4
JACKNIFE

  • Le Jacknife comme technique de validation

    • Principe :

      • Chaque sujet ôté tour à tour de l’échantillon.

      • Fonction discriminante recalculée sans le sujet ôté.

      • Sujet ôté classé sur base de la fonction recalculée.

    • Classification globale = regroupement des classifications individuelles de chaque sujet ôté tour à tour

    • Ex. Enfants hospitalisés à Lwiro.

      • Outcome = état à la sortie

      • Variables sélectionnées dans le modèle : PBR, Oedèmes, Albumine sérique






Bootstrap versus jacknife
Bootstrap versus Jacknife

  • Jacknife pratiquement un bootstrap lui-même

  • Deux méthodes très proches

  • Jacknife demande moins de calculs

  • Performances du « Bootstrap » meilleures (erreurs standards)


Monte carlo
MONTE-CARLO

  • Monte Carlo : solutions approximatives pour une variété de problèmes mathématiques en réalisant des échantillonnages par ordinateur

  • La méthode est ainsi dénnomée d’après la ville de Monte-Carlo à Monaco parce que la roulette est un simple générateur de nombre aléatoire

  • La nom et le développement des méthodes « Monte Carlo » datent d’environ 1944.


Monte carlo1
MONTE-CARLO

  • Test de permutation on considère toutes les façons possibles de « renommer » les valeurs

  • Test de permutation 2 échantillons de 3 valeurs: 20 « réarrangements »; 2 échantillons de 6 valeurs: 924; 2 échantillons de 10 valeurs : 184 756!


Monte carlo2
MONTE-CARLO

  • MONTE-CARLO : on se limite à un échantillon aléatoire de « réarrangements » on peut ainsi estimer la p-valeur

  • Ex. :400 réarrangements aléatoires, p-valeur de 5%: dans 95% des cas, la p-valeur estimée se trouve dans l’intervalle 4.5% à 5.5%. Si 1600 réarrangements aléatoires, cet intervalle va de 4.75% à 5.25%


Resampling quelques logiciels
RESAMPLING : quelques logiciels

  • Resampling Stats : www.resample.com

  • SAS (macros) : www.sas.com

  • Simstat : www.simstat.com

  • S-PLUS (routines) : www:http://statsci.com

  • ……