risques d erreur statistique et test statistique n.
Download
Skip this Video
Download Presentation
Risques d’erreur statistique et test statistique

Loading in 2 Seconds...

play fullscreen
1 / 86

Risques d’erreur statistique et test statistique - PowerPoint PPT Presentation


  • 157 Views
  • Uploaded on

Risques d’erreur statistique et test statistique. Origine de la problématique. Échantillon 1 48%. Échantillon 2 52%. Échantillon 3 50%. Échantillon 4 45%. Fluctuations aléatoires. Obtenir pile à pile ou face (Probabilité = 50%). Échantillon 1 9%. Échantillon 2 12%. Échantillon 3 16%.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Risques d’erreur statistique et test statistique' - katelyn-hogan


Download Now An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
fluctuations al atoires

Échantillon 148%

Échantillon 252%

Échantillon 350%

Échantillon 445%

Fluctuations aléatoires

Obtenir pile à pile ou face

(Probabilité = 50%)

fluctuations al atoires1

Échantillon 19%

Échantillon 212%

Échantillon 316%

Échantillon 426%

Fluctuations aléatoires

Même type de patients

(Probabilité d'AVC = 12%)

fluctuations al atoires d chantillonnage
Fluctuations aléatoires d'échantillonnage
  • Fortes pour des effectifs petits et moyens
  • Faibles pour des grands effectifs
  • Jamais nulles
slide6
Conséquences pour la comparaison de 2 échantillons
    • les proportions observées dans 2 échantillons peuvent être différentes
    • uniquement du fait du hasard
    • même si dans ces 2 échantillons la vraie probabilité était la même
  • les FAE sont susceptibles de fausser les comparaisons
cons quences des fluctuations
Conséquences des fluctuations

Effet du traitement = 0

Vrai risque = 10%

Vrai risque = 10%

Groupe T+

Groupe T-

Risque observé = 6%

Risque observé = 12%

Différence observée = -6%

probl matique des comparaisons
Problématique des comparaisons
  • Quand on ignore la réalité,

la différence observée de -6% est-elle ?

    • une manifestation des fluctuations aléatoires, donc due uniquement au hasard
    • la traduction d’une réelle différence entre les deux groupes, donc d’un effet non nul du traitement
  • Comment départager ces 2 possibilités ?
  • Solution : test statistique .
but des comparaisons
But des comparaisons
  • Quel est le but des comparaisons ?

Grp T

Conclure à l'existence d'une différence

Décider d'utiliser le nouveau traitement

diff -6%

Grp C

La conclusion doit être conforme à la réalité

mais elle se base uniquement sur l’observé

effets des fluctuations dans une comparaison
Effets des fluctuations dans une comparaison
  • Le hasard peut faire apparaître une différence qui n'existe pas en réalité
  • Inversement, le hasard peut réduire une différence qui existe réellement
  • donc 2 façons de fausser la conclusion
risques de conclusions erron es
Risques de conclusions erronées
  • Deux risques d'erreur
    • Risque alpha
    • Risque bêta
  • Erreurs statistiques
    • dues uniquement au hasard
erreur statistique alpha
Erreur statistique alpha
  • Conclure à l'existence d'une différence qui n'existe pas en réalité : faux positif

Échantillon 1

7.5%

Différence

non réelle

Vrai valeur

12%

Échantillon 2

15%

erreur statistique b ta
Erreur statistique bêta
  • Ne pas conclure à une différence qui existe pourtant en réalité : faux négatif

Vrai valeur

12%

Échantillon 1

15%

Fausse absence

de différence

Vrai valeur

19%

Échantillon 2

15%

risques d erreur statistiques
Risques d'erreur statistiques
  • Risque alpha : risque de conclure à une différence qui n’existe pas
  • Risque bêta : risque de ne pas mettre en évidence une différence qui existe réellement
  • Puissance : 1 - bêta : probabilité de mettre en évidence une différence qui existe réellement
application l essai th rapeutique
Application à l’essai thérapeutique
  • Risque alpha : considérer comme efficace un traitement qui ne l’est pas
  • Risque bêta : ne pas conclure alors que le traitement est efficace
  • Puissance : montrer l’efficacité d’un traitement réellement efficace
slide17

Conclusion

Différence

Pas de différence

Différence

Erreur bêta

Réalité

Pas de différence

Erreur alpha

tests statistiques
Tests statistiques
  • Outils d'aide à la décision
  • Principe
    • conclure à une différence
    • que si le risque de faire une erreur (de première espèce) est faible
  • Quantification du risque d'erreur alpha
    • à partir des données disponibles
  • (Risque de commettre une erreur alpha = risque alpha)
principe g n ral
Principe général

p1 = 7%

Quelle est la probabilité de commettre une erreur

si je conclus à partir de ces données

à l'existence d'une réelle différence

p0 = 13%

Probabilité faible

Probabilité forte

Conclusion

Pas de conclusion

Conclure à l'existence d'une différence que si le risque de faire une conclusion erronée est faible

d marche du test statistique
Démarche du test statistique
  • Calcul de la probabilité p
  • p : probabilité que "la différence observée soit due uniquement au hasard"
  • p représente le risque de faire une conclusion erronée si l'on décidait de conclure
  • p est une quantification du risque alpha
  • On ne conclut que si ce risque d'erreur est suffisamment petit
seuil de risque
Seuil de risque
  • Seuil de risque de conclusion erronée acceptable
    • seuil de risque alpha = 5%
  • p < 5%
    • on prend le risque de conclure
  • p > 5%
    • on ne conclut pas
  • < ou  ?
signification statistique

Différence significative

p<0.05

Il est peu probable que la différence observée soit due au hasard

Différence non significative

p>0.05

La probabilité que la différence observée soit due au hasard est forte

Signification statistique

Différence observée

Test

Seuil de signification statistique

slide23
Le test statistique est un moyen

qui autorise à conclure à l'existence d'une différence

que si le risque de commettre une erreur est faible

  • Risque d'erreur faible = 5% (en général)
    • seuil de décision
  • Contrôle du risque alpha
    • mais le risque d'erreurs alpha persiste
    • 100 essais avec un traitement sans efficacité
      • conclusion à tort à l'efficacité dans 5 essais
r alisation du test
Réalisation du test
  • Calcul à partir des données de la probabilité de commettre une erreur alpha = p

p<5%  conclusion à l'existence de la différence

parce que le risque de faire une conclusion fausse est faible

p1 = 7%

p = 0.04

p0 = 13%

p>5%  impossible de conclure à l'existence d'une différence

car si on concluait à une différence, le risque d'erreur serait trop fort

p1 = 20%

p = 0.25

p0 = 17%

p 0 05
P < 0.05
  • En concluant à l'efficacité, on prend un risque de 5% de faire une conclusion erronée
  • 5% est un risque d'erreur élevé
    • en pratique 2 essais significatifs
    • risque = 5% * 5% = 2.5/1000
disparition du risque d erreur b ta
Disparition du risque d'erreur bêta
  • Le risque bêta est incalculable
  • Impossible de quantifier le risque d'erreur quand on fait une conclusion d'absence de différence
    • il est donc impossible de faire ce type de conclusion
    • les tests permettent seulement de conclure à l'existence d'une différence
    • en cas de différence non signification
      • impossible de conclure
      • et ne permet surtout pas de conclure à l'absence de différence vu que le risque d'erreur est inconnu
      • "l'absence de preuve n'est pas la preuve de l'absence"
diff rence non significative
Différence non significative

Absence réelle d'effet

  • Impossible de conclure
  • Ne pas conclure à l’absence de différence
  • «L’absence de preuve n’est pas la preuve de l’absence»

Résultat

non significatif

?

Manque de puissance

slide28

OBJECTIF : Evaluer l’efficacité d’une injection unique de tobramycine (T) chez des patientes traitées pour une pyélonéphrite aiguë noncompliquée par de la ciprofloxacine (CIP) (500 mg 2 fois par jour

per os).

RÉSULTATS : Cent dix huit patientes ont été inclues, 60 dans le groupe

tobramycine et 58 dans le groupe placebo. E. coli a été isolé de façon

prédominante et tous les germes isolés étaient sensibles à la ciprofloxacine

RÉSULTATS : Cent dix huit patientes ont été inclues, 60 dans le groupe tobramycine et 58 dans le groupe placebo. E. coli a été isolé de façon prédominante et tous les germes isolés étaient sensibles à la ciprofloxacine et à la tobramycine. Deux échecs sont survenus dans le groupe CIP + T et 4 dans le groupe CIP + P (non significatif).

CONCLUSION : L’administration d’une dose de tobramycine n’améliore aucun paramètre clinique dans le traitement des pyélonéphrites aiguës non compliquées traitées par de la ciprofloxacine par voie orale.

d finition des ic
définition des IC
  • Intervalle qui a 95% de chance de contenir la vraie valeur
  • il est raisonnable de parier que la vraie valeur est dans l'intervalle (prob de 95%)
  • il est peu probable (prob 5%)
    • que la vraie valeur soit > à bs
    • ou que la vraie valeur soit < à bi
    • il est donc peu raisonnable de parier que la vraie valeur soit à l'extérieur de l'IC
intervalle de confiance
Intervalle de confiance
  • Différence = -6%
  • IC 95% = [-8%;-4%]
  • L’intervalle [-8%;-4%] à 95% de chance de contenir la vraie valeur de la différence
  • reflète l'incertitude de l'estimation
  • Il n'est pas possible d'exclure que le vrai effet ne soit que de -4%
    • situation la pire
    • efficacité plus faible que les -6% de l'estimation ponctuelle
slide33

NS

p<0.05

IC 95%

Résultat observé

  • Ensemble des valeurs non statistiquement différentes du résultats
relation entre ic et test
Relation entre IC et test
  • IC d’une différence n'incluant pas 0
    • [-10% ; -4%]
    • la probabilité d’avoir ce type d’intervalle si la vraie valeur est zero est <=5%
    • donc il est possible de conclure à une différence non nulle car le risque d’erreur alpha est <=5%

= différence significative (au seuil de 5%)

  • IC de la différence des risques incluant 0
    • [-20% ; 20%]

= différence non significative

slide35

-5% [-10%,-2%]

P<0.05

-2% [-9%;+2%]

NS

Différence

0

pertinence clinique
Pertinence clinique
  • Signification statistique  pertinence clinique
  • Réduction de mortalité de 25% à 12%, p<0.05
    • réduction statistiquement significative
    • pertinente cliniquement
  • Réduction de mortalité de 2.3% à 2.1%, p<0.05
    • réduction statistiquement significative
    • peu pertinente cliniquement
th orie des tests d hypoth ses
Théorie des tests d'hypothèses
  • Hypothèse nulle
    • H0 : p1 - p0 = 0 (p1 = p0)(le traitement n'a pas d'effet)
  • Hypothèse alternative
    • H1 : p1 - p0 0 (p1 p0)(le traitement à un effet)
  • Test statistique =
    • retenir une de ces 2 hypothèses
    • en fonction des données recueillies
slide39
Risques d'erreur alpha et bêta
    •  = Prob[ accepter H1 alors que H0 est vraie ]
    •  = Prob[ accepter H0 alors que H1 est vraie ]

Rappel

H0 : p1 = p0

H1 : p1 <> p0

calcul de p
Calcul de p
  • p = prob [ d'observer une différence au moins aussi importante que ce que l'on a observé alors que H0 est vraie ]
  • soit z = p1 - p0 la différence entre les 2 prop. p1 et p0
  • si H0 est vraie, z suit une loi normale (si n grand)
    • moyenne 0 (H0)
    • écart type
    • Principe du test : calculer la probabilité d'observer dans ce cas une différence au moins aussi grande que celle qui a été effectivement observée (par exemple 7% - 13% = -6%)
slide41

Distribution de Z sous l'hypothèses nulle

f(x)

p = surface sous la courbe

Pr(Z  -6%)

z

0

-6%

z observé

rejet de l hypoth se nulle h0
Rejet de l'hypothèse nulle H0
  • Autre façon de réaliser un test
  • But du test
    • rejeter H0 ( p1 - p0 = 0 )
    • pour accepter H1 ( p1 - p0 0 )
    • rejeter H0  conclusion = diff. significative
    • ne pas rejeter H0  conclusion = diff. non significative
    • sans évaluation précise du p
slide44
Limites de rejet
    • valeurs de décision pour le rejet de H0
    • valeurs de différences observées
    • notées L (et -L)

L

-L

0

Diff observée

Rejet

PAS de rejet de H0

Rejet

slide45
L est déterminé par le seuil  choisi (5%)
    • par définition  = Prob [conclure si H0]
    • Prob [ diff. observée <-L ou >L si H0] = 
  • L défini les différences qui ont une probabilité faible d'être observées sous l'hypothèse nulle

2.5%

2.5%

Différence z

L

-L

slide46
L = 1.96 
    • ( = écart type de la différence)

Rappel

Loi normale N(0,)

95 %

x

-1.96 

0

1.96 

slide47
Exemple 1
    • diff. observée z = -5%
    • L = 7% pour alpha=5% (-L = -7%)
    • pas de rejet de H0
  • Exemple 2
    • diff. observée z = 12%
    • L = 7%
    • rejet de H0
    • conclusion : diff. significative au seuil de 5%
  • Exemple 3
    • diff. observée z = -4%
    • L = 2% (-L = -2%)
    • rejet de H0
    • conclusion : diff. significative au seuil de 5%
slide48
Possibilité de diff. significative aussi bien en cas de :
    • différence positive (p1 > p0)
    • différence négative (p1 < p0)
  • Test bilatéral
comparaison des 2 approches
Comparaison des 2 approches
  • Rejet de l'hypothèse nulle
    • calcul de L
    • si diff. observée <-L ou diff. observée >L

 rejet de h0

 diff significative

    • si -L < diff observée < L

 pas de rejet de H0

 diff non significative

  • Calcul de p
    • si p<0.05  diff. significative
    • si p>0.05  diff. non significative
slide50
L dépend de
    • alpha
    • p1 p0
    • n1 n0
  • p dépend de
    • différence observée
    • p1 p0
    • n1 n0

Écart type de la différence (erreur standard)

Écart type de la différence (erreur standard)

slide51
Exemple :
    • Diff. Observée = -5%
    • approche par rejet de H0
      • conclusion : diff. Significative
      • le risque d'erreur encouru en concluant à la différence est < 5%
    • approche par calcul de p
      • résultat : p = 0.03
      • prob de cette diff. soit due uniquement au hasard est de 0.03
      • le risque d'erreur encouru en concluant à la différence est de 3%
r sum
Résumé
  • Erreur alpha
    • type d'erreur statistique
  • Risque alpha
    • risque de commettre une erreur alpha
  • Seuil de la signification statistique
    • valeur de risque alpha consenti
    • en général 5%
  • p
    • quantification à partir des données observées du risque alpha
erreurs d interpr tation
Erreurs d'interprétation
  • pn’est pas la prob. de l’hypothèse nulle
    • pest la prob. d’obtenir le résultat observé si H0 est vraie
  • pn’est pas la prob. que le ttt. n’ait pas d’effet
    • pest la prob. d’obtenir le résultat qui a été observé si le ttt. est en réalité inefficace
  • "obtenir le résultat observé" =

obtenir une diff. au moins aussi importante que le résultat observé

    • cf. définition de p
    • rappel : avec une VA continue, la prob d'une valeur est nulle
slide54
p<0.05 ne signifie pas qu’il y a moins de 5% de chance que le ttt. soit sans effet
  • p<0.05 ne signifie pas qu’il y a 95% de chance que le ttt. est un effet
    • il y a moins de 5% de chance d’observer le résultat obtenu si le ttt. est sans effet
  • p n’est pas Pr(H0) ou 1-Pr(H1)
bilat ral unilat ral
Bilatéral / unilatéral

0

traitement A > traitement B

traitement A < traitement B

Valeur de la différence

Test bilatéral

Diff. significative

Différence non significative

Diff. significative

Test unilatéral

Diff. significative

Différence non significative

slide56

1

0,70

0,98

0,79

1,45

Risque relatif

Test bilatéral

Diff. significative

Différence non significative

Diff. significative

Test unilatéral

Diff. significative

Différence non significative

cons quences
Conséquences
  • Un résultat NS en bilatéral peut être significatif en unilatéral
  • pas de choix a posteriori
r p tition des tests
Répétition des tests
  • Plusieurs tests réalisés pour répondre à une même question
    • par exemple plusieurs critère de jugement
  • Conclusion à un effet à partir du moment où il existe au moins un test significatif
  • Le risque a de la conclusion est bien supérieure à 5%
  • Inflation du risque alpha
  • Rappel, avec un ttt. sans effet,
    • sur 100 tests, il y en aura 5 significatifs (en moyenne)
slide60

Test 1

Test 2

Test 3

Test 4

Contrôle parfait du risque alpha (5%)

Conclusion

1 test

(seuil de 5%)

Le risque de conclure à tort est > à 5%

Conclusion

A partir du moment où au moins 1 test est significatif

comparaisons multiples

Test 1

Test 2

Test 3

Test 4

Risque de conclure à tort à une différence= 5%

Risque de conclure à tort à une différence = 5%

Risque de conclure à tort à une différence = 5%

Risque de conclure à tort à une différence = 5%

Comparaisons multiples

Aux dés, la probabilité d ’obtenir un six est plus forte avec 3 dés qu ’avec un seul

Globalement, le risque de conclure à tort à une différence lors de ces 4 comparaisons est bien plus important que 5%.

comparaisons multiples1
Comparaisons multiples
  • Avec un traitement sans efficacité
  • en faisant 10 tests statistiques (p.e. 10 essais)
  • nous avons 40% de risque de faire au moins une conclusion (à tort)
crit res de jugement
Critères de jugement
  • Aspirine pour la prévention des événements cardiovasculaires
  • Critères de jugement
    • mortalité totale
    • Événements cardiovasculaires mortels ou non mortels
    • DC cardiovasculaires
    • Mort subite
    • Infarctus
    • Accident vasculaire cérébraux
    • Interventions de revascularisation
  • Risque alpha de conclure à tort à l'efficacité ?
crit re de jugement principal

Définition a priori d ’un critère principal

Un seul test statistique

Risque de conclure à tort à l ’efficacité du traitement = 5%

Pas de définition de critère principal

7 tests statistiques

Risque de conclure à tort à l ’efficacité du traitement = 30%

Critère de jugement principal
  • Décès de toute cause
  • Décès cardiovasculaire
  • Mort subite
  • Infarctus
  • Accident vasculaire cérébraux
  • Chirurgie
  • Critère principal
    • Décès de toute cause
  • Critères secondaires
    • Décès cardiovasculaire
    • Mort subite
    • Infarctus
    • Accident vasculaire cérébraux
    • Chirurgie
crit re principal
Critère principal
  • Conclusion que si le critère principal est significatif
  • Critères secondaires : explicatifs
multiplicit des crit res de jugement exemple
Multiplicité des critères de jugement - Exemple

In women, however (Table 2), a positive effect on BMD was observed at several sites (mostly trabecular bone zones), namely the femoral neck and the Ward’s

triangle in the 60–69 y group, and upper and total radius in the 70–79 y group.

autres situations de r p tition des tests
Autres situations de répétition des tests
  • mesures répétées au cours du temps
analyse en sous groupes essai non concluant
Analyse en sous-groupes - Essai non concluant

Essai 0.92 NS

1 Age<75 0.92 NS

2 Age>75 0.95 NS

3 Hommes 0.92 NS

4 Femmes 0.99 NS

5 Antécédents d'infarctus 0.87 NS

6 Pas d'antécédents d'infarctus 1.03 NS

7 Prise d'aspirine 0.78 p<0.05

8 Pas d'aspirine 1.09 NS

limites multiplicit des tests
Limites- Multiplicité des tests

1 Age<75 test 1 risque erreur 5%

2 Age>75 test 2 risque erreur 5%

3 Hommes test 3 risque erreur 5%

4 Femmes test 4 risque erreur 5%

5 Antécédents d'infarctus test 5 risque erreur 5%

6 Pas d'ATCD d'infarctus test 6 risque erreur 5%

7 Prise d'aspirine test 7 risque erreur 5%

8 Pas d'aspirine test 8 risque erreur 5%

analyses en sous groupes essai concluant
Analyses en sous groupes - Essai concluant

Essai 0.78 p<0.05

1 Age<75 0.65 p<0.01

2 Age>75 0.90 NS

3 Hommes 0.76 p<0.05

4 Femmes 0.78 p<0.05

5 Antécédent d'infarctus 0.97 NS

6 Pas d'antécédent d'infarctus 0.70 p<0.01

7 Diabétique 0.50 p<0.001

8 Non diabétique 0.91 p<0.05

analyses interm diaires
Analyses intermédiaires
  • en cours d’essai, avant que tous les patients prévus aient été recrutés
  • et/ou avant la fin de la période de suivi initialement prévue
  • But arrêter prématurément
    • pour efficacité
    • pour toxicité
    • pour futilité
ajustement du seuil de signification
Ajustement du seuil de signification
  • Méthode de Bonferroni
    • Pour k comparaisons, le seuil ajusté est :
    • Pour k=3, saj = 5% / 3 = 1.67%
    • Quand  est petit,
    • Donc pour conserver un risque alpha global de 5% :
    • Inconvénient : fait l’hypothèse d’une stricte indépendance des variables testées  méthode conservatrice
ajustement du seuil de signification 2
Ajustement du seuil de signification - 2
  • Méthode de Tukey
    • Pour k=3, saj = 5% / 1.73 = 2.89%
cas 1
Cas 1
  • 3 analyses intermédiaires + 1 analyse finale = 4 comparaisons
  • Arrêt prématuré de l’essai
cas 2
Cas 2
  • Pas d’arrêt prématuré mais conclusion à l’efficacité
cas 3
Cas 3
  • Pas d’arrêt prématuré et résultat non significatif (p=4%>saj)
cas 4
Cas 4
  • Résultat non significatif
slide79
Conclusion essai 1
    • pas de démonstration de l'efficacité
  • Conclusion essai 2
    • démonstration de l'efficacité de manière statistiquement significative (p<0.05)
    • sur les 3 premiers critères de jugement
taille de l chantillon
Taille de l’échantillon
  • Avec les échantillons de grandes tailles
    • les distributions des
      • moyennes
      • proportions
      • différence de moyenne
      • différence de proportions

sont des distributions normales

--> calcul simple de p et des IC

  • Avec les échantillons de petites tailles (n<30)
    • ces distributions ne sont pas normales (en général)
      • (en général inconnues)
    • techniques spéciales dites "non paramétriques"
slide82
Variable continue
    • Données : distribution normale
      • moyenne : distribution normale qq soit n
    • Données : distribution quelconque symétrique
      • moyenne : distribution normale qq n>30
    • Données : distribution quelconque
      • moyenne : distribution normale qq n>100
  • Variable binaire
    • proportion : distribution normale qd n>30
s ries statistiques appari es
Séries statistiques appariées
  • 2 séries statistiques provenant de l'observation des mêmes sujets (unités statistiques)
  • 2 méthodes de dosage de la glycémie A et B
  • les 2 méthodes sont appliquées aux mêmes sujets
    • pour chaque patient : 2 valeurs, une avec chaque méthode
    • = 2 séries appariées
  • 2 groupes de patients différents
    • méthode A utilisée avec le 1er grp
    • méthode B utilisée avec le 2e grp
    • = 2 séries non appariées
catalogue des tests statistiques1
Catalogue des tests statistiques
  • Le test utilisé doit être précisé avec le résultat
  • Un test pour chaque situation définie par :
    • type de la variable (continue, binaire)
    • petit ou grand effectif
    • séries appariées ou non
slide85
Var. continues (comparaison des moyennes)
    • Séries non appariées
      • grand effectif
        • test t (test de Student), Test z
      • test non paramétrique
        • Test de Wilcoxon (Mann-Whitney)
    • Séries appariées
      • grand effectif
        • test t pour séries appariées (Student pour séries appariées)
      • test non paramétrique
        • Test de Wilcoxon pour séries appariées
slide86
Var. binaires (comparaison des proportions)
    • Séries non appariées
      • grand effectif
        • Chi 2 ( )
      • test non paramétrique
        • Test exact de Fisher
    • Séries appariées
        • test de McNemar
  • Var. qualitative à plusieurs modalités
    • idem var. binaires
ad