280 likes | 499 Views
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES. Population caractère observé X, de moyenne m, de variance s ². Émettre une hypothèse, notée H 0 , appelée hypothèse nulle, sur un paramètre de X, sa loi. Proposer une hypothèse alternative, notée H 1.
E N D
Population caractère observé X, de moyenne m,de variance s² Émettre une hypothèse, notée H0, appelée hypothèse nulle, sur un paramètre de X, sa loi... Proposer une hypothèse alternative, notée H1 Choisir une grandeur calculée à partir de l’échantillon, appelée statistique Construire une règle de décision Déterminer la zone de rejet de l’hypothèse H0 en fonction d’un risque d’erreur a que l’on veut bien accepter Prendre une décision Un test consiste à
Mauvaise décision:Erreur a Mauvaise décision:Erreur b a = P(Rejeter H0 sachant que H0 est vraie) b = P(Accepter H0 sachant que H0 est fausse) LES RISQUES D’ERREUR DANS UN TEST La décision est Accepter H0 Rejeter H0 H0 vraie Bonne décision La réalité est H0 fausse Bonne décision
Il est donc plus grave de la rejeter à tort que de l’accepter à tort Pour construire le test on se fixe a = P(Rejeter H0 sachant que H0 est vraie) Souvent l’utilisateur ne calcule pas b = P(Accepter H0 sachant que H0 est fausse) Point de vue du consommateur Point de vue de MONSANTO H0 = les OGM ne sont pas bons H0 = les OGM sont bons IMPORTANCE DU CHOIX DES HYPOTHESES H0 est l’hypothèse à laquelle on tient le plus, la plus vraisemblable... EXEMPLE: Les OGM sont-ils bons pour la santé? Si b n’est pas calculé, le choix de H0 n’est pas innocent
Hypothèses: contre H0 = { m = m0} Statistique: Règle de décision: qui est un bon estimateur de la moyenne m0-h m0 est une bonne estimation de m, donc est proche de m est une bonne estimation de m, donc est proche de m H0 est vraie H1 est vraie < m0-h On rejette H0 > m0-h On accepte H0 Test de comparaison d’une moyenne à une valeur donnée(variance connue) Conditions d’application:s connu. X suit une loi N(m,s), n quelconque X quelconque, n > 5 (AFNOR) m m Si H0 est vraie, m = m0 Si H1 est vraie, m < m0 Conclusion: Il existe m0-h tel que
Règle de décision: m m m0-h m0 suit une H0 est vraie H1 est vraie a donné et donc h < m0-h On rejette H0 > m0-h On accepte H0 Test de comparaison d’une moyenne à une valeur donnée (variance connue) ……. Suite 1 Zone de rejet: a = P(Rejeter H0 sachant que H0 est vraie)
Règle de décision: m m m0-h m0 H0 est vraie H1 est vraie Si > m0-h , on accepte H0 avec un risque b de se tromper Si < m0-h , on rejette H0 avec un risque a connu de se tromper suit une < m0-h On rejette H0 > m0-h On accepte H0 Test de comparaison d’une moyenne à une valeur donnée (variance connue) ……. Suite 2 Zone de rejet: permet de calculer h Décision: b = P(Accepter H0 sachant que H0 est fausse) b est fonction de m, et n’est pas toujours calculée par l’utilisateur. Si c’est le cas, plutôt que d’accepter H0 , il vaut mieux conclure que l’échantillon observé ne permet pas de rejeter H0.
m0-h Règle: m m0 m0 m0 H1 H0 H0 H0 m0+h m H1 Règle: m0-h m0+h m m H1 = { mm0} H1 H1 < m0-h > m0+h > m0+h < m0-h On rejette H0 On rejette H0 Règle: On rejette H0 ou Test de comparaison d’une moyenne à une valeur donnée (variance connue) ……. Suite 3 ….. et fin La règle de décision dépend de H1
Conditions d’application:s inconnu. X suit une loi N(m,s), n quelconque X quelconque, n 30 (AFNOR) contre Hypothèses: H0 = { m = m0} H1 = { mm0} Statistique: suit une T(n-1) (approximativement N(0,1) si n 30) > m0+h < m0-h > m0+h < m0-h On rejette H0 On rejette H0 On rejette H0 ou Décision: en comparant à m0-h ou (et) m0+h Test de comparaison d’une moyenne à une valeur donnée(variance inconnue) Règle de décision: Zone de rejet: a = P(Rejeter H0 sachant que H0 est vraie) = …….. d’où h
Conditions d’application: tirage avec remise ou taux de sondage n/N < 10%n 50 et np(1-p) 9 (AFNOR) Hypothèses: contre H0 = { p = p0} Statistique: F bon estimateur de la proportion Règle de décision: f < p0-h On rejette H0 f >p0+h On rejette H0 f < p0-h ou f >p0+h On rejette H0 Zone de rejet: a = P(Rejeter H0 sachant que H0 est vraie) = …….. d’où h Test de comparaison d’une proportion à une valeur donnée Décision: en comparant f à p0-h ou (et) p0+h
Hypothèses: contre H0 = { m1 = m2 } m1 - m2 = 0 Statistique: Si H0 vraie, suit une N(0, sd) avec On rejette H0 On rejette H0 On rejette H0 ou Décision: en comparant à h ou (et) -h Test de comparaison de deux moyennes (variances connues) Conditions d’application:s1 , s2 connus . X1 suit une N(m1,s1), X2 suit une N(m2,s2), ni quelconques Xi quelconque, ni > 5 (AFNOR) Règle de décision: Zone de rejet: a = P(Rejeter H0 sachant que H0 est vraie) = …….. d’où h
Conditions d’application: n1 et n2 30 (AFNOR) Hypothèses: contre H0 = { m1 = m2 } m1 - m2 = 0 Statistique: Si H0 vraie, suit une N(0, sd) avec On rejette H0 On rejette H0 On rejette H0 ou Décision: en comparant à h ou (et) -h Test de comparaison de deux moyennes (variances inconnues) Règle de décision: Zone de rejet: a = P(Rejeter H0 sachant que H0 est vraie) = …….. d’où h
Conditions d’application: tirage avec remise ou taux de sondage n/N < 10% n1p, n1(1-p), n2p, n2(1-p) 5 Hypothèses: contre H0 = { p1 = p2 } p1 - p2 = 0 F1 - F2 suit une N(0,sd) avec Statistique: Si H0 vraie, (estimation de p = p1 = p2) et On rejette H0 f1 - f2 < -h f1 - f2 > h On rejette H0 f1 - f2 > h f1 - f2 < -h On rejette H0 ou Test de comparaison de deux proportions Règle de décision: Zone de rejet: a = P(Rejeter H0 sachant que H0 est vraie) = …….. d’où h Décision: en comparant f1 - f2 à h ou (et) -h
On a observé pendant une longue période le montant hebdomadaire des dépôts en liquide dans la banque Ibardinescroak de Saint Jean de Luz. Fréquence Montant des dépôts montant [0 - 2000] [2000 - 4000] [4000 - 6000] [6000 - 8000] [8000 - 10000] [10000 - 12000] 222 100 10 58 166 28 effectif TEST D’AJUSTEMENT UN EXEMPLE Le montant hebdomadaire des dépôts peut-il être considéré comme une loi Normale ?
Estimation ponctuelle: Première étape: estimation des paramètres Deuxième étape: ajustement à une loi normale Le montant hebdomadaire des dépôts est-il issu d’une v.a. X de loi Normale (m = 6561 ; s = 2016) ?
npi ni = aire de la surface de la classe i = aire de la surface de la classe i n densité Classe i Classe i pi = P(X classe i) Observations X loi N(6561 ; 2016) ni = effectif observé dans la classe i npi = effectif théorique dans la classe i Si les observations sont issues de la loi Normale (6561 ; 2016), les effectifs observés ni dans la classe i doivent être très proches des effectifs théoriques npi. Comment mesurer globalement la proximité des deux graphiques ?
= Efoi - Efti Effectif théorique Effectif observé La proximité des 2 graphiques peut être mesurée par Nombre de classes de la variable Cependant, si les écarts positifs compensent les écarts négatifs, cette quantité peut être très faible avec des valeurs très différentes dans les 2 graphiques Donc est une observation d’une v.a. dont la loi n’est Nombre de paramètres estimés malheureusement pas connue. On utilise la quantité 1) Une mesure intuitive La proximité des 2 aires peut être mesurée parni - npi Plus cette quantité est faible (positive ou négative)plus les aires sont proches 2 2) Une mesure probabiliste ni est une observation d’une v.a. qui suit une loi de c² à n = (k - r - 1) d.d.l.
Remarques importantes Le nombre de classes et l’amplitude des classes n’a pas d’importance L’utilisation de la loi du c² n’est justifiée que si les effectifs théoriques de chacune des classes est supérieur ou égal à 5. Si ce n’est pas le cas, il faut regrouper des classes contiguës afin d’augmenter les effectifs. Le nombre de degrés de liberté de la loi du c² dépend du nombre de classes après regroupement.
H0 = { les observations sont issues d’une certaine loi} contre H1 = { les observations ne sont pas issues de cette loi } Si H0 vraie, est une c² à n = (k - r -1) d.d.l. d > h On rejette H0 d < h l’échantillon observé ne permet pas de rejeter H0 a = P(Rejeter H0 sachant que H0 est vraie) = , d’où h Résumé sur le test d’ajustement Hypothèses: Statistique: Règle de décision: Zone de rejet: Décision: en comparant d à h
UN EXEMPLE Montant des dépôts en liquide dans la banque Ibardinescroak en 2005 Y Moins de 500 € Entre 500 et 2000 € Plus de 2000 € Total X Professions libérales 20 50 180 250 Catégories socio-professionelles 50 30 20 Fonctionnaires 100 230 10 10 employés 250 300 90 210 600 Total TEST D’INDEPENDANCE DE 2 VARIABLES Y a-t-il un lien entre le montant des dépôts et la catégorie socio-professionnelle ?
= = = nij/ ni. = n.j/ n pour tout i et j Etudions la distribution de chacune des catégories professionnelles Si la variable X était indépendante de la variable Y, les distributions de chaque modalité de X seraient identiques, et identiques à celle du total
, pour tout i et j nij doit être très proche de Tableau initial Tableau lorsque X et Y sont indépendantes Si les 2 variables X et Y sont indépendantes, les 2 tableaux doivent contenir des valeurs très proches: Comment mesurer globalement la proximité des deux tableaux ?
La proximité de 2 cellules peut être mesurée par = Efoij - Eftij Effectif théorique Effectif observé La proximité des 2 tableaux peut être mesurée par Nombre de modalités de la variable en ligne Cependant, si les écarts positifs compensent les écarts négatifs, cette quantité peut être très faible avec des valeurs très différentes dans les 2 tableaux Donc est une observation d’une v.a. dont la loi n’est Nombre de modalités de la variable en colonne malheureusement pas connue. On utilise la quantité 1) Une mesure intuitive Plus cette quantité est faible (positive ou négative)plus les cellules sont proches 2 2) Une mesure probabiliste nij est une observation d’une v.a. qui suit une loi de c² à n = (l-1)(c-1) d.d.l.
Remarques importantes L’utilisation de la loi du c² n’est justifiée que si les effectifs théoriques de chacune des cellules est supérieur ou égal à 5. Si ce n’est pas le cas, il faut regrouper des modalités d’une des 2 variables afin d’augmenter les effectifs. Le nombre de degrés de liberté de la loi du c² dépend du nombre de modalités des 2 variables après regroupement.
H0 = { les 2 variables X et Y sont indépendantes } contre H1 = { les 2 variables X et Y sont dépendantes } Si H0 vraie, est une c² à n = (l-1)(c-1) d.d.l. d > h On rejette H0 d < h l’échantillon observé ne permet pas de rejeter H0 a = P(Rejeter H0 sachant que H0 est vraie) = , d’où h Résumé sur le test d’indépendance de deux variables Hypothèses: Statistique: Règle de décision: Zone de rejet: Décision: en comparant d à h