250 likes | 384 Views
Régression linéaire (STT-2400). Section 3 Tests d’hypothèses et l’hypothèse linéaire générale Version: 26 janvier 2007. Tests d’hypothèses. On dispose d’un jeux de données portant sur le prix des maisons dans une certaine région. Exemples de variables:
E N D
Régression linéaire (STT-2400) Section 3 Tests d’hypothèses et l’hypothèse linéaire générale Version: 26 janvier 2007
Tests d’hypothèses • On dispose d’un jeux de données portant sur le prix des maisons dans une certaine région. Exemples de variables: • PRICE, prix en milliers de dollars US: variable réponse. • FLR, surface du plancher en pieds carrés: préviseur. • RMS, nombre de pièces: préviseur. • BDR, nombre de chambres à coucher: préviseur. • BTH, nombre de salles de bain: préviseur. • GAR, présence ou non d’un garage (0: aucun garage, 1: garage simple, 1.5: garage pour un véhicule mais plus grand que le simple, 2: garage pour deux véhicules): préviseur. • LOT, largeur de la façade du terrain en pieds: préviseur. • FP, nombre de foyers: préviseur. • ST, présence de contre-fenêtre (storm window): préviseur. STT-2400; Régression linéaire
Ajustement dans l’exemple du prix des maisons • Un ajustement donne la fonction moyenne suivante: • Au niveau de l’interprétation, il semble y avoir une association positive entre l’ajout d’un garage et le prix de la maison de l’ordre de 1770$ US, les autres choses étant égales. • On note que l’augmentation d’une chambre, toutes les autres choses étant égales, semble associée à une diminution du prix! (mais le coefficient porte sur l’augmentation d’une chambre, sans faire augmenter par exemple la superficie ou le nombre total de pièces). • Quand un grand nombre de préviseurs sont reliés, il peut arriver que les signes soient contre intuitifs et plus difficiles à interpréter. STT-2400; Régression linéaire
D’autres questions d’intérêt pourraient être… • (a) Est-ce que le prix de vente semble affecté par le nombre de chambres dans la maison (tous les autres préviseurs restant fixés)? • (b) Est-ce que l’ajout d’un garage semble associé à l’augmentation du prix de vente de $5000 US? • (c) Est-ce que le nombre de chambres et de pièces semble affecter le prix de la même manière? • (d) Est-ce que le nombre de salles de bains ou de garages semblent affecter le prix d’une maison? • (e) Est-ce qu’au moins un des préviseurs semble utile afin d’expliquer le prix de la maison? STT-2400; Régression linéaire
Formulation des questions de façon statistique… tests déjà vus! • (a) Est-ce que le prix de vente semble affecté par le nombre de chambres dans la maison (tous les autres préviseurs restant fixés)? • (b) Est-ce que l’ajout d’un garage semble associé à l’augmentation du prix de vente de $5000 US? STT-2400; Régression linéaire
Formulation des questions de façon statistique… nouveaux tests! • (c) Est-ce que le nombre de chambres et de pièces semble affecter le prix de la même manière? • (d) Est-ce que le nombre de salles de bains ou de garages semblent affecter le prix d’une maison? STT-2400; Régression linéaire
Formulation des questions de façon statistique (suite) • (e) Est-ce qu’au moins un des préviseurs semble utile afin d’expliquer le prix de la maison? • Ce test correspond bien entendu au test F global dans une table d’ANOVA. STT-2400; Régression linéaire
Hypothèse linéaire générale • Un examen attentif de tous ces tests montre qu’en fait toutes ces questions impliquent des contraintes linéaires sur les paramètres: • En fait toutes ces hypothèses peuvent s’exprimer comme un cas particulier de l’hypothèse linéaire générale. STT-2400; Régression linéaire
Formulation de l’hypothèse linéaire générale • Considérons le modèle de régression linéaire multiple: • L’hypothèse linéaire générale est: • La matrice C est de dimension et elle est de rang m. Les vecteurs b et g sont de dimension . STT-2400; Régression linéaire
Exemple (a) • Pour (a), il suffit de poser: • On a m = 1. L’hypothèse linéaire générale est: • Elle se réduit donc à: STT-2400; Régression linéaire
Exemple (b) • Pour (b), il suffit de poser: • On a m = 1. L’hypothèse linéaire générale est: • Elle se réduit donc à: STT-2400; Régression linéaire
Exemple (c) • Pour (c), il suffit de poser: • On a m = 1. L’hypothèse linéaire générale est: • Elle se réduit donc à: STT-2400; Régression linéaire
Exemple (d) • Pour (d), il suffit de poser: • On a m = 2. L’hypothèse linéaire générale est: • Elle se réduit donc à: STT-2400; Régression linéaire
Exemple (e) • Pour (e), il suffit de considérer la matrice : • On a donc m = 8. L’hypothèse linéaire générale est: • Elle se réduit donc à: STT-2400; Régression linéaire
Statistique de test pour l’hypothèse linéaire générale • Supposons que les erreurs sont iid normales . Confrontons les hypothèses: • C est de dimension et de rang . • Posons: STT-2400; Régression linéaire
Statistique F pour l’hypothèse linéaire générale • On pose encore: • Hypothèses à confronter: • Règle de décision: rejeter H0 si STT-2400; Régression linéaire
Quelques faits concernant le test F • Ce test est en fait le test du rapport de vraisemblance pour les hypothèses considérées. • Pour obtenir la distribution, on a utilisé la normalité et donc il repose sur l’estimation des paramètres du modèle par la méthode de vraisemblance maximale. • Même si les erreurs ne sont pas normales, ce test est généralement robuste aux écarts à la normalité des erreurs. • Qu’est-ce que cela veut dire? Si des écarts relativement peu importants de l’hypothèse de normalité surviennent, alors les estimateurs, tests d’hypothèses et intervalles de confiance se trouvent souvent peu affectés. STT-2400; Régression linéaire
Test-F dans la situation « modèle plein – modèle réduit » • Reconsidérons l’exemple (d): • (d) Est-ce que le nombre de salles de bains ou de garages semblent affecter le prix d’une maison? STT-2400; Régression linéaire
Formalisation de l’exemple (d) • Considérons , où les matrices composants X sont de dimensions: • On considère la partition suivante du vecteur b: STT-2400; Régression linéaire
Confrontation du modèle plein et du modèle réduit • On désire confronter: • Autrement formulé, on désire tester l’hypothèse nulle: STT-2400; Régression linéaire
Test F pour tester « modèle plein – modèle réduit » • Il est possible de montrer que le test F du rapport de vraisemblance se réduit à calculer la statistique suivante: • On compare avec la distribution F suivante: STT-2400; Régression linéaire
Mise en œuvre pratique du test pour l’hypothèse « modèle plein-modèle réduit » • Ainsi afin de mettre en œuvre ce test il suffit d’effectuer deux régression. • On fait la régression incluant tous les préviseurs et on récupère la somme des carrés résiduelle RSSMPet son nombre de dl associé. • On fait la régression incluant les préviseurs formant le modèle réduit et on récupère la somme des carrés résiduelle RSSMRet ses dl. • On calcule la statistique F. STT-2400; Régression linéaire
Hypothèse linéaire avec SAS dans la procédure PROC REG • proc reg data=maison; • model price = flr rms bdr bth gar lot fp st; • HypA: test bdr = 0; • HypB: test gar = 5; • HypC: test bdr = bth; • HypD: test bth = 0, gar = 0; • HypE: test flr, rms, bdr, bth, gar, lot, fp, st; • run; • proc reg data=maison; • model price = flr rms bdr lot fp st; • run; STT-2400; Régression linéaire
Quelques commentaires sur les tests • Pour HypA: on avait déjà ce test en regardant la statistique-t pour la variable BDR: (-4.21)2 = 17.70 avec valeur-p de 0.0006. • Pour HypE: on retrouve le résultat du test global, avec une statistique F de 20.11. • Pour HypD: La statistique-F est de 1.32. On peut obtenir cette statistique de l’ajustement des deux régressions, l’une incluant tous les préviseurs (RSS=378.21240, dl=17), l’autre excluant BTH et GAR (RSS=436.92812). On vérifie que: • (436.92812-378.21240)/(2*22.24779) = 1.32 STT-2400; Régression linéaire