Régression linéaire (STT-2400)

Régression linéaire (STT-2400) Section 5 Transformations Version: 9 février 2007

Introduction • Il est plutôt rare que nous sachions que la fonction moyenne E(Y | X ) est linéaire. • Parfois la fonction moyenne est dictée par une théorie; sinon toute formulation paramétrique est au mieux une approximation. • Un exemple où la fonction moyenne est linéaire est dans le cas où la variable réponse et le préviseur sont conjointement de distributions normales. STT-2400; Régression linéaire

Loi normale à deux dimensions • Si • On sait que: • Ainsi dans cette situation la fonction moyenne est linéaire. STT-2400; Régression linéaire

Transformations des variables • On espère qu’une relation linéaire entre la variable réponse et les préviseurs procure une approximation raisonnable au phénomène étudié. • Lorsque ce n’est pas le cas, on peut considérer l’utilisation de variables transformées: • Transformation des préviseurs; • Transformation de la variable réponse; • Transformation à la fois des préviseurs et de la variable réponse. STT-2400; Régression linéaire

Transformations et changements d’échelle • Il importe de réaliser que le choix d’une transformation implique un changement d’échelle. • Exemple: Étude des données des Nations-Unies. • On avait considéré l’utilisation de variables telles log2(Fertility), log2(PNBpp). La variable réponse est dans une échelle logarithmique, plutôt que dans le système d’unité de mesure de la variable Fertility, qui était un taux de natalité. STT-2400; Régression linéaire

Exemple: poids du cerveau versus poids du corps • Les données portent sur le poids en kilogramme de 62 mammifères. On dispose également du poids du cerveau de ces espèces. • Puisque l’on dispose que d’un seul préviseur, une analyse graphique est particulièrement utile et recommandée. (En présence de plusieurs préviseurs la situation est évidemment plus compliquée). STT-2400; Régression linéaire

Exemple (suite) • On note que ce jeu de données montre un problème d’échelle: trois points isolés cachent la relation entre les deux variables. • Plusieurs espèces ont des petits poids de quelques grammes (et donc avec un cerveau plus petit) versus des espèces comme l’éléphant d’Asie et d’Afrique qui sont beaucoup plus lourds. • Les trois points isolés sont les éléphants d’Asie et d’Afrique et l’espèce humaine. • C’est un exemple typique où il serait une bonne idée de transformer. STT-2400; Régression linéaire

Famille de transformations • Une famille de transformation est un ensemble de transformations indexé par un ou plusieurs paramètres. • Le modèle de régression linéaire multiple est un exemple de modèle paramétrique, avec typiquement p+1 paramètres à estimer. Dans cet esprit, il pourrait être une bonne idée de rajouter un petit nombre de paramètres supplémentaires pour le choix de l’échelle. • On pourra même considérer d’effectuer des tests d’hypothèses sur ces nouveaux paramètres. STT-2400; Régression linéaire

Transformations « puissance » • Supposons que l’on dispose d’une variable aléatoire Ustrictement positive (on verra ce qui peut être fait dans le cas de variables aléatoires qui pourraient prendre des valeurs négatives). • La famille de transformation puissance est: STT-2400; Régression linéaire

Choix populaires • On note que le choix l = 1 correspond à la situation où la variable U n’est pas transformée. • Les transformation racine carrée et racine cubique sont respectivement: l = 1/2, 1/3. • Par définition l = 0correspond à la transformation logarithmique. • Parfois l = -1, la transformation inverse, peut également être d’intérêt. • Habituellement l = [-2, 2] et même on pourrait restreindre davantage à l’intervallel = [-1, 1]. STT-2400; Régression linéaire

Exemple sur les poids des espèces • La transformation logarithmique semble adéquate pour ce problème. • C’est une bonne idée d’utiliser PROC LOESS afin d’ajouter un estimateur nonparamétrique de la fonction moyenne. • Règles empiriques: • Règle du log Lorsque l’étendue d’une variable couvre plus d’un ordre de magnitude (ici le poids du corps échelonne de 0.005 kg à 6654 kg), et si la variable est strictement positive: prendre une transformation logarithmique. • Règle de l’étendue Si l’étendue est considérablement inférieur à un ordre de magnitude: ne pas transformer. STT-2400; Régression linéaire

Modèle allométrique pour le poids des espèces • Il y avait une théorie physique et le modèle suivant est appelé un modèle allométrique: • En prenant le logarithmique de chaque côté: • On note que ce ne sont pas toutes les transformations qui sont interprétables comme des modèles physiques. STT-2400; Régression linéaire

Transformations puissance mises à l’échelle • Pour une variable aléatoire Xstrictement positive cette famille de transformation est définie par: • Cette famille ressemble mais aussi diffère de la famille de transformation puissance sur de nombreux aspects. STT-2400; Régression linéaire

Propriétés de la famille de transformation puissance mise à l’échelle • 1. Comme fonction de l, ys(X, l) est une fonction continue de l. En effet par une application de la règle de l’Hospital: • 2. Cette transformation préserve la direction de l’association: si (X,Y) sont reliés positivement, alors (ys(X, l) , Y) sont également positivement reliés pour toutes les valeurs de l. STT-2400; Régression linéaire

Choix de l lors de la transformation d’un préviseur • Dans le cas d’un seul préviseur, nous pourrions formuler la fonction moyenne: • Si l était connu, on obtiendrait l’estimateur des moindres carrés usuels et on pourrait déterminer RSS(l). • On estime l en déterminant: • En pratique,on pourrait calculer RSS(l)pour la fourchette de valeurs: STT-2400; Régression linéaire

Exemple: hauteur des arbres en fonction du diamètre • Données prélevées en 1991 portant sur les cèdres de l’ouest (Western Cedar) dans le Upper Flat Creek (Idaho) de l’University of Idaho Experimental Forest. • Variable réponse: Height, en décimètres; • Préviseur: Dbh, le diamètre de l’arbre en mm à 137 cm au-dessus du sol. STT-2400; Régression linéaire

Analyse graphique • Pour les valeurs de ldans la palette {-1, 0, 1}, on effectue la régression de: • Transformation inverse: Y sur y(X, -1); • Transformation log: Y sur y(X, 0); • Pas de transformation: Y sur y(X, 1). • On récupère les valeurs prédites de ces trois régressions et on représente sur un même graphique (X,Y) en plus de . STT-2400; Régression linéaire

Analyse graphique (suite) • Comme on peut le constater, le choix l = 0 semble décrire les données adéquatement. • Concernant le choix l = 1, il semble que de ne pas transformer occasionne des problèmes pour des arbres avec de petits ou grands diamètres. • La transformation inverse pour sa part semble afficher une courbure trop prononcée, et la courbe ne semble pas décrire correctement les arbres avec de grands diamètres. STT-2400; Régression linéaire

Approche alternative: régression nonlinéaire et PROC NLIN • Une approche alternative est d’ajuster un modèle de régression par moindres carrés non linéaire. On note que la fonction moyenne est: • En adoptant le critère des moindres carrés, on cherche à minimiser par rapport aux paramètres b0, b1 et l. • Ceci offre l’avantage d’une estimation simultanée et on obtient une estimation de let de son erreur standard. • On note que donnant un intervalle de confiance de niveau 95% pour l: STT-2400; Régression linéaire

Méthode de Box-Cox • Cette technique a été proposée par Box et Cox (JRSS B, 1964). • Elle se concentre sur la transformation de la variable réponse. • Elle est applicable pour les problèmes de régression linéaire simple et multiple. • Elle repose sur une version légèrement modifiée de la famille de transformation puissance. STT-2400; Régression linéaire

Famille de transformation puissance modifiée • Considérons la moyenne géométrique: • La famille de transformation puissance modifiée est: STT-2400; Régression linéaire

Introduction à la méthode de Box-Cox • On présume que la fonction moyenne suivante est valable pour un certain l: • Si on connaissait l on pourrait effectuer la régression usuelle des moindres carrés et trouver RSS(l). • Remarque: la multiplication par la moyenne géométrique assure que RSS(l) comme fonction de lest dans le même système d’unités. STT-2400; Régression linéaire

Méthode de Box-Cox (suite) • Afin de trouver le paramètre l, on chercher à minimiser RSS(l). • D’un point de vue pratique, on peut encore considérer la sélection de l à l’aide d’une grille. • En SAS, la procédure PROC TRANSREG permet de trouver le paramètre l. STT-2400; Régression linéaire

Transformation vers la normalité • La méthode de Box-Cox n’a pas été proposée initialement afin de transformer vers la linéarité, mais bien pour transformer vers la normalité. • Le paramètre l est choisit afin de rendre les résidus de la régression de y(Y, l) sur X les plus près possible d’une distribution normale. • La technique permet également de considérer des intervalles de confiance pour l. STT-2400; Régression linéaire

Exemple: données sur les accidents sur l’autoroute (Minnesota) • Les variables suivantes sont considérées (les données sont de 1973): • Rate: taux d’accident par million de véhicules-milles parcourus. • Len: longueur du segment routier en milles; • ADT: Estimation du trafic journalier moyen en milliers; • Trucks: Volume des camions comme pourcentage du volume total; • Slim: Limite de vitesse; • Shld: Largeur de l’accotement; • Sigs: Nombre de signaux relatifs aux changements de voies par mille dans le segment. STT-2400; Régression linéaire

Exemple (suite) • Les transformations suivantes sont considérées: • Sigs1 = (Sigs x Len + 1)/Len; Sigs est le nombre de lumières par mille. La transformation vise essentiellement à rendre la variable positive pour considérer une « transformation puissance ». • ADT et Len ont de grandes étendues: la règle du log pourrait s’appliquer ici directement: • logADT = log(ADT); logLen = log(Len). • Slim varie seulement de 40 mph à 70 mph; la règle de l’étendue suggère de ne pas transformer. • On transforme Sigs1 et Trks: • logSigs1 = log(Sigs1); LogTrks = log(Trks). • On ne transforme pas Shld. STT-2400; Régression linéaire

PROC TRANSREG pour mettre en œuvre la méthode de Box-Cox • data highway; • set alr3.highway; • logLen=log2(Len); • logADT=log2(ADT); • logTrks=log2(Trks); • logSigs1=log2((Len*Sigs+1)/Len); • proc transreg data=highway; • model boxcox(Rate /convenient lambda=-1 to 1 by .005)= identity(logLen logADT logTrks Slim Shld logSigs1); • run; STT-2400; Régression linéaire

PROC TRANSREG • On trouve que le meilleur l est donné par: • On trouve la meilleur valeur en localisant « < ». • L’intervalle de confiance consiste des valeurs de l associées avec des « * ». Ainsi l’intervalle de confiance est: • Puisque 0 est dans l’intervalle cela semble plutôt compatible avec une transformation de type logarithmique. STT-2400; Régression linéaire

Transformations de variables pas forcément positives • Une possibilité est de considérer comme famille de transformation: • Typiquement on spécifie g a priori et on le prend suffisamment grand afin de s’assurer que Y+ gest strictement positive. STT-2400; Régression linéaire

Régression linéaire (STT-2400)