1 / 72

Modèle linéaire. Analyse numérique d’une matrice de corrélation. Transitivité et Colinéarité .

Thierry Foucart UMR 6086, Mathématiques, SP2MI, Bd Marie et Pierre Curie, BP 30179 86962  FUTUROSCOPE CHASSENEUIL CEDEX. Modèle linéaire. Analyse numérique d’une matrice de corrélation. Transitivité et Colinéarité . 1. introduction au modèle linéaire. . 1.1 un exemple.

hastin
Download Presentation

Modèle linéaire. Analyse numérique d’une matrice de corrélation. Transitivité et Colinéarité .

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Thierry Foucart UMR 6086, Mathématiques, SP2MI, Bd Marie et Pierre Curie, BP 30179 86962  FUTUROSCOPE CHASSENEUIL CEDEX. Modèle linéaire.Analyse numérique d’une matrice de corrélation.Transitivité et Colinéarité.

  2. 1. introduction au modèle linéaire.

  3. 1.1 un exemple • étude des liaisons entre le revenu, l’âge, la CSP, le niveau de diplôme, l’orientation politique, le sexe … au sein d’une population d’électeurs. • Grand nombre de tableaux croisés : impuissance des tests classiques du c2 et de Fisher • modélisation : expression mathématique des liaisons.

  4. 1.2 modèle linéaire. Y = b0 + b1 X1 + b2 X2 + b3 X3 + b4 X4 +  Y : revenu X1 : âge X2 : CSP X3 : diplôme X4 : orientation politique • : variable d’ajustement hypothèses rigides (linéarité, indépendance des observations, normalité et homoscédasticité de la variable d’ajustement e).

  5. 1.3 interprétation du modèle • toutes choses égales par ailleurs. • recherche d’un effet propre de Xj sur Y : bj 0. • l’âge X1 augmente d’un an : le revenu moyen Y augmente toujours de b1,quelle que soient la CSP, le diplôme, l’orientation politique. • démarche implicite : on suppose a priori l’existence d’un effet propre et on le contrôle.

  6. 1.4 analyse en quatre points : • Analyse numérique de la matrice des corrélations : transitivité, corrélation partielle. • Colinéarité : instabilité des estimations • Evaluation de la régression bornée. • Régression orthogonale. Sélection des composantes principales.

  7. 2. Analyse numérique d’une matrice de corrélation

  8. 2.1 Modèle linéaire. E(Xj) = 0, V(Xj) = 1 Y = b0 + b1 X1 + … + bj Xj + ... + bp Xp +  bj = coefficients de régression théoriques e : variable résiduelle : E(e) = 0, V(e) = s2 X: matrice des observations des Xj (en colonnes) Y : matrice des observations de Y (en colonne) R : matrice symétrique p x p des corrélations entre les variables Xj

  9. 2.2 Estimateur MCO B : estimateur sans biais de variance minimale (efficace) défini par (B1, B2, ..., Bp)t. Bj : estimateur du coefficientbj Les propriétés des estimateurs dépendent de R-1

  10. 2.3. Factorisation de Cholesky. Le calcul de R-1 consiste à factoriser R puis àinverser T. Factorisation de Cholesky T matrice triangulaire supérieure La matrice R étant symétrique définie positive est inversible : la matrice T existe et est inversible. R = T T t L

  11. 2.4 Calcul de la matrice T • i = 1,..., p ti,1 = r1,i / [r1,1 ] ½ (1) i-1 "i = 2, ..., p ti,i = [ri,i -  ti,k2 ]1/2 (2) k=1 i-1 ri,j -  ti,k tj,k k = 1 "i=2,...,p-1 "j=i+1,...p tj,i = ___________________ (3) ti,i

  12. -1  ap,p–1< rp,p–1 < bp,p-1 1 2.5 Encadrement d’un terme ap,p–1=– tp–1,p–1 [1 –  tp,k2]1/2 +  tp–1,k tp,k bp,p–1= tp–1,p–1 [1 – tp,k2]1/2 +  tp–1,k tp,k p-2 p-2 k = 1 k = 1 p-2 p-2 k = 1 k = 1 généralisation par permutation ai,j< ri,j < bi,j

  13. 2.6 terme diagonal p-1 cp,p =  tp,k2 rp,p > cp,p rj,j > cj,j cj,j = Rj2 k = 1 • Rj2 : coefficient de détermination obtenu dans • la régression de Xj par les autres variables explicatives

  14. 2.6 Exemple numérique X1 X2 X3 X4 X1 1 X2 0.5 1 X3 0.5 0.5 1 X4 -0.5 0.4 0.3 1 r1,2 ] -0.3697771 , 0.5126343 [ r4,4 ] .98 , + [ R42 = 0.98

  15. 3. Relations entre les corrélations

  16. 3.1 Transitivité de la corrélation. X Y Z X 1 R = Y 0.8 1 Z r3,1 r3,2 1 • Forte corrélation entre X et Y : r1,2 = 0.8 • Une forte corrélation entre Y et Z (r3,2 = 0.8) implique-t-elle une forte corrélation entre X et Z (r3,1 élevé) ?

  17. 3.2 Evaluation de la transitivité X Y Z X 1 R = Y 0.8 1 Z r3,1r3,2 1 • r3,2 = -0.2 r3,1 ]-0.75, 0.43[ • r3,2 = 0.6 r3,1 ] 0, 0.96 [ • r3,2 = 0.746 r3,1 ] 0.196, 1[ (>>0 pour n=100) • r3,2 = 0.919 r3,1 ] 0.499, 1[

  18. 3.3 Représentation graphique ensemble des couples (r3,2, r3,1) tels que la matrice soit définie positive (r1,2 = 0.8)

  19. 3.4 Généralisation X1 X2 X3 X4 X1 1 X20.5 1 X3 0.5 0.5 1 X4-0.5 0.4 0.3 1 • cas d’une matrice p x p : • relation entre r1,2 et r3,4 : quelle est la conséquence de la liaison entre la CSP et le diplôme (r1,2) sur la liaison entre l’âge et le revenu (r3,4) ?

  20. 3.5 Représentation graphique

  21. 3.6 Représentation graphique

  22. 3.7 Positionnement du coefficient de corrélation Evaluation de la position de ri,j dans son intervalle ] a, b [ à l’aide d’un indice variant de –1 à 1 - 1  (ri,j – (a+b)/2) / [ (b – a)/2 ]  1

  23. 3.8 corrélation partielle On obtient le coefficient de corrélation partielle : rpi,j = (ri,j – (a+b)/2) / [ (b – a)/2 ] • ri,j = (a + b)/2 si et seulement si rpi,j = 0 • rpi,j fonction linéaire croissante de ri,j • ri,j tend vers a ou b si et seulement rpi,j tend vers 1 en v.a. • relation entre rk,l et rpi,j : rk,l tend vers a (ou b) implique que rpi,j tend vers 1 en v.a. (sous conditions)

  24. 4. Colinéarités statistiques.

  25. 4.1 Application du modèle • Domaine d’application D = ensemble des valeurs vraisemblables des variables explicatives. • forte liaison entre la CSP et le diplôme : un employé a rarement un diplôme BAC+5. Le modèle ne permet pas d’estimer le revenu d’un employé titulaire d’un BAC+5. • Plus les variables explicatives sont nombreuses : • plus le risque de colinéarité est élevé. • moins la colinéarité est visible. • plus le domaine d’application est restreint.

  26. 4.2 Colinéarités statistiques • entre deux variables : leur coefficient de corrélation linéaire est proche de 1 en valeur absolue . • entre plusieurs variables : il existe une combinaison linéaire de ces variables de variance faible (d’où l’ACP).

  27. 4.3 Conséquences numériques Les termes de la matrice R-1 sont élevés, en particulier les termes diagonaux. Termes diagonaux de VB: variances des estimateurs Bj

  28. 4.4 Effets de la colinéarité statistique • Variances des estimateurs MCO des bj élevées : d’où valeurs des coefficients estimés parfois élevées. • Coefficients de corrélation entre les Bj proches de  1 : compensation entre les estimations • Conséquence : coefficients estimés parfois opposés aux coefficients théoriques • Coefficient de détermination instable.

  29. 4.5 modèle simulé. Y = 0.5 X1 + 0.5 X2 – 0.5 X3 – 0.5 X4 +  n = 100 R2 = 1 X1 X2 X3 X4 X1 1 X2 0.5 1 X3 0.5 0.5 1 X4 -0.5 0.4 0.3 1

  30. 4.6 Interprétation du modèle : Le modèle théorique correspond aux propriétés suivantes : • l’âge et la CSP ont un effet propre positif sur le revenu (b1 = b2 = 0.5 ) • le diplôme et l’orientation politique un effet propre négatif sur le revenu (b3 = b4 = - 0.5 ).

  31. 4.7 Estimations suivant les MCO(premier échantillon, n = 100) • b1 1.6339 0.8739 1.870 0.5 Estimation écart-type t vraie valeur • b2 -0.1482 0.5659 -0.262 0.5 • b3 -1.0375 0.4153 -2.498 -0.5 • b4 0.4439 0.7848 0.566 -0.5 • b0 -0.1650 0.1110 -1.486 0 R2 = 0.49

  32. 4.8 Estimations suivant les MCO(deuxième échantillon, n = 100) Estimation écart-type t vraie valeur b1 0.4638 0.7832 0.592 0.5 b2 0.3674 0.5072 0.724 0.5 b3 -0.5204 0.3722 -1.398 -0.5 b4 -0.5594 0.7033 -0.795 -0.5 b0 -0.0985 0.0995 -0.990 0 R2 = 0.50

  33. 4.9 Coefficient de déterminationTroisième exemple X1 X2 X3 Y X1 1 X20.6 1 X3 -0.279 0.6 1 Y 0.0446 0 0 1 R2 = 0.99536 (r1,2 = 0.600) R2 = 0.45260 (r1,2 = 0.599)

  34. 4.10 Variation du coefficient de détermination R42 en fonction de r1,2

  35. 5. Détection de la colinéarité. X1 X2 X3 X4 X1 1 X2 0.5 1 X3 0.5 0.5 1 X4 -0.5 0.4 0.3 1

  36. 5.1 Facteurs d’inflation • Facteurs d’inflation  : fj = 1 / (1 – Rj2) (termes diagonaux de la matrice R-1) • Indice de multicolinéarité (Tomassonne) : I = (1/p)  fj (moyenne des facteurs d’inflation) En l’absence totale de colinéarité, les facteurs d’inflation et l’indice I sont égaux à 1

  37. 5.2 Valeurs propres • On note l1, l2, …, lp les valeurs propres de R classées suivant les valeurs décroissantes. Faibles valeurs propres : colinéarité statistique • L’indice de conditionnement  (Belsley et al.): k = 1/ p (ou 1/ p) • L’indice de multicolinéarité : I = (1/p)  1/ j

  38. 5.3 Application au modèle simulé • Facteurs d’inflation : b1 f1 = 62 b2 f2 = 26 b3 f3 = 14 b4 f4 = 50 • Indice de conditionnement • Valeurs propres l1=2.019 l2=1.47 l3=0.5 l4= 0.007 I = 38 • Indice de multicolinéarité  = 148.83

  39. 6. Application de la régression bornée.

  40. 6.1 Estimateur biaisé d’un paramètre m E[(X’ – m )2] = V(X’)+ [E(X’) – m]2 E[(X – m )2] = V(X) > E[(X’ – m )2]

  41. 6.2 Estimateur de la régression bornée critère des MC sous la contrainte B 2  M (Pour k = 0, on retrouve l’estimateur des MCO)

  42. 6.3 Application. • On fait varier k de 0 à 1. • on estime les coefficients de régression par l’estimateur de la régression bornée. • On construit la représentation graphique des bjen fonction de k appelée ridge trace. • On choisit k de façon que leurs valeurs soient stabilisées.

  43. 6.4 Premier exemple

  44. 6.5 estimations (k = 0.1)

  45. 6.6 Deuxième exemple

  46. 6.7 estimations (k = 0.02).

  47. 6.8 Distances entre vecteur observé et vecteur réeld2b, B =  (bj– bj)2(erreur quadratique) • 50 échantillons de taille 100 : 50 distances1) par la régression des MCO k = 02) par la régression bornée k = 0.013) par la régression bornée k = 0.05

  48. 6.9 Résultats numériques Carrés des distances entre vecteurs estimés et vecteur vrai (50 vecteurs estimés)

  49. 6.10 Les 20% plus mauvais résultats par les MCO

  50. 6.11 fonction de répartition des carrés des distances (MCO)

More Related