1 / 116

Analyse factorielle confirmatoire, Modèle de causalité (Path analysis) et Modélisation d’équations structurelles

Analyse factorielle confirmatoire, Modèle de causalité (Path analysis) et Modélisation d’équations structurelles sur variables latentes. Michel Tenenhaus tenenhaus@hec.fr. Analyse factorielle confirmatoire. Exemple Kendall. Modèle de causalité (Path analysis, Equations simultanées).

moesha
Download Presentation

Analyse factorielle confirmatoire, Modèle de causalité (Path analysis) et Modélisation d’équations structurelles

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Analyse factorielle confirmatoire,Modèle de causalité (Path analysis) et Modélisation d’équations structurelles sur variables latentes Michel Tenenhaustenenhaus@hec.fr

  2. Analyse factorielle confirmatoire Exemple Kendall

  3. Modèle de causalité(Path analysis, Equations simultanées)

  4. Modèle de relations structurelles sur variables latentes

  5. Approche confirmatoire Reconstituer les covariances et valider un modèle Covariance-based SEM - AMOS (SPSS) - Proc CALIS (SAS) Approche exploratoire Estimer les variables latentes et estimer les équations de régression • Component-based SEM • - PLS-Graph • XLSTAT-PLSPM • GSCA ECSI Path model for a“ Mobile phone provider” Modélisation de relations de causalité sur variables latentes

  6. I. Analyse Factorielle Confirmatoire Les données de Long (J. Scott Long : Confirmatory Factor Analysis, SAGE Publications, 1986) - 603 chefs de famille de la région de Hennepin, Illinois - PSY67 = Désordres psychologiques 1967 PHY67 = Désordres psycho-physiologiques 1967 PSY71 = Désordres psychologiques 1971 PHY71 = Désordres psycho-physiologiques 1971

  7. Données Les données sont les covariances entre les variables manifestes :

  8. Résidus Variables manifeste Variables latentes Le 1er modèle spécifié par Long theta13 theta24 theta11 theta22 theta33 theta44 D1 D2 D4 D3 1 1 1 1 PHY71 PSY67 PSY71 PHY67 L11 L21 L42 L32 phi11 XSI1 phi22 XSI2 phi12

  9. Les équations factorielles PSY67 = 11 1 + 1 PHY67 = 21 1 + 2 PSY71 = 12 2 + 3 PHY71 = 22 2 + 4 Modèle identifiable Les paramètres () du modèlepeuvent s’exprimer de manière unique en fonction de la matrice des covariances vérifiant le modèle : C.N. : Nb de paramètres  q(q+1)/2. Étude du 1er modèle spécifié Matrice  Covariances sur la population Les 13 paramètres du modèle 11,21, 12, 22 11 = Var(1) , 22 = Var(2) , 12 = Cov(1, 2) 11 = Var(1) , 22 = Var(2) , 33 = Var(3) , 44 = Var(4) 13 = Cov(1, 3) , 24 = Cov(2, 4)

  10. Modèle identifiable    () Espace des paramètres admissibles Espace des () suivant le modèle Si 1  2 , (1)  (2) Espace de tous les  possibles

  11. Les équations factorielles Décomposition de la covariance Étude du 1er modèle spécifié Les paramètres du modèle 11,21, 12, 22 11 = Var(1) , 22 = Var(2) , 12 = Cov(1, 2) 11 = Var(1) , 22 = Var(2) , 33 = Var(3) , 44 = Var(4) 13 = Cov(1, 3) , 24 = Cov(2, 4)

  12. 2e modèle de Long (identifiable) Normalisation des variables latentes Var(1) = 11 = 1 , Var(2) = 22 = 1 Stabilité des saturations au cours du temps PSY67,1 = PSY71,2 PHY67,1 = PHY71,2 Indépendance entre les résidus 13 = Cov(1, 3) = 0 24 = Cov(2, 4) = 0

  13. Le 2e modèle (identifiable) spécifié par Long theta11 theta22 theta44 theta33 D1 D2 D4 D3 1 1 1 1 PHY71 PSY67 PSY71 PHY67 L11 L21 L21 L11 1 1 XSI1 XSI2 phi12 Le nombre de paramètres (7) est inférieur au nombres de variances et covariances (10) : Nombre de degrés de liberté = 3.

  14. Les équations factorielles Décomposition de la covariance Étude du 2e modèle spécifié Les paramètres du modèle 11,21 12 = Cov(1, 2) 11 = Var(1) , 22 = Var(2) , 33 = Var(3) , 44 = Var(4)

  15. Les covariances Les équations factorielles PSY67 = 1 1 + 1 PHY67 = 2 1 + 2 PSY71 = 1 2 + 3 PHY71 = 2 2 + 4 Calcul de la matrice des covariances théoriques (modèle 2) Les 7 paramètres du modèle 1,2, Var(h) = 1, 12 = Cov(1, 2), i = Var(i) Modèle identifiable : les paramètres s’expriment de manière unique en fonction des covariances. C.S.: 1 bloc  3 VM 2 blocs et +  2 VM par bloc

  16. Estimation et validation du modèle Notations - q = Nombre de variables manifestes - n = Nombre d’observations (règle courante : n > 10*(nb de paramètres)) -  = Matrice des covariances au niveau de la population - S = Matrice des covariances observées - C = Matrice des covariances calculées à l’aide du modèle Maximum de vraisemblance En supposant les données multinormales le maximum de vraisemblance conduit à rechercher les paramètres du modèle minimisant la fonction F(S,C) = Trace(SC-1) - q + Ln(det C) - Ln(det S)  FMIN Tests de validation du modèle - Si le modèle étudié est exact : Chi-Square = CMIN = (n-1)FMIN  2(dlM) - dlM = Nb de covariances - Nb de paramètres du modèle M - Modèle accepté si p-value  0.05 ou bien si Chi-Square/dlM  2 à 5 - Modèle accepté si RMSEA  0.05 , toléré jusqu’à 0.08 Augmente avec n !!! Dépend très peu de n

  17. Estimation du modèle S  2 = CMIN=(n-1)FMIN  C     () Espace des paramètres admissibles Espace des () suivant le modèle Espace de tous les  possibles

  18. Résultats des estimations des paramètres avec AMOS .52 .22 .16 .40 D1 D2 D4 D3 1 1 1 1 PHY71 PSY67 PSY71 PHY67 1.24 .30 .30 1.24 1.00 1.00 XSI1 XSI2 Modèle 2 de LONG Chi-Square = 22.574 DF = 3 .67 P-Value = .000 Chi-Square/df = 7.525 RMSEA = .104 p-value = .010

  19. Matrice des covariances et des corrélations observées et reconstituées à l’aide du modèle 2 Exemple : Var(PHY71) = Var(.30XSI2 + D4) = .302Var(XSI2) + Var(D4) = .302 + .16 = .25  .247

  20. Ecart dû à l’approximation de la réalité par le modèle Soit  la matrice des covariances calculée au niveau de la population et C0 la matrices des covariances calculées à l’aide du modèleminimisant la fonction F(,C0) = Trace(C0-1) - q + Ln(det C0) - Ln(det  )  FMIN0 Si le modèle est exact, FMIN0 = 0.

  21. Ecart dû à l’approximation de la réalité par le modèle S  population FMIN    C  C0 FMIN0    () Espace des paramètres admissibles Espace des () suivant le modèle Espace de tous les  possibles

  22. Loi du khi-deux non centrée

  23. Loi générale de CMIN = (n-1)FMIN(Le modèle étudiée n’est pas nécessairement le bon) CMIN suit une loi du khi-deux non centrée à dlM degrés de liberté et de paramètre de non centralité  =(n-1)FMIN0. Estimation de  = (n-1)FMIN0 Estimation de FMIN0 Favorise les modèles avec beaucoup de paramètres (CMIN et dlM petits)

  24. Validation du modèle à l’aide du RMSEA (Root Mean Square Error of Approximation) Le RMSEA mesure la « distance » entre la matrice des covariances calculées C0 à l’aide du modèle M et la matrice des covariances sur la population  : • Ne dépend pas de n. • Corrigé pour le nombre • de paramètres. où FMIN0 = Trace(C0-1) - q + Ln(det C0) - Ln(det  )

  25. Utilisation pratique du RMSEA Le RMSEA est estimé par Le modèle est accepté si le RMSEA estimé est inférieur à 0.05 ou, à la limite, à 0.08.

  26. RMSEA S  population FMIN   C   C0 FMIN0    () Espace des paramètres admissibles Espace des () suivant le modèle Espace de tous les  possibles

  27. Utilisation pratique du RMSEA Les programmes fournissent : - Intervalle de confiance à 90% du RMSEA - Niveau de signification du test H0 : RMSEA  0.05 Le test sur le Khi-deux est très exigeant puisqu’il correspond en fait au test H0 : RMSEA = 0

  28. Utilisation de la Proc CALIS data long1 (type=corr); input _type_ $ _name_ $ v1-v4 ; label v1 ='PSY67' v2 ='PHY67' v3 ='PSY71' v4 ='PHY71'; cards; N . 603 603 603 603 STD . 1.45 0.555 1.38 0.503 CORR V1 1.000 . . . CORR V2 .454 1 . . CORR V3 0.526 0.247 1.000 . CORR V4 0.377 0.309 0.549 1.000 ;

  29. Utilisation de la Proc CALIS proccaliscovariancecorrresidualmodification ; lineqs v1 = L11 f1 + d1, v2 = L21 f1 + d2, v3 = L11 f2 + d3, v4 = L21 f2 + d4; std d1 = theta1, d2 = theta2, d3 = theta3, d4 = theta4, f1 = 1, f2 = 1; cov f1 f2 = phi12; var v1-v4; run;

  30. Résultat de la Proc CALIS pour le modèle 2 RMSEA Estimate 0.1041 RMSEA 90% Lower Confidence Limit 0.0667 RMSEA 90% Upper Confidence Limit 0.1462 Résultat de AMOS pour le modèle 3 RMSEA LO 90 HI 90 PCLOSE ---------- ---------- ---------- ---------- 0.104 0.067 0.146 0.010 Conclusion L’hypothèse H0 : RMSEA  0.05 est rejetée puisque : (1) l’intervalle de confiance du RMSEA est au-dessus de 0.05, (2) Niveau de signification du test = 0.0108 = « Proba. (H0 vraie) »  Le modèle 2 n’est pas accepté.

  31. Deux modèles extrêmes Le modèle saturé : Ce modèle contient autant de paramètres que de données : [q(q+1)/2]. Ce modèle présente 0 degré de liberté. [Il reconstitue parfaitement la matrice des covariances : FMIN=0] Le modèle correspondant à l’indépendance entre les VM : Toutes les variables manifestes sont indépendantes entre elles. Les seuls paramètres à estimer sont les variances des VM. Ce modèle présente le nombre maximum de degrés de liberté. [C’est le modèle avec le plus de contraintes possibles]

  32. Indices de Validation basés sur la comparaison au modèle de l’indépendance : Bentler Comparative Fit Index (CFI) CFI compare le modèle étudié au modèle correspondant au cas de l’indépendence entre les variables manifestes : Le modèle est accepté si CFI  0.9

  33. Bentler-Bonnet Non-Normed Fit Index (NNFI)équivalent au Tucker-Lewis Index (TLI) Le modèle est accepté si : NNFI  0.9 ou même 0.95

  34. Goodness-of-Fit Index (GFI)Adjusted Goodness-of-Fit Index (AGFI) Le modèle est accepté si : GFI et AGFI  0.9

  35. Root Mean Square Residual (RMR) Standardized RMR à comparer à .10.

  36. Akaike Information Criterion (AIC) calculé dans AMOS ECVI

  37. Amélioration du modèleUtilisation des indices de modification Les indices de modification mesurent la diminution du khi-deux obtenue en ajoutant une flèche (simple ou double) sur le schéma fléché. Rank Order of the 5 Largest Modification Indices Row Column Chi-Square Pr > ChiSq d3 d2 20.02924 <.0001 d3 d1 16.39279 <.0001 d4 d2 16.39132 <.0001 SAS Modification Indices Covariances: M.I. Par Change D2 <=> D4 15.091 0.033 D2 <=> D3 14.297 -0.081 AMOS

  38. 3e modèle : Utilisation de la Proc CALIS proccaliscovariancecorrresidualmodificationoutstat = a; lineqs v1 = L11 f1 + d1, v2 = L21 f1 + d2, v3 = L11 f2 + d3, v4 = L21 f2 + d4; std d1 = theta1, d2 = theta2, d3 = theta3, d4 = theta4, f1 = 1, f2 = 1; cov f1 f2 = phi12, d2 d4 = theta24; var v1-v4; run;

  39. Résultats du 3e modèle visualisés avec AMOSCoefficients standardisés (écart-type = .047)

  40. Estimation des variables latentes Résultat de l’option OUTSTAT de la Proc CALIS _NAME_ v1 v2 v3 v4 f1 0.529 0.215 0.109 -0.005 f2 0.072 -0.005 0.586 0.221 Chaque variable latente est estimée par régression multiple de la variable latente théorique sur toutes les variables manifestes centrées : - XSI1 = 0.529*PSY67 + 0.215*PHY67 + 0.109*PSY71 - 0.005*PHY71 - XSI2 = 0.072*PSY67 - 0.005*PHY67 + 0.586*PSY71 + 0.221*PHY71

  41. Facteurs du 1er ordre Facteur du 2e ordre II. Analyse factorielle confirmatoiredu second ordre (analyse de tableaux multiples)

  42. Résultats visualisés avec AMOS (Coefficients non standardisés)

  43. Résultats visualisés avec AMOS (Coefficients standardisés)

  44. Estimation des variables latentes - XSI1 = 0.365*PSY67 + 0.559*PHY67 + 0.272*PSY71 + 0.138*PHY71 - XSI2 = 0.090*PSY67 + 0.413*PHY67 + 0.556*PSY71 + 0.439*PHY71 - XSI = 0.220*PSY67 + 0.439*PHY67 + 0.344*PSY71 + 0.232*PHY71 On peut aussi estimer chaque facteur du premier ordre comme combinaison linéaire de ses variables manifestes : - en prenant le fragment du facteur de 2e ordre XSI correspondant à chaque bloc (style AFM), - par régression du facteur du second ordre XSI sur chaque bloc (style ACG ou Mode B de l’approche PLS), - par régression PLS de XSI sur chaque bloc (chaque variable manifeste est pondérée par sa covariance avec XSI).

  45. III. Autres méthodes d’estimation Unweighted Least Squares (ULS) Fonction minimisée : F = 0.5*||S – C||2 Generalized Least Squares (GLS) * Fonction minimisée : F = 0.5*||I - S-1C||2 ‘ Scale free ’ Least Squares (SLS) Fonction minimisée : F = 0.5*||{diag(S)}-1(S - C)||2 Asymptotically distribution-free (ADF) * Fonction minimisée : *Chi-Square = (n-1)F  2(ddl) si le modèle étudié est exact.

  46. D1 D2 D1 D2 1 1 X1 Y1 X1 Y1 1 1 X2 Y2 X2 Y2 IV. Les modèles de causalité (Path models) Récursif vs non récursif Modèle récursif Modèle non récursif • Erreurs non corrélées • Pas de boucles

  47. D2 D1 D2 D1 Modèles de causalité (Path models) Récursif vs non récursif 1 1 X1 X1 Y1 Y1 1 1 X2 Y2 X2 Y2 Modèle partiellement récursif Modèle non récursif - Bow-Free pattern - Considéré comme récursif - Bow pattern - Considéré comme non récursif

  48. Modèles identifiables • Les modèles récursifs sont identifiables. • Les conditions pour qu’un modèle non récursif soit identifiable sont complexes : voir Kline chapitre 9.

  49. Un exemple de modèle de causalité Engagement sentimental d’une personne avec son partenaire - C. E. Rusbult : Commitment and satisfaction in romantic associations: A test of the investment model. Journal of Experimental Social Psychology, 1980 - L. Hatcher : A step-by-step approach to using the SAS system for factor analysis and structural equation modeling. SAS Institute, 1994 Variables observées sur 240 individus : - Commitment - Satisfaction - Rewards - Costs - Investment size - Alternative value

  50. Description des variables • Commitment : the subject’s intention to maintain a current romantic relationship • Satisfaction : the subject’s emotional response to the current relationship • Investment size : the amount of time and effort that the subject has put into the current relationship • Alternative value : perceived attractiveness of the subject’s alternatives to the current relationship • Rewards : the subject’s perceptions of the number of good things associated with the current relationship • Costs : the subject’s perceptions of the number of bad things associated with the current relationship

More Related