180 likes | 320 Views
Régression linéaire multiple Eugénie Dostie-Goulet. Plan de la présentation Retour sur l’hypothèse La régression linéaire multiple Problèmes statistiques possibles Quelques mots sur le travail final. Construction du cadre opératoire.
E N D
Régression linéaire multipleEugénie Dostie-Goulet Plan de la présentation Retour sur l’hypothèse La régression linéaire multiple Problèmes statistiques possibles Quelques mots sur le travail final
Construction du cadre opératoire • Problématique: Est-ce qu’il y a un lien entre l’âge et l’opinion sur l’euthanasie? • Hypothèse: Plus on vieillit, moins on perçoit l’euthanasie comme une option qui se justifie • Variable dépendante: opinion sur l’euthanasie (à quel point celle-ci se justifie ou non). Variable continue, sur une échelle de 1 à 10 où 1 signifie que ce n’est jamais justifiable et 10 que c’est toujours justifiable • Variable indépendante: l’âge. Variable continue allant de 18 à 94.
Schéma conceptuel (1) Opinion sur l’euthanasie Âge
Variables contrôle • Variables indépendantes qui ne font pas partie de l’hypothèse • Servent à contrôler pour les autres facteurs potentiellement perturbateurs: ces variables servent à s’assurer qu’on prend bien en compte les autres facteurs susceptibles d’influencer notre variable dépendante. • On choisit nos variables contrôle selon la relation qui peut exister entre celles-ci et la variable dépendante. • En « contrôlant » pour un facteur particulier, on est en mesure de savoir que la relation qu’on trouve entre notre variable indépendante principale et notre variable dépendante est « authentique », et non pas influencée par ce facteur.
Description des variables contrôle • Sexe: être un homme ou une femme • Province: habiter au Québec ou non • Relation avec l’Église : avoir confiance en l’Église. Variable polytomique ordonnée : pas du tout (0), peu (1), assez (2), beaucoup (3). Attention: il est essentiel de justifier le choix de nos variables contrôle -
Schéma conceptuel (2) Province Sexe Opinion sur l’euthanasie Âge En mettant les flèches entre les variables, ça vous permet de vous questionner sur la relation qu’il y a entre elles... Relation avec l’Église
Relation fallacieuse • Lorsque la corrélation trouvée entre deux variables est due à un troisième phénomène, qui est lié à ces deux variables • Exemples: • Les villes ayant le plus grand nombre d’églises sont aussi celles avec le plus grand nombre de bars... • Il y a une corrélation négative entre les augmentations annuelles moyennes des salaires et la satisfaction du public envers les politiques économiques de leur gouvernement. Doit-on en conclure que plus les salaires augmentent, moins les citoyens sont satisfaits des politiques économiques? -
Relation indirecte • Cette relation entre deux variables ne peut se manifester que si un troisième phénomène vient s’interposer entre les deux premiers. En d’autres termes, A cause C, mais seulement parce que A est une cause directe de B, qui lui-même cause C. • Exemples: • Si vous mangez un sandwich et qu’après vous touchez votre nombril, il y a de fortes chances que votre nombril sente votre sandwich... • Si nos parents s’intéressent à la politique, on a plus de chance de voter. -
Questions à se poser • Quel test devrions-nous effectuer? • La régression linéaire (MCO) s’applique dans le cas d’une variable dépendante continue • Quelles variables indépendantes choisir? • On cherche à obtenir un modèle le plus parcimonieux possible, comprenant peu de variables, mais dont les variables expliquent bien la variation dans notre variable dépendante. • S’assurer du sens de la relation • Il arrive que la relation je soit pas seulement de X vers Y, mais aussi de Y vers X. C’est un problème d’endogénéité. • Parfois, la question ne se pose pas (notamment pour les variables sociodémographiques) • Trois étapes: • On se pose la question: un risque d’endogénéité est-il possible entre mes deux variables? • On décide si cette variable est assez importante pour qu’on vive avec ce risque • On explique notre choix lorsqu’on présente nos variables -
La régression linéaire simple • Rappel: la régression linéaire simple est une droite de tendance entre deux variables • La corrélation permet de voir la force de la relation entre ces deux variables • L’équation de régression permet de connaître l’impact de l’augmentation (ou la diminution) de X sur Y. • Forme fonctionnelle: y = a + bx • Prise en compte de l’erreur: y = a + bx + e • C’est de l’erreur que vient notre 95% de confiance. Parce que cette droite n’est jamais parfaite. -
La relation entre l’âge et l’opinion sur l’euthanasie • > mco1=lm(eut ~ age) • > summary(mco1) R
La relation entre l’âge et l’opinion sur l’euthanasie > mco1=lm(eut ~ age + homme + qc + conf_eglise) > summary(mco1) R
Multicolinéarité • On parle de multicolinéarité lorsqu’il y a une forte corrélation entre deux ou plusieurs variables indépendantes. • Forme fonctionnelle de la régression linéaire multiple: y = a + bx1 + bx2 + bx3... + bxj + e • Conséquences de la multicolinéarité • Le modèle lui-même est assez performant (R2 peut être élevé, test F significatif) • Mais problème d’information (et donc de précision) dans les effets individuels: l’erreur est assez élevée pour les variables en cause • Les coefficients peuvent aussi être assez faibles -
La relation entre l’âge et l’opinion sur l’euthanasie: multicolinéarité > mco1=lm(eut ~ age + homme + qc + francais + conf_eglise) > summary(mco1) R
Que faire avec la multicolinéarité? • On peut faire une corrélation de Pearson entre les variables indépendantes concernées (celles qui sont conceptuellement proches): plus la corrélation est élevée, plus le risque de multicolinéarité est élevé. > cor.test(qc, francais, use="complete.obs") R
Que faire avec la multicolinéarité? • Si la corrélation est au moins moyennement élevée, on peut relancer le modèle en excluant chaque fois une des deux variables, pour voir la différence. • On peut garder la variable qui « parle » le plus, ou celle qui, théoriquement, a le plus de raison d’être dans cette régression • S’il s’agit de variables avec lesquelles on peut construire un indice (information, conservatisme social, corruption, cynisme...), ne pas hésiter à le faire, après avoir vérifié qu’il y a bien corrélation entre ces variables.
La relation entre l’âge et l’opinion sur l’euthanasie: multicolinéarité? Estimate Std. Error t value Pr(>|t|) (Intercept) 7.004824 0.232962 30.068 < 2e-16 *** age -0.014016 0.003893 -3.600 0.000326 *** homme 0.274582 0.136969 2.005 0.045140 * qc 0.590840 0.286128 2.065 0.039066 * francais 0.477502 0.284353 1.679 0.093270 . conf_eglise -0.809760 0.077749 -10.415 < 2e-16 *** Multiple R-squared: 0.1007, Adjusted R-squared: 0.0983 Estimate Std. Error t value Pr(>|t|) (Intercept) 7.065437 0.231309 30.545 < 2e-16 *** age -0.014230 0.003895 -3.653 0.000266 *** homme 0.275680 0.137088 2.011 0.044474 * francais 0.974003 0.151937 6.411 1.83e-10 *** conf_eglise -0.825590 0.077438 -10.661 < 2e-16 *** Multiple R-squared: 0.09865, Adjusted R-squared: 0.09671 Estimate Std. Error t value Pr(>|t|) (Intercept) 7.005482 0.233076 30.057 < 2e-16 *** age -0.013851 0.003894 -3.557 0.000384 *** homme 0.266481 0.136951 1.946 0.051829 . qc 0.997125 0.152826 6.525 8.77e-11 *** conf_eglise -0.801163 0.077618 -10.322 < 2e-16 *** Multiple R-squared: 0.09936, Adjusted R-squared: 0.09741 R
La relation entre l’âge et l’opinion sur l’euthanasie: non-linéarité > mco1=lm(eut ~ age3655 + age5694 + homme + qc + conf_eglise) > summary(mco1) R