1 / 14

Corrélation

Corrélation. Position du problème On désire savoir, dans une population donnée, si le poids (y) et la taille (x) d'un individu sont deux variables indépendantes ou, au contraire, si elles sont liées en étudiant les variation de l’une en fonction de l’autre et réciproquement

banyan
Download Presentation

Corrélation

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Corrélation • Position du problème • On désire savoir, dans une population donnée, si le poids (y) et la taille (x) d'un individu sont deux variables indépendantes ou, au contraire, si elles sont liées en étudiant les variation de l’une en fonction de l’autre et réciproquement • Si les variables sont indépendantes yi doit avoir, en moyenne, la même valeur quelque soit xi et inversement. • Pour répondre au problème posé, on reléve sur un échantillon de N individus, les N couples de valeurs x,y • Définition covariance (X,Y) r = var(X) * var (Y) • Le coefficient de corrélation mesure l’association linéaire entre X et Y • Il fait jouer un rôle symétrique à X et Y • Il reste identique si on change d’unité ou d’origine

  2. Corrélation • Tableau des valeurs : • Représentation graphique • Nuage de points • Paramètres : • Moyennes, Écarts type estimés, Covariance, Coefficient de corrélation • Éléments nécessaires : • Nombre de couples : N • Total des produits X*Y • Total des X et des Y • Total des carrés des X et des Y

  3. Corrélation Tx2 SCEx = Ux - N SCEx Sx = ^ SCEx sx = S (x - x)*(y - y) Tx *Ty Txy - N = N • Calculs : • Effectifs N (nombre de couple) • Total des valeurs (somme) Tx et Ty • Total des carrés des valeurs Ux et Uy • Total des produits Txy N Nx- 1 • Covariance cov (x,y) = N

  4. Corrélation y 2 2 S [yi - y(x)] = S ( yi - a - b * xi) • • d2 • • d1 • y = a + b X x • Régression et corrélation : • x et y sont deux variables aléatoires : x en fonction de y et y en fonction de x ont un sens (poids/taille) => corrélation • y est explicable par x (action /dose) => régression • Droite de régression des moindres carrés Droite de régression de y en x Minimise la somme des d1i Cette somme, xi et yi étant connus, est fonction uniquement de a et b. Le minimum est connu en annulant les dérivées partielles par rapport à a et par rapport à b Droite de régression de x en y Minimise la somme des d2i

  5. Corrélation Tx *Ty cov(x,y) Txy - Sx cov(x,y) N * r = = = 2 Sx * Sy Sy Sx SCEx * SCEy • Calcul du coefficient de corrélation • r varie de -1 à + 1 • si r = 0 pas de liaison • si r = 1 (ou -1) la connaissance de x (ou de y) donne toute l'information. Il est alors inutile de mesurer l'autre variable. • Test du coefficient de corrélation contre 0 • Hypothèse nulle • x et y sont indépendants. r fluctue autour de 0 du fait du hasard. • Hypothèses alternatives • Test bilatéral x et y sont liés. r est différent de 0

  6. Corrélation r N - 2 DDL = N - 2 t = 2 1-r • Conditions d'applications • Si N est petit pour une valeur de x donnée, la distribution des y (distribution liée) est normale et de variance constante (et réciproquement). Le modèle linéaire a un sens • Utilisation de la table du coefficient de corrélation (N<100) • Calcul d'une statistique t de Student • Recherche dans la table (r ou t) de la valeur correspondant à alpha choisi. • Si r ou t > r ou t alpha on rejette H0 : les deux variables sont liées • Si r ou t < r ou t alpha on ne peut pas rejeter H0. Les deux variables sont indépendantes mais ATTENTION au risque beta. Si il y a une liaison, dans le cas où la distribution (xy) est normale, r mesure la force de la liaison

  7. Divers types de résultats • Importance de la visualisation du nuage de points « Amande à petit ventre » Forte corrélation positive r > +0,9 Forte corrélation négative r < -0,9 « Amande à gros ventre » Faible corrélation positive Faible corrélation négative Pas de corrélation r voisin de 0

  8. Coefficient de corrélation de rang de Spearman 2 n S di i=1 • Si condition d'application pour le coefficient de corrélation usuelle ne sont pas remplies, on calcul le coefficient de corrélation non pas entre les valeurs mais entre leur rang. • Coefficient de corrélation Rs : di = xi - yi 6 ________ rs = 1 - 2 N(N - 1) • Test du rs Spearman utilisation de table ou calcul d’un t de Student

  9. Régression linéaire • Situation du problème : • Étude da l’association de deux variables quantitatives X et Y telle que X explique Y. Cela revient à étudier la distribution de Y pour chaque valeur de X. • S’il y a une association entre X et Y la distribution conditionnelle de Y varie selon les valeurs de X. La moyenne et la variance conditionnelle de Y dépendent de X. Ici on ne va s'intéresser qu’à la variation de la moyenne mY/X. • La fonction de régression de Y en X est la fonction f décrivant la variation de la moyenne conditionnelle de Y par rapport à X : • f(x) = E(Y/X) • Exemple : Poids de naissance en fonction du terme de la grossesse, Baisse de la tension artérielle en fonction de la dose d’anti-hypertenseur... • Tableau des valeurs : Terme Poids moyen Ecart type estimé 27 1146 437,46 28 1292 371,02 29 1694 617,39 ....

  10. Représentation des données • Exemple • Poids de naissance / Terme • Pour chaque valeur du terme on a la moyenne et l’écart type du poids de naissance. On trace le nuage de points. • On envisage des fonctions simples entre lesquelles on essaie de choisir : droite, exponentielle, parabole. En pratique, par transformation de variable, on se ramène à une droite : • E(Y/x) = f(x) = a + bx Si l’on se ramène aux valeurs individuelles on a : y = a + by + e • ou e est l’écart entre la valeur individuelle y de chaque sujet et la moyenne de y pour une valeur e x donnée.

  11. Régression linéaire • Droite de régression • Estimation par le méthode des moindres carrés : • Chaque sujet de la population est représenté par un couple de valeur (x,y) sur le graphique. • La droite de régression est parmi toutes les droites possible celle qui résume le mieux le nuage de points. • Le critère retenu pour mesurer la distance d’un point à la droite est la distance verticale entre le point xiyi et la droite. • La distance de la droite à l’ensemble des points est par définition la somme des carrés des distances. La droite de régression est celle qui minimise cette distance.

  12. Régression linéaire N = Nombre de couple Tx = Xi Ty = Yi Txy = XiYi Ux = Xi N i=1 N i=1 N i=1 N 2 i=1 Tx*Ty Txy - N b = 2 Tx Ux - N Ty Tx a = b * N N • Estimation des paramètres de la droite • Données nécessaires Y = a + bX

  13. Régression linéaire ^ sy ^ sx ^ 2 sb • Test de la pente de la droite de régression • Hypothèses • Hypothèse nulle : • b = 0 : il n’y a pas d'association entre X et Y • Hypothèse alternative : • b différent de 0 (test bilatéral) • Conditions : • La régression doit être linéaire • Pour X fixé, les valeurs de Y doivent être indépendantes de distribution normale et de variance constante • Écart type de la pente : 2 2 b = N - 2

  14. Régression linéaire ^ sb • Test de la pente de la droite de régression • Statistique : t de Student b DDL = N-2 t = - Décision : Si t est supérieur à t alpha on rejette H0. Il existe une relation entre les variation de X et de Y : Pour chaque valeur de X, Y augment en moyenne de b. Sinon, la pente peut être considérée comme nulle : les valeurs de Y sont indépendantes de X - Prédiction : S’il pente est différente de 0, on peut prédire la valeur de Y à partir de celle de X. On ne doit pas extrapoler en dehors des valeurs de X que l’on a observé. On peut calculer un intervalle de confiance pour les valeurs prédites

More Related