slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
L a corrélation et l ’a nalyse de régression Chris Lawrence Middle Georgia State College PowerPoint Presentation
Download Presentation
L a corrélation et l ’a nalyse de régression Chris Lawrence Middle Georgia State College

Loading in 2 Seconds...

play fullscreen
1 / 18

L a corrélation et l ’a nalyse de régression Chris Lawrence Middle Georgia State College - PowerPoint PPT Presentation


  • 71 Views
  • Uploaded on

L a corrélation et l ’a nalyse de régression Chris Lawrence Middle Georgia State College.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'L a corrélation et l ’a nalyse de régression Chris Lawrence Middle Georgia State College' - lihua


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

La corrélation et l’analyse de régression

Chris LawrenceMiddle Georgia State College

This material is distributed under an Attribution-NonCommercial-ShareAlike 3.0 Unported Creative Commons License, the full details of which may be found online here: http://creativecommons.org/licenses/by-nc-sa/3.0/. You may re-use, edit, or redistribute the content provided that the original source is cited, it is for non-commercial purposes, and provided it is distributed under a similar license.

slide2

La régression simple et la corrélation

Aujourd'hui, nous allons discuter une technique statistique efficace pour examiner s'il y a une relation entre deux variables. Spécifiquement, nous allons parler des idées de la régression simple et de la corrélation.

Une raison pour laquelle la régression est efficace, c'est que nous pouvons l'utiliser pour démontrer la causalité; autrement dit, nous pouvons utiliser la régression pour montrer qu’une variable indépendante provoque un changement dans une variable dépendante.

slide3

Des nuages de points

La chose la plus simple que nouspouvons faireavec deux variables que nous croyons liées, c'est tracer un nuage de points. Un nuage de points est un simple graphique quitrace les valeurs denotre variable dépendanteY et notre variable indépendanteX.

Normalement, nous représentons graphiquement notre variable dépendante sur l'axe vertical et la variable indépendante sur l'axe horizontal.

slide4

En prenant le parti de l'industrie d'incontinence

Par exemple, faisonsun nuage de pointsdes données suivantes:

slide5

Le nuage de points de ces données

6

5

Trips.to.Bathroom

4

3

2

1

1

2

3 4

Sodas.Consumed

5

6

slide6

Une évaluation à l'œil de la droite de régression

Parfois, notre nuage de points peut donner une assez bonne idée de la relation entre nos variables. Dans notre nuage de points, il semble qu’une ligne qui monte ver la droite soit bien ajusté aux données.

Essentiellement, il nous reste à déterminer la droite de meilleur ajustement, c’est-à-dire,la ligne qui représenteune ‘moyenne’ de nos points de données.

Notez que parfois nos donnéesne seront pas liées de façon linéaire.Parfois, il pourrait y avoir une relation ‘curvilinéaire’ou une autre relation non linéaire. S’il semble que les données soient liées mais la régression ne soit pas ajustée, il est très possible que tel soit le cas.

slide7

Le nuage de points avec une droite de meilleur ajustement

6

5

Trips.to.Bathroom

4

3

2

1

1

2

3 4

Sodas.Consumed

5

6

slide8

La régression linéaire simple

Tandis que notre nuage de points nous donne une bonne idée de la relation entre les variablesetmême une idée de la façon dont la droite de régression devrait ressembler, nous devons faire le calcul pour déterminer exactement sa direction.

Pour déterminer cela, tout d'abord, on doit avoir une idée de l'équation générale d’une ligne. De l'algèbre, une ligne droite peut être décrite comme:

Y = a + bX, où aestl’intersectionetb estla pente

slide9

En comprenant a et b

En bref, le problème de la régression est de savoirquelles valeurs de a etb à utiliser. Pour faire cela, nous utilisons les deux formules suivantes:

(∑X)(∑Y)

n

∑ XY –

eta = Y¯ − bX¯

b=

∑X –

2

(∑X)

n

2

Encore une fois, cela semble laid maisc'est la même mathématique simple que vous déjà connaissez et aimez: il suffit d’utiliser PEMA et vous allez obtenir la bonne réponse.

slide10

La solution de notre exemple

Alors, revenons aux données de notre exemple et trouvons la pente et l‘intersectionpour la droite de régression.

slide11

La solution de notre exemple

D'abord, nous devons calculerb:

(∑X)(∑Y)

n

104 –

(24)(26)

7

∑ XY –

b=

=

= 0.8387

∑X –

2

(∑X)

n

2

100 –

(24)

7

2

Et maintenant, c'est simple à calculera:

a = Y¯ − bX¯ = (26/7) − 0.8387(24/7) =

3.7142 − (0.8387)(3.4285) = 3.7142 − 2.8754 = 0.8388.

slide12

Le coefficient de corrélation de Pearson (r)

Maintenant, après avoir calculéa etb, nous connaissons l'intersection et la pente de la droite de régression etil semble que les variables X et Y soient liées d'une certaine manière. Mais cette relation, est-elle solide?

C'est le moment quand le r de Pearson entre en jeu. Le r de Pearson est une mesure de la corrélation; parfois, nous l'appelonssimplement le coefficient de corrélation. Le r nous démontre la force de la relation entre X et Y.

slide13

Le calcul du coefficient de corrélation de Pearson

La formule du coefficient de corrélation de Pearson (r)est quelque peu similaire à la formule de la pente (b):

Nous avons déjà calculé la pente et ainsi nous savons le numérateur.Le seul élément qui est un peu compliqué, c'est le dénominateur, où nous devons calculerchaque racine carrée séparément et puisles multiplier ensemble.

Pour notre exemple, r = 0.8008.

slide14

Les corrélations et les déterminations

Un coefficient de corrélation d'environ 0.8 indique que les deux variables sont fortement associées. Si l'onélève lerau carré, l'on obtient le coefficient of détermination r2, qui nous indique la proportion de la variation dansY expliquée parX. Dans ce cas, r2 = .6412 qui signifie que nous estimons que 64% de la variation est expliquée parX,tandis que le reste est dû à une erreur.

La seule autre chose qu'on veut, c'est de déterminersi la corrélation est statistiquement significative. Ou, en termes d'une hypothèse nulle, nous voulons déterminer si H0 : r = 0 est vraie.

slide15

Le test de signification pour t

Pour déterminer si r est significativement différent de zéro, nous utilisons le testt pour le r de Pearson:

n−2

tob =r

r2

1−

Puisque c'est comme les autres tests d'hypothèse, nous voulons comparertob à tcrit. Pour ce test, nous utilisonsnotre niveau alpha (conventionnellement, .05 or.01) et df = n − 2. Dans ce cas, nous soustrayons 2 de la taille de l'échantillon parce que nous avons deux variables.

Donc, avecα = .05, la corrélation, est-elle significative?

slide16

Une exemple du test de signification

n − 2

7 − 2

5

= .8008

tob =r

r2 = .8008

1 −

1 − .6412

.3588

=.8008 13.9353 = (.8008)(3.733) = 2.9893

Maintenant, comme dans les autres tests de signification, noustrouvons notre valeur critique dut dans le tableau (α = .05, df = 5: 2.571) etla comparons à la valeur obtenue. Puisque 2.571 ≤ 2.9893, nous rejetons l'hypothèse nulle et concluons que la corrélation est statistiquement significative.

slide17

La régression multiple

La plupart du temps, les régressions sont plus complexes que cet exemple. Plutôt que tester la signification du r, quand nous avons plusieurs variables explicatives nous testons la signification du coefficient (b) associé à chaque variable indépendante. Cependant, le principe est exactement le même.

La plupart des logiciels informatiques (y compris le logiciel R) considère régression bivariée (simple) comme un cas particulier de la régression multiple, donc les tests de signification qu'ils produisent seront basés sur b plutôt que r.

slide18

La corrélation et la régression dans R

Vous pouvez faire des nuages de pointsdans R avecla commande de menu Graphs → Scatterplot ...(Graphiques → Nuage de points). Cette boîte de dialogue vous permet également desuperposer la droite de régression sur le graphique. (Si vous avez plus de deux variables, la commande de menuScatterplot matrix ...(Matrice de corrélation ...) peut être utile.)

Les corrélations sont disponiblesavec la commande de menuStatistics → Summaries →Correlation matrix ...(Statistiques → Résumés → Matrice de corrélation).

L’analyse de régression peut être effectuée parla commande de menuStatistics → Fit models → Linear regression ...(Statistiques → Modèles d'ajustement → Régressionlinéaire).