La r gression multiple
Download
1 / 49

- PowerPoint PPT Presentation


  • 66 Views
  • Uploaded on

LA RÉGRESSION MULTIPLE. Michel Tenenhaus. La régression multiple. Une variable à expliquer numérique Y k variables explicatives numériques ou binaires X 1 ,…, X k. Cas Ventes : les données. X 8. X 1. X 2. X 3. X 4. X 5. X 6. X 7. Y. !. !. Cas Ventes. Variable à expliquer :

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '' - swaantje-grevink


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
La r gression multiple

LA RÉGRESSION MULTIPLE

Michel Tenenhaus


La r gression multiple1
La régression multiple

  • Une variable à expliquer numérique Y

  • k variables explicatives numériques ou binaires X1,…, Xk


Cas ventes les donn es
Cas Ventes : les données

X8

X1

X2

X3

X4

X5

X6

X7

Y

!

!


Cas ventes
Cas Ventes

  • Variable à expliquer :

    Y = Ventes semestrielles (KF)

  • Variables explicatives :

    X1 = Marché total (MF)

    X2 = Remises aux grossistes (KF)

    X3 = Prix (F)

    X4 = Budget de Recherche (KF)

    X5 = Investissement (KF)

    X6 = Publicité (KF)

    X7 = Frais de ventes (KF)

    X8 = Total budget publicité de la branche (KF)


Probl me de pr vision des ventes
Problème de prévision des ventes

Prévoir les ventes semestrielles (en KF) y

du 39e semestre sous le scénario suivant :

Marché total (MF) = 500

Remises aux grossistes (KF) = 100

Prix (F) = 83

Budget de Recherche (KF) = 30

Investissement (KF) = 50

Publicité (KF) = 90

Frais de ventes (KF) = 300

Total budget publicité de la branche (KF) = 200


Cas ventes graphiques des liaisons deux deux
Cas Ventes : Graphiques des liaisons deux à deux


Cas ventes les corr lations
Cas Ventes : les corrélations

Corrélation R significative au risque 5% si |R| > 2/ (= 0.32 pour n = 38)


Cas ventes choix de mod les
Cas Ventes : choix de modèles

  • Quel est le meilleur modèle à une variable?

  • Quel est le meilleur modèle à deux variables?


1 les donn es
1. Les données

  • Y

    = Variable à expliquer

    numérique

    (ou dépendante)

  • X1, …, Xk

    = Variables explicatives

    numériques ou binaires

    (ou indépendantes)

Le tableau des données


2 le mod le
2. Le modèle

  • Chaque valeur observée yi est considérée comme une réalisation d’une variable aléatoire Yi définie par :

    où les xji sont fixes et i est un terme aléatoire de loi N(0,).

  • Les i sont indépendants les uns des autres.


La r gression multiple

i

Zone de

probabilité

à 95%

i + 2

i - 2

Ventes

yi = 0 +1*MTi + 2*PUBi + i

Un outlier

yi

i

x1i

x2i

MT

PUB


3 les probl mes
3. Les problèmes

A) Estimation des coefficients de régression

0, 1,…, k.

B) Estimation de l’écart-type  du terme

résiduel i.

C) Analyse des résidus

D) Mesurer la force de la liaison entre Y et les

variables X1,…,Xk :R, R2

E) La liaison globale entre Y et X1,…, Xk

est-elle significative ?


Les probl mes suite
Les problèmes (suite)

F) L’apport marginal de chaque variable Xj (en plus

des autres) à l’explication de Y est-il significatif ?

G) Sélection automatiques des « bonnes »

variables Xj.

H) Comparaison de modèles

I) Intervalle de prévision à 95% de y.

J) Intervalle de confiance à 95% de E(Y).


4 estimation des coefficients de r gression j
4. Estimation des coefficients de régression j

Notations :

- yi = valeur observée

-

= valeur calculée

= prévision de yi

- ei = yi - = erreur

Méthode des moindres carrés :

On recherche minimisant .





Graphique spss r gression simple de ventes sur pr vision
Graphique SPSS Régression simple de Ventes sur Prévision

7000

6000

19

5000

8

4000

VENTES

3000

3000

4000

5000

6000

7000

Prévision

La droite des moindres carrés est exactement la première bissectrice.


La r gression multiple

5. Estimation de l’écart-type  du terme résiduel

Estimation de 2 :

Estimation de  :



La r gression multiple

Résidu

standardisé

6. Analyse des résidus

Modèle : Y = 0 + 1X1 + … + jXj + … + kXk + 

avec  N(0, )

Un résidu ei est considéré

comme trop important si

Loi de 

95%

ou

1.96

-1.96

0


La r gression multiple

A) Formule de décomposition

B) R2 =

Somme des

carrés totale

Somme des

carrés expliquée

Somme des

carrés résiduelle

C) R =

7. Coefficient de détermination R2 et corrélation multiple R



8 la liaison globale entre y et x 1 x k est elle significative
8. La liaison globale entre Y et X1,…,Xkest-elle significative ?

Modèle : Y = 0 + 1X1 + … + kXk + 

Test : H0 : 1 = … = k = 0 (Y = 0 +  ne dépend pas des X)

H1 : Au moins un j  0 (Y dépend d’au moins un X)

Statistique utilisée :

Décision de rejeter H0 au risque  de se tromper :

Rejet de H0 si F  F1- (k , n-k-1)

Fractile d’une loi de Fisher-Snedecor


Niveau de signification
Niveau de signification

Plus petite valeur de  conduisant au rejet de H0

Loi de F sous H0

Niveau de signification

F observé

F1-(k,n-k-1)

On rejette H0 au risque  de se tromper si NS  


La r gression multiple

Variance

Inflation

Factor

9. L’apport marginal de Xj est-il significatif ?

Modèle : Y = 0 + 1X1 + … + jXj + … + kXk + 

Test : H0 : j = 0 (On peut supprimer Xj)

H1 : j  0 (Il faut conserver Xj)

Statistique utilisée :

Décision de rejeter H0 au risque  de se tromper :

Rejet de H0 si | tj |  t1-/2 (n-k-1)

Fractile d’une loi de Student



La r gression multiple

Niveau de signification

Plus petite valeur de  conduisant au rejet de H0

Loi de tj sous H0

NS/2

/2

NS/2

|tj|

-|tj|

0

t1-/2(n-k-1)

On rejette « H0 : j = 0 » au risque  de se tromper si NS  


Mesure de la multi colin arit tol rance et vif
Mesure de la multi-colinéarité :Tolérance et VIF

  • Tolérance (Xj) = 1 - R2(Xj ; Autres X)

    Il est préférable d’observer une tolérance supérieure à 0.33.

  • VIF = Variance Inflation Factor

    = 1 / Tolérance

  • Il est préférable d’observer un VIF

    inférieur à 3.



La multi colin arit
La multi-colinéarité

S(X1,…,Xk) est la somme des carrés expliquée par les

variables X1,…,Xk.

1) F partiel

2) On obtient un |tj| petit si :

- |cor(Y,Xj)| est petite (ex : RG)

ou bien

- R2(Xj ; Autres variables X) est grande (ex : FV).


10 s lection des variables
10. Sélection des variables

Régression pas à pas descendante (Backward)

On part du modèle complet.

A chaque étape on enlève la variable Xj ayant

l’apport marginal le plus faible :

|tj| minimum ou NS(tj) maximum

à condition que cet apport soit non significatif

(NS(tj)  0.1 = valeur par défaut de SPSS).


Cas ventes1
Cas Ventes

Régression pas à pas descendante

  • Compléter le tableau suivant :

  • Prévoir les ventes du 39e semestre et donner un intervalle de prévision à 95% de ces ventes à l’aide du modèle obtenu.

Nombre de

Coefficient de

Modèle

Variable la moins

variables

détermination

Ecart-type

significative

satisfaisant

2

explicatives

R

résiduel

avec NS

³

0.1

8

M


La r gression multiple

Etape 1

Variable enlevée : Total publicité de la branche


Etape 2
Etape 2

Variable enlevée : Budget de recherche


Etape 3
Etape 3

Variable enlevée : Frais de ventes


Etape 4
Etape 4

Variable enlevée : Remises aux grossistes


Etape 5
Etape 5

Toutes les variable sont significatives au seuil .10


Analyse des r sidus du mod le simplifi
Analyse des résidusdu modèle simplifié


11 comparaison de mod les
11. Comparaison de modèles

Modèle complet

Modèle simplifié


Test sur le mod le complet
Test sur le modèle complet

Modèle complet

Test :

H0 : 2 = 4 = 7 = 8 = 0

H1 : Au moins un de ces j  0

Statistique

utilisée :

où : k1 = Nb de variables du modèle complet

k2 = Nb de variables du modèle simplifié

Décision :

On rejette H0 au risque  de se tromper si :

F  F1- [k1-k2, n-k1-1]


La r gression multiple

12. Intervalle de prévision de yi

Modèle :

Yi = 0 + 1x1i + … + kxki + i

yi = future valeur de Yi

Intervalle de prévision de yi au niveau 0.95

Formule simplifiée :

Outlier

Une observation i est mal reconstituée par le modèle

si yi n’appartient pas à son propre intervalle de prévision.


La r gression multiple

RésultatsSPSS pour

le modèle

simplifié



Graphique spss intervalles de pr vision de y 95
Graphique SPSS Intervalles de prévision de y à 95%

7000

6000

5000

8

4000

VENTES

3000

3000

4000

5000

6000

7000

Prédiction


La r gression multiple

7000

6000

5000

8

4000

VENTES

3000

3000

4000

5000

6000

7000

Prédiction


La r gression multiple

13. Intervalle de confiance de E(Y)

Modèle :

Yi = 0 + 1x1i + … + kxki + i

Intervalle de confiance de E(Yi) au niveau 0.95

Formule simplifiée :


La r gression multiple

RésultatsSPSS pour

le modèle

simplifié


Graphique spss intervalle de confiance de e y 95
Graphique SPSS Intervalle de confiance de E(Y) à 95%