la r gression logistique fondements et conditions d application n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
La régression logistique: fondements et conditions d’application PowerPoint Presentation
Download Presentation
La régression logistique: fondements et conditions d’application

Loading in 2 Seconds...

play fullscreen
1 / 14

La régression logistique: fondements et conditions d’application - PowerPoint PPT Presentation


  • 87 Views
  • Uploaded on

Université de Ouagadougou. Séminaire national sur l’analyse des données du recensement au Burkina Faso Ouagadougou, 14-16 novembre 2011. La régression logistique: fondements et conditions d’application. Jean-François KOBIANÉ. Institut Supérieur des Sciences de la Population jfkobiane@issp.bf.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'La régression logistique: fondements et conditions d’application' - kiora


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
la r gression logistique fondements et conditions d application

Université de Ouagadougou

Séminaire national sur l’analyse des données du recensement au Burkina Faso

Ouagadougou, 14-16 novembre 2011

La régression logistique: fondements et conditions d’application

Jean-François KOBIANÉ

Institut Supérieur des Sciences de la Populationjfkobiane@issp.bf

pourquoi la r gression logistique
Pourquoi la régression logistique?
  • La régression linéaire (simple ou multiple) se prête bien pour l’analyse d’une variable dépendante continue (intervalle ou ratio).
  • En sciences sociales, il y a peu de variables de ce type et ce que l’on tente d’expliquer se présente souvent sous une forme dichotomique
        • Mariée ou non ?
        • En chômage ou actif ?
        • Vivant ou décédé ?
        • Vacciné ou non ?
        • À l’école ou non ?

 En somme: être ou ne pas être ?

pourquoi la r gression logistique2
Pourquoi la régression logistique?
  • Avec la régression linéaire (RLi), les valeurs prédites seront plus grandes que 1 et plus petites que 0, au fur et à mesure qu’on s’éloigne sur l’axe des X.
  • Une des hypothèses de la RLi est que la variance de Y est constante à travers les valeurs de X (Homoscedasticité). Ceci n’est vérifié dans la RLo, parce que la variance est égale à PQ.
  • L’hypothèse de la RLi selon laquelle les erreurs de prédiction (Y-Y’) sont normalement distribuées n’est pas non plus tenable en RLo, puisque Y prend les valeurs 0 et 1.
le mod le de r gression logistique
Le modèle de régression logistique
  • Le modèle de régression logistique nous permet donc de résoudre le problème de non-linéarité certaine dans la relation entre notre variable dépendante et n’importe quelle variable indépendante.
  • Notre variable dépendante est transformée sous forme de probabilité. Il s’agit donc de mesurer l’effet de certaines variables indépendantes sur une variable dépendante qui peut essentiellement prendre les valeurs comprises entre 0 et 1.
le mod le de r gression logistique1
Le modèle de régression logistique
  • Supposons que nous connaissons uniquement la taille d’un individu et que nous souhaitons prédire son sexe. Nous pouvons raisonner en termes de probabilité comme nous pouvons raisonner en termes de odds. Supposons que la probabilité d’être un homme pour une taille donnée est de 0,9.
le mod le de r gression logistique2
Le modèle de régression logistique
  • Le odds d’être un homme dans notre exemple sera de 0,90/0,10=9. Le odds d’être une femme sera de 0,10/0,90=1/9=0,11. Il y a là une asymétrie difficilement concevable, parce que le odds d’être un homme devrait être l’opposé du odds d’être une femme.
  • Ce problème d’asymétrie peut être résolu en recourant au logarithme népérien (ou log naturel: ln): ln(9/1)=2,219 alors que ln(1/9)=-2,217. Le log odds d’être homme est exactement l’opposé du log odds d’être femme.
le mod le de r gression logistique4
Le modèle de régression logistique
  • En régression logistique, la variable dépendante est un logit c’est-à-dire le log naturel du odds :
  • logit(P) = a + bX Relation linéaire entre le log odds et les V.I.
le mod le de r gression logistique5
Le modèle de régression logistique
  • Le concept de logit est difficile à se représenter de façon concrète! On préférera alors parler en termes de probabilités
formalisation math matique
Formalisation mathématique

(ß0 + ß1X1 + ß2X2 + ...ßzXz)

e

P(Y) = ______________________

  (ß0 + ß1X1 + ß2X2 +..ßzXz)

1 + e

P(Y):probabilité de la variable dépendante (entre 0 et 1);

ß0: la constante du modèle ("intercept");

ßz : coefficient pour la variable indépendante Xz.

transformation de l quation
Transformation de l’équation

1

P(Y)= __________________________

  - (ß0 + ß1X1 + ß2X2 +..ßzXz)

1 + e

ad quation du mod le
Adéquation du modèle

Le test d’adéquation du modèle se fait à partir de la probabilité de Chi deux. Si cette probabilité est inférieure au seuil choisi, le modèle est adéquat. Ceci signifie que les variables indépendantes considérées dans l’ensemble expliquent la variation de la variable dépendante. Elles peuvent donc prédire la valeur de Y.

On a deux modèles: le modèle saturé et le modèle pas à pas.

Le modèle saturé permet de calculer la contribution de chaque variable indépendante au modèle.

Le modèle pas à pas permet d’identifier les mécanismes par lesquels chacune des variables indépendantes influence la variable étudiée.

r carr
R- Carré

Il n’ y a pas à proprement parler d’équivalent du R2 en Rli. On calcule néanmoins un pseudo R2.

Pseudo R2=chi-deux/(chi-deux+n)

n étant la taille de l’échantillon