Inf l14 initiation aux statistiques 8 liaison entre variables qualitatives
This presentation is the property of its rightful owner.
Sponsored Links
1 / 32

INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives PowerPoint PPT Presentation


  • 140 Views
  • Uploaded on
  • Presentation posted in: General

INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives. Introduction. Rappel Variables qualitatives Exemple sexe (homme, femme) secteur d’études (lettres, sciences) Etudier la relation entre les deux Se base sur les effectifs. Données brutes. variables. individus.

Download Presentation

INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Inf l14 initiation aux statistiques 8 liaison entre variables qualitatives

INF L14Initiation aux statistiques8 – Liaison entre variables qualitatives


Introduction

Introduction

Rappel

Variables qualitatives

Exemple

sexe (homme, femme)

secteur d’études (lettres, sciences)

Etudier la relation entre les deux

Se base sur les effectifs


Donn es brutes

Données brutes

variables

individus


Effectifs observ s

Effectifs observés

  • Tri croisé

    • on répartit les effectifs en fonction des combinaisons de modalités

modalités

variable 2

modalités

variable 1

Source : Université de Provence, 2002-2003


Tri crois

Tri croisé

  • Fréquences marginales

    • totaux des lignes et des colonnes (marges)


Expression en pourcentages

Expression en pourcentages


Effectifs attendus

Effectifs attendus


Effectifs attendus1

Effectifs attendus


Effectifs attendus2

Effectifs attendus


Comparaison

Comparaison

Attendus

Observés


Ecarts

Ecarts

Attendus

Observés


Ecarts carr s

Ecarts carrés

Ecarts


Ecarts carr s relatifs

Ecarts carrés relatifs

Attendus

Ecarts

carrés


Inf l14 initiation aux statistiques 8 liaison entre variables qualitatives

2

  • Chi-deux

Somme

2 =

2157,4


Formule

Formule


Test d hypoth se

Test d’hypothèse

  • Statistique inférentielle

  • Le 2permet de tester l’hypothèse d’indépendance des variables :

    • les données observées résultent simplement de fluctuations dues au hasard

  • On peut mesurer la probabilité p de se tromper en rejetant l’indépendance


Tableur

Tableur

Pratiquement aucune chance de se tromper en rejetant l’indépendance : il y a bien un effet significatif


Tableur1

Tableur

30% de chances de se tromper en rejetant l’indépendance : pas d’effet significatif


Seuils de rejet

Seuils de rejet

  • Seuils de rejet

    • p < 0,05 en sciences humaines

    • p < 0,01 si l’on veut être très strict


Attention

Attention

  • Ne jamais employer le test de chi-deux si certains des effectifs attendus sont  5.


Probl me

Problème

  • 2 dépend de l’effectif

    • difficile d’apprécier la valeur du 2 dans l’absolu

    • on peut normaliser le coefficient pour le rendre indépendant de la taille


Inf l14 initiation aux statistiques 8 liaison entre variables qualitatives

  • Phi

    • varie entre 0 et +1

    • analogue au coefficient de corrélation des variables quantitatives

2 =

 =

2157,4

0,30


Application linguistique

Application linguistique

  • Force d’association entre mots

  • Deux mots sont associés s’ils apparaissent souvent ensemble dans des pages Web

  • Ex. :

    • Chirac + Jospin

    • Chirac + Corona

    • etc.


Exemple

Exemple

  • Google (réglé sur tout le Web)

  • On va chercher

    • A = Nombre d’occurrences Chirac

    • B = Nombre d’occurrences Jospin

    • C = nombre de cooccurrences Chirac Jospin

    • N = Nombre total de pages


Inf l14 initiation aux statistiques 8 liaison entre variables qualitatives

A

B

C

N


Formule directe

Formule directe

  • Une formule un peu compliquée, mais qui évite les calculs intermédiaires :


Classement

Classement

  • Par  décroissant :


Termes retenir

Termes à retenir

  • Tris croisé

  • Fréquences marginales

  • Chi-deux (2)

  • Hypothèse d’indépendance

  • Seuil de rejet

  • Phi ( )


  • Login