Inf l14 initiation aux statistiques 8 liaison entre variables qualitatives
Download
1 / 32

- PowerPoint PPT Presentation


  • 173 Views
  • Uploaded on

INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives. Introduction. Rappel Variables qualitatives Exemple sexe (homme, femme) secteur d’études (lettres, sciences) Etudier la relation entre les deux Se base sur les effectifs. Données brutes. variables. individus.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '' - cissy


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Inf l14 initiation aux statistiques 8 liaison entre variables qualitatives
INF L14Initiation aux statistiques8 – Liaison entre variables qualitatives


Introduction
Introduction

Rappel

Variables qualitatives

Exemple

sexe (homme, femme)

secteur d’études (lettres, sciences)

Etudier la relation entre les deux

Se base sur les effectifs


Donn es brutes
Données brutes

variables

individus


Effectifs observ s
Effectifs observés

  • Tri croisé

    • on répartit les effectifs en fonction des combinaisons de modalités

modalités

variable 2

modalités

variable 1

Source : Université de Provence, 2002-2003


Tri crois
Tri croisé

  • Fréquences marginales

    • totaux des lignes et des colonnes (marges)






Comparaison
Comparaison

Attendus

Observés


Ecarts
Ecarts

Attendus

Observés



Ecarts carr s relatifs
Ecarts carrés relatifs

Attendus

Ecarts

carrés


2

  • Chi-deux

Somme

2 =

2157,4



Test d hypoth se
Test d’hypothèse

  • Statistique inférentielle

  • Le 2permet de tester l’hypothèse d’indépendance des variables :

    • les données observées résultent simplement de fluctuations dues au hasard

  • On peut mesurer la probabilité p de se tromper en rejetant l’indépendance


Tableur
Tableur

Pratiquement aucune chance de se tromper en rejetant l’indépendance : il y a bien un effet significatif


Tableur1
Tableur

30% de chances de se tromper en rejetant l’indépendance : pas d’effet significatif


Seuils de rejet
Seuils de rejet

  • Seuils de rejet

    • p < 0,05 en sciences humaines

    • p < 0,01 si l’on veut être très strict


Attention
Attention

  • Ne jamais employer le test de chi-deux si certains des effectifs attendus sont  5.


Probl me
Problème

  • 2 dépend de l’effectif

    • difficile d’apprécier la valeur du 2 dans l’absolu

    • on peut normaliser le coefficient pour le rendre indépendant de la taille


  • Phi

    • varie entre 0 et +1

    • analogue au coefficient de corrélation des variables quantitatives

2 =

 =

2157,4

0,30


Application linguistique
Application linguistique

  • Force d’association entre mots

  • Deux mots sont associés s’ils apparaissent souvent ensemble dans des pages Web

  • Ex. :

    • Chirac + Jospin

    • Chirac + Corona

    • etc.


Exemple
Exemple

  • Google (réglé sur tout le Web)

  • On va chercher

    • A = Nombre d’occurrences Chirac

    • B = Nombre d’occurrences Jospin

    • C = nombre de cooccurrences Chirac Jospin

    • N = Nombre total de pages


A

B

C

N


Formule directe
Formule directe

  • Une formule un peu compliquée, mais qui évite les calculs intermédiaires :


Classement
Classement

  • Par  décroissant :


Termes retenir
Termes à retenir

  • Tris croisé

  • Fréquences marginales

  • Chi-deux (2)

  • Hypothèse d’indépendance

  • Seuil de rejet

  • Phi ( )