Inf l14 initiation aux statistiques 8 liaison entre variables qualitatives
This presentation is the property of its rightful owner.
Sponsored Links
1 / 32

INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives PowerPoint PPT Presentation


  • 143 Views
  • Uploaded on
  • Presentation posted in: General

INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives. Introduction. Rappel Variables qualitatives Exemple sexe (homme, femme) secteur d’études (lettres, sciences) Etudier la relation entre les deux Se base sur les effectifs. Données brutes. variables. individus.

Download Presentation

INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


INF L14Initiation aux statistiques8 – Liaison entre variables qualitatives


Introduction

Rappel

Variables qualitatives

Exemple

sexe (homme, femme)

secteur d’études (lettres, sciences)

Etudier la relation entre les deux

Se base sur les effectifs


Données brutes

variables

individus


Effectifs observés

  • Tri croisé

    • on répartit les effectifs en fonction des combinaisons de modalités

modalités

variable 2

modalités

variable 1

Source : Université de Provence, 2002-2003


Tri croisé

  • Fréquences marginales

    • totaux des lignes et des colonnes (marges)


Expression en pourcentages


Effectifs attendus


Effectifs attendus


Effectifs attendus


Comparaison

Attendus

Observés


Ecarts

Attendus

Observés


Ecarts carrés

Ecarts


Ecarts carrés relatifs

Attendus

Ecarts

carrés


2

  • Chi-deux

Somme

2 =

2157,4


Formule


Test d’hypothèse

  • Statistique inférentielle

  • Le 2permet de tester l’hypothèse d’indépendance des variables :

    • les données observées résultent simplement de fluctuations dues au hasard

  • On peut mesurer la probabilité p de se tromper en rejetant l’indépendance


Tableur

Pratiquement aucune chance de se tromper en rejetant l’indépendance : il y a bien un effet significatif


Tableur

30% de chances de se tromper en rejetant l’indépendance : pas d’effet significatif


Seuils de rejet

  • Seuils de rejet

    • p < 0,05 en sciences humaines

    • p < 0,01 si l’on veut être très strict


Attention

  • Ne jamais employer le test de chi-deux si certains des effectifs attendus sont  5.


Problème

  • 2 dépend de l’effectif

    • difficile d’apprécier la valeur du 2 dans l’absolu

    • on peut normaliser le coefficient pour le rendre indépendant de la taille


  • Phi

    • varie entre 0 et +1

    • analogue au coefficient de corrélation des variables quantitatives

2 =

 =

2157,4

0,30


Application linguistique

  • Force d’association entre mots

  • Deux mots sont associés s’ils apparaissent souvent ensemble dans des pages Web

  • Ex. :

    • Chirac + Jospin

    • Chirac + Corona

    • etc.


Exemple

  • Google (réglé sur tout le Web)

  • On va chercher

    • A = Nombre d’occurrences Chirac

    • B = Nombre d’occurrences Jospin

    • C = nombre de cooccurrences Chirac Jospin

    • N = Nombre total de pages


A

B

C

N


Formule directe

  • Une formule un peu compliquée, mais qui évite les calculs intermédiaires :


Classement

  • Par  décroissant :


Termes à retenir

  • Tris croisé

  • Fréquences marginales

  • Chi-deux (2)

  • Hypothèse d’indépendance

  • Seuil de rejet

  • Phi ( )


  • Login