Concepts de statistiques une sensibilisation
This presentation is the property of its rightful owner.
Sponsored Links
1 / 49

CONCEPTS DE STATISTIQUES Une sensibilisation PowerPoint PPT Presentation


  • 37 Views
  • Uploaded on
  • Presentation posted in: General

CONCEPTS DE STATISTIQUES Une sensibilisation. [email protected] www.cirinandgile.com. LES STATS DANS LA VIE QUOTIDIENNE (1). Pas seulement dans les sciences et technologies Quand on nous demande - Combien de fois par semaines nous sortons - Combien nous dépensons pour les courses etc.

Download Presentation

CONCEPTS DE STATISTIQUES Une sensibilisation

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Concepts de statistiques une sensibilisation

CONCEPTS DE STATISTIQUESUne sensibilisation

[email protected]

www.cirinandgile.com

D Gile concepts de stats


Les stats dans la vie quotidienne 1

LES STATS DANS LA VIE QUOTIDIENNE (1)

Pas seulement dans les sciences et technologies

Quand on nous demande

- Combien de fois par semaines nous sortons

- Combien nous dépensons pour les courses etc.

Quand nous voyons quelqu’un dans la rue

et décidons de changer de trottoir à cause de son allure

Quand nous décidons que

pour aller quelque part en vacances en saison,

il faut réserver longtemps à l’avance…

D Gile concepts de stats


Les stats dans la vie quotidienne 2

LES STATS DANS LA VIE QUOTIDIENNE (2)

Dans tous ces cas, nous savons qu’il y a

Une certaine variabilité dans le phénomène

Que nous ne sortons pas exactement le même

nombre de fois le soir toutes les semaines,

Qu’une personne qui porte certains vêtements

n’est pas nécessairement agressive

Que le taux d’occupation des hôtels varie…

Mais nous raisonnons statistiquement :

Sur la base d’informations disponibles, nous calculons mentalement la probabilité d’un événement,

et agissons en conséquence

D Gile concepts de stats


1ere approche formelle des stats

1ERE APPROCHE FORMELLE DES STATS

Les statistiques sont un ensemble de concepts et de techniques

qui cherchent à faire quelque chose d’analogue

Mais de manière plus systématique, explicite, précise et fiable.

C’est leur nature systématique et la recherche

de la précision et de la fiabilité,

notamment dans l’évaluation des probabilités d’erreurs,

Qui en font un outil puissant pour la recherche

Et pour bien d’autres applications

(notamment industrielles)

D Gile concepts de stats


Mesurer

MESURER

Pour simplifier : mesurer,

c’est affecter des valeurs chiffrées à des variables

d’une manière qui fait sens

En statistique, on le fait surtout pour comparer

Dans certains cas, c’est facile

(note en classe, vitesse, argent, nombre d’accidents…)

Dans d’autres, plus difficile :

Attitudes, sentiments…

D Gile concepts de stats


Les variables

LES VARIABLES

En statistique, on traite de « variables »

Les variables sont des caractéristiques « mesurables » de phénomènes ou d’entités

Pour être utiles, les variables doivent être définies avec précision.

Sinon, il peut y avoir trop d’incertitudes

Ex: taux de chômage

Qu’est-ce que le chômage?

« Vous êtes au chômage si vous êtes disponible et recherchez un emploi et n’avez pas travaillé la semaine dernière » (Bureau of Labor Statistics)

Et si vous n’êtes pas entièrement disponible en raison d’une activité non rémunérée familiale ou bénévole ? Et si vous avez travaillé la semaine dernière ?

D Gile concepts de stats


Les echelles dans les mesures

LES ECHELLES DANS LES MESURES

Nominale (nominal scale) : catégories (poisson, bœuf, porc, poulet)

Ordinale: (ordinal scale) : Rang (premier, deuxième, troisième etc., mais pas de valeur dans l’absolu (par ex. popularité de membres d’un groupe)

Echelle d’intervalles (interval scale) : mesure de combien une valeur est « plus » qu’une autre (température)

Echelle de ratios (ratio scale): Quand en plus, la valeur zéro correspond à « absence » de la caractéristique mesurée par la variable

(ex: 0 euros, c’est l’absence d’argent – mais une température de 0 ne veut pas dire qu’il n’y a pas de chaleur)

D Gile concepts de stats


Examiner des statistiques intelligemment

EXAMINER DES STATISTIQUES INTELLIGEMMENT

- Source des données

Qualité de la source ? A priori honnête, fiable ?

- Non-sens ?

« 90% des femmes disent qu’elle sont satisfaites »

- Biais ?

- Données partielles, ne montrent ou ne mettent en valeur graphiquement qu’un aspect du phénomène, peut-être le plus favorable à ce que l’auteur des statistiques essaie de défendre ?

D Gile concepts de stats


Apparences trompeuses

Apparences trompeuses

*

D Gile concepts de stats


Tableaux et graphiques

TABLEAUX ET GRAPHIQUES

« Etes-vous d’accord ou non sur l’idée que la possession de petits quantités de hachich devrait être dépénalisée? »

928 d’accord

543 pas d’accord

66 ne s’expriment pas

Plus parlant si :

60% d’accord

35% pas d’accord

4% ne s’expriment pas

D Gile concepts de stats


Frequence et frequence relative

FREQUENCE ET FREQUENCE RELATIVE

Fréquence d’une valeur : nombre de fois où elle apparaît

928 d’accord

543 pas d’accord

66 pas d’opinion

Fréquence relative : proportion de fois où elle apparaît

60% d’accord

35% pas d’accord

4% ne s’expriment pas

D Gile concepts de stats


Donnees univariees et multivariees

DONNEES UNIVARIEES ET MULTIVARIEES

Respectivement sur une variable ou plusieurs variables

Deux variables : sexe et diplôme

6 pour mille des diplômes sont des doctorats féminins

22,9% des doctorats sont féminins

1,34% des diplômes féminins sont des doctorats

D Gile concepts de stats


Graphiques

GRAPHIQUES

Représentations visuelles schématiques

Souvent plus parlantes que tableau

60 % pour, 35 % contre, 5% Non réponse

D Gile concepts de stats


Statistiques descriptives et inferentielles

STATISTIQUES DESCRIPTIVES ET INFERENTIELLES

Quand masse d’informations

Souvent difficile de dégager tendances

(par ex. données météo sur la planète)

D’où l’importance de disposer d’outils

Permettant de les faire apparaître :

Statistiques descriptives

Souvent, besoin de généraliser

Mais seules données sur sous-ensemble de la population disponibles

C’est le rôle des statistiques inférentielles

D Gile concepts de stats


Statistiques concepts de base

STATISTIQUES CONCEPTS DE BASE

Population : L’ensemble des entités qui nous intéressent

(personnes, objets, textes, actions d’un certain type, sommes, entreprises…)

Unité :Chacune des entités dont se compose la population

Variable :Une caractéristique d’un phénomène qui peut prendre différentes « valeurs », numériques ou non

Distribution :La manière dont se répartissent les valeurs d’une variable

Echantillon : Sous-ensemble de la population, qui va être étudié pour en tirer des conclusions sur la population dans son ensemble

Théorie des probabilités : théorie mathématique à la base des statistiques inférentielles

D Gile concepts de stats


La distribution d une variable 1

LA DISTRIBUTION D’UNE VARIABLE (1)

C’est la manière dont se répartissent ses valeurs

Exemple 1 :

Quand on jette une pièce en l’air et qu’elle retombe.

Deux valeurs, Pile et Face

En principe, distribution égale : elle tombera en moyenne le même nombre de fois sur le côté Pile et sur le côté Face

Exemple 2 :

La taille des hommes en France en 2011

La plupart auront entre 170 et 180 cm, peu d’entre eux auront moins de 160 cm et plus de 190 cm, etc.

Ces distributions sont souvent représentées graphiquement par des courbes

D Gile concepts de stats


La distribution d une variable 2

LA DISTRIBUTION D’UNE VARIABLE (2)

Certaines distributions fréquentes dans la nature

ont des caractéristiques mathématiques intéressantes

qui facilitent les inférences

La plus connue est la distribution dite « Gaussienne » ou « Normale », qui est symétrique autour d’une moyenne et dont on peut calculer la valeur à chaque endroit de l’abscisse

D Gile concepts de stats


Statistiques descriptives

STATISTIQUES DESCRIPTIVES

Tendance centrale

Y a-t-il une tendance générale dans toute cette variabilité ?

Dispersion

Les valeurs individuelles sont-elles plutôt regroupées autour de la tendance centrale, ou sont-elles plutôt dispersées ?

[En statistiques, les distributions de variables sont caractérisées à travers trois critères, qui suffisent généralement :Forme de la distribution, tendance centrale et dispersion]

Corrélation

Semble-t-il y avoir un lien entre deux ou plusieurs variables ?

D Gile concepts de stats


Tendances centrales 1

TENDANCES CENTRALES (1)

Moyenne (mean)

Intéressante si nombre relativement élevé de valeurs

Pas s’il y en a deux ou trois

(à moins que l’on sache qu’il y a une faible dispersion dans la population)

Sensible à valeurs aberrantes si petit échantillon

n = 4 10, 10, 10, 20 → moyenne :12,5

n = 20 10, 10, 10, 10, 10, 10, 10, 10, 10, 10,

10, 10, 10, 10, 10, 10, 10, 10, 10, 20

→ moyenne : 10,5

D Gile concepts de stats


Tendances centrales 2

TENDANCES CENTRALES (2)

Médiane (median)

Divise la population en deux parties égales, l’une avec des valeurs supérieures à la médiane, l’autre avec des valeurs inférieures à la médiane

10, 11, 10, 12, 13, 13, 13

Médiane : 12

N’est pas sensible aux valeurs aberrantes

10,11, 10, 12, 13, 13, 20

Médiane : 12

D Gile concepts de stats


Tendances centrales 3

TENDANCES CENTRALES (3)

Mode (mode)

Valeur la plus fréquente

10, 11, 12, 10, 10, 10, 9, 14

→ Mode : 10 (4 fois)

10, 11, 12, 10, 10, 12, 12, 9, 14

→ Modes : 10 (3 fois) et 12 (3 fois)

(distribution bimodale)

D Gile concepts de stats


Tendances centrales 4

TENDANCES CENTRALES (4)

Quel est le meilleur indicateur de tendance centrale ?

Si la distribution est plus ou moins symétrique, la moyenne est souvent un bon indicateur (mais pas toujours)

Si l’influence des valeurs aberrantes est trop grande, la moyenne n’est pas très adaptée pour mesurer la tendance générale

et on peut lui préférer la médiane

Le mode n’est généralement pas très utile pour les variables quantitatives; il l’est davantage pour les variables qualitatives (échelle nominale)

Par exemple : quel est le plat le plus souvent commandé dans un restaurant ?

D Gile concepts de stats


La dispersion 1

LA DISPERSION (1)

La raison pour laquelle les mesures de tendance centrale sont nécessaires est la variabilité des valeurs mesurées.

S’il n’y en avait pas, on n’aurait pas besoin de mesurer la tendance centrale – elle serait immédiatement apparente.

Mais la variabilité peut poser des problèmes, surtout pour les valeurs extrêmes

(par ex. poids, taille pour meubles, ascenseurs, voitures…)

On a donc besoin de mesurer non seulement la tendance générale, mais aussi la dispersion.

D Gile concepts de stats


La dispersion 2

LA DISPERSION (2)

La fourchette des valeurs (range)

Peu intéressante, car ne prend en compte que les valeurs extrêmes

1, 10, 11, 12, 10, 11, 12, 13, 11, 12, 11, 11, 12, 11, 12, 12, 19

19 - 1 = 18 peu représentatif

En réalité, faible dispersion

Intervalle interquartile

Interquartile range

2 2 5 5 6 7 8 20

Q1 Q2 Q3 Q4

D Gile concepts de stats


La dispersion 3

LA DISPERSION (3)

L’écart type

(standard deviation)

Le carré des distances entre les valeurs individuelles et la moyenne de ces valeurs, divisé par le nombre de ces valeur (généralement moins 1). On en prend la racine carrée.

Un peu compliqué, mais il y a une raison mathématique :

L’écart-type d’une distribution Normale facilite le calcul des fréquences

D Gile concepts de stats


La correlation

LA CORRELATION

Une mesure de la force d’association entre deux variables

Plusieurs coefficients

(Spearman’s rho, Pearson’s r coefficient)

Prend des valeurs entre -1 et +1

-1 et +1 sont des corrélations « parfaites »

Qui permettent de prévoir la valeur de x d’après la valeur de y

0 : corrélation nulle, indique l’absence d’un lien entre x et y

Corrélation positive: si x augmente, y augmente

(courbe montante)

Corrélation négative: si x augmente, y baisse

(courbe descendante)

D Gile concepts de stats


La correlation 1

LA CORRELATION (1)

Corrélation (positive) forte entre deux variables

Il est clair que Y augmente quand X augmente, mais aussi que l’on peut prévoir la valeur de Y à partir de la valeur de X

D Gile concepts de stats


La correlation 2

Weak correlation

7

6

5

4

3

Weak correlation

2

between X and Y

1

0

-1

0

2

4

6

8

-2

-3

Value of variable X

LA CORRELATION (2)

Corrélation faible entre deux variables

On ne voit pas très bien le lien entre X et Y

D Gile concepts de stats


Force de la correlation

FORCE DE LA CORRELATION

Coefficient de détermination : carré du coefficient de corrélation. Il mesure la proportion de la variabilité par rapport à la correspondance parfaite expliquée par la corrélation

Une corrélation de 0,6 est-elle forte ?

Elle n’explique que 36% de la variabilité

Une corrélation de 0,7 n’explique que 49% de la variabilité

S’en souvenir lorsqu’on lit les résultats de travaux où l’on parle de corrélations « fortes »

D Gile concepts de stats


Statistiques inferentielles

STATISTIQUES INFERENTIELLES

Partent d’un échantillon

(sous-ensemble de la population)

pour déterminer les caractéristiques de populations,

Réelles ou fictives,

(expliqué plus loin)

dont ils est tiré.

(A condition qu’il en soit représentatif – discuté ultérieurement)

D Gile concepts de stats


Les echantillons 1

LES ECHANTILLONS (1)

En principe, sauf extraordinaire,

La distribution des valeurs dans un échantillon n’est pas exactement superposable à la distribution des valeurs dans la population

L’ « erreur d’échantillonnage »

(sampling error)

Correspond à l’écart entre les valeurs mesurées dans l’échantillon et les valeurs dans la population.

Il ne s’agit pas d’une « erreur » à proprement parler

On peut la réduire, notamment en augmentant la taille de l’échantillon (voir plus loin)

D Gile concepts de stats


Les echantillons 2

LES ECHANTILLONS (2)

L’erreur d’échantillonnage est aléatoire.

En principe, si on prélève successivement de nombreux échantillons, cette erreur devrait être parfois positive, parfois négative, et sa moyenne devrait finir par devenir nulle.

Le biais, en revanche, est une déviation systématique par rapport aux valeurs de la population.

C’est le biais qui doit être évité, car il donne systématiquement une image fausse de la réalité.

D Gile concepts de stats


Les echantillons 3

LES ECHANTILLONS (3)

La meilleure manière d’être sûr d’éviter tout biais

Est de sélectionner les unités de l’échantillon

Par un procédé strictement aléatoire

(table de nombres aléatoires, ordinateur)

Selon lequel toute unité dans la population a la même probabilité d’être tirée

Les procédés non aléatoires peuvent introduire un biais insoupçonné

Dans la pratique, le tirage aléatoire est le plus souvent impossible

D Gile concepts de stats


Les echantillons 4

LES ECHANTILLONS (4)

Un échantillon aléatoire simple (simple random sampling ou SRS) n’est pas la seule manière d’obtenir un échantillon non biaisé.

Il existe d’autres méthodes, qui consistent par exemple à diviser la population en sous-populations (strata) et à procéder à un échantillonnage aléatoire simple à l’intérieur de chaque sous-population en proportion de son importance dans la population.

(échantillonnage stratifié)

C’est une autre manière de réduire l’erreur d’échantillonnage.

D Gile concepts de stats


Les echantillons 5

LES ECHANTILLONS (5)

La moyenne d’un échantillon est en général plus proche de la moyenne de la population qu’un élément quelconque de l’échantillon.

Si l’on tire successivement de nombreux échantillons représentatifs, la moyenne de leurs moyennes est en général plus proche de la moyenne de la population que chacune de ces moyennes.

Si l’on tire une infinité d’échantillons aléatoires, la moyenne de leurs moyennes est égale à la moyenne de la population.

D Gile concepts de stats


Les echantillons 6

LES ECHANTILLONS (6)

Le rendement de l’augmentation de la taille de l’échantillon pour réduire l’erreur d’échantillonnage est fortement décroissant.

L’erreur-type (standard error) est l’écart-type de la distribution des moyennes d’échantillons.

Elle s’obtient en divisant celui-ci par la racine carré de la taille de l’échantillon n.

Elle est donc moins importante que l’écart-type, mais…

Si n=100, l’erreur-type est 10 fois moins importante que l’écart-type.

Si n=400, l’erreur type n’est que 20 fois inférieure

C’est pourquoi l’on n’augmente pas nécessairement la taille des échantillons autant qu’il apparaîtrait ‘normal’ au non initié

D Gile concepts de stats


Tr s souvent dans les statistiques inf rentielles on compare des populations

Très souvent, dans les statistiques inférentielles, on compare des populations :

Des populations réelles :

La population des bilingues précoces

La population des bilingues tardifs

Des populations fictives ou ‘construites’ :

La population des patients qui vont être soignés avec une nouvelle molécule A

La population des patients qui vont être soignés avec une nouvelle molécule B

Ces populations n’existent pas au moment de l’étude, mais les groupes sur lesquels va être réalisée une expérience sur ces molécules seront considérés comme représentant d’éventuelles populations A et B respectivement

D Gile concepts de stats


Test d hypoth se 1

Test d’hypothèse (1)

Chaque échantillon est considéré comme représentant une « population » correspondant à la « condition » concernée

(population réelle, par exemple en épidémiologie ou en travail sur corpus, ou non, par exemple dans tests sur nouvelles molécules pharmaceutiques)

Les caractéristiques de chacune de ces populations sont induites des caractéristiques trouvées sur les échantillons

Essentiellement par calcul de la moyenne et de l’écart-type dans l’échantillon

D Gile concepts de stats


Concepts de statistiques une sensibilisation

Test d’hypothèses (2)

Un test statistique (statistical test)

est un calcul fondé sur des hypothèses concernant la distribution et prenant en compte la moyenne et l’écart type dans chacun des échantillons,

qui indique la probabilité

que les populations représentées par ces échantillons

ne diffèrent pas entre elles,

cad que statistiquement, elles sont « la même »

C’est l’hypothèse de différence nulle ou « hypothèse nulle » (null hypothesis)

Qui s’oppose à l’hypothèse alternative (alternative hypothesis)

selon laquelle les populations diffèrent réellement

D Gile concepts de stats


Concepts de statistiques une sensibilisation

Test d’hypothèses (3)

Concrètement, en utilisant une formule mathématique,

Il va calculer la probabilité que les différences relevées sur ces échantillons sont attribuable au seul effet du hasard

(par opposition à une différence « réelle » )

Si cette probabilité est inférieure à un certain seul

(souvent fixé à 0,5 ou à 0,01)

On conclura que les différences entre les populations sont « significatives »

(par convention, on dira souvent significant pour p<0,5

et highly significant pour p<0,01)

D Gile concepts de stats


Le fran ais lecteur du times

Le Français lecteur du Times

Vous voyez dans la rue à Paris un homme moustachu et portant un béret et pensez au départ qu’il est français.

En vous approchant, vous voyez qu’il lit le Times

Or, vous savez que 95% des Français ne lisent qu’en français

Suspense : Ce personnage est-il français ?

Vous allez peut-être décider que puisqu’il lit le Times,

il ne l’est pas

Mais en êtes vous-sûr ?

Quelle est la probabilité qu’il est français en dépit de ses curieuses et condamnables lectures ?

D Gile concepts de stats


Erreur de type i erreur de type ii

Erreur de type I, erreur de type II

Un « faux positif » serait le rejet injustifié de l’hypothèse “nulle” selon laquelle l’homme fait partie des Français

(après tout, 5% des Français ne lisent pas en français)

Est appelé erreur de Type I

Un « faux négatif », cad l’acceptation injustifiée de l’hypothèse nulle (en réalité, il s’agit d’un étranger qui vient manger le pain des Français – parce qu’il apprécie),

est appelé erreur de Type II

D Gile concepts de stats


R sultats significatifs

Résultats significatifs

On peut vouloir accepter les 5% de risques d’erreur de type I est dire que les différences entre les populations

(telles que reflétées par les différences entre les échantillons comparés)

sont « significatives » à 5%, ou à 0.05

On peut aussi ne vouloir accepter que 1% de risque d’erreur, auquel cas ce qui était significatif à 5% ne l’est pas nécessairement à 1%

Mais ces seuils sont conventionnels et arbitraires…

Quand (en général), les valeurs mesurées sont numériques, passer de « oui » à « non » soudainement, entre 3,5 et 3,4…

D Gile concepts de stats


Qu est ce qui justifie ces inf rences 1

Qu’est-ce qui justifie ces inférences ? (1)

Quand, dans une population donnée, on tire un échantillon au hasard, puis un deuxième, puis un troisième etc., leurs moyennes auront une distribution qui tendra à approcher la distribution Normale.

Il est souvent possible de calculer que 95% d’entre elles se situeront entre telle valeur minimum et telle valeur maximum,

…et que 99% d’entre elles se situeront entre telle valeur minimum et telle valeur maximum

L’intervalle entre cette valeur minimum et cette valeur maximum s’appelle l’intervalle de confiance

D Gile concepts de stats


Qu est ce qui justifie ces inf rences 2

Qu’est-ce qui justifie ces inférences ? (2)

On peut dire quelque chose d’analogue des différences moyennes entre les moyennes de deux échantillons qui correspondent respectivement à deux populations.

Si ces deux populations sont la même,

95% de ces différences se trouveront à l’intérieur d’un certain intervalle de confiance

99% de ces différences se trouveront à l’intérieur d’un autre intervalle de confiance

La moyenne de deux échantillons tirés respectivement dans les deux populations peut être considérée comme représentative de la distribution des moyennes d’échantillons tirés de manière répétitive

D Gile concepts de stats


Si la diff rence entre ces moyennes se situe l ext rieur

Si la différence entre ces moyennes se situe à l’extérieur…

…de l’intervalle de confiance de 95% (ou de 99%) que calculera votre test

Vous pouvez considérer qu’elle est « significative », (ou « hautement significative » respectivement)

Puisque cette différence ne surviendrait que dans moins de 5% (ou 1% respectivement) des échantillons que vous tireriez si les deux populations étaient identiques

D Gile concepts de stats


Important 1

IMPORTANT (1)

  • Quand les données et les calculs indiquent une différence significative à un certain niveau

    (p < 0,05 ou p < 0,01 par exemple)

    Ils indiquent des probabilités, pas une certitude.

    C’est l’homme qui décide s’il va considérer être suffisamment certain ou non

    2. Les différences significatives ne disent rien sur l’ampleur des différences. Elles ne disent que la nature de ces différences, probablement liées à autre chose qu’à une variabilité aléatoire.

D Gile concepts de stats


Important 2

IMPORTANT (2)

3. Souvent, les tests se fondent sur certaines distributions mathématiques et sur certaines conditions (tests « paramétriques » ou parametric tests)

(taille minimum des échantillons, distribution d’un certain type dans la population, conditions de dispersion…)

Si votre cas n’y correspond pas tout à fait,

Les résultats de ces tests ne sont pas fiables

4. Il existe aussi des tests qui se fondent sur une absence de connaissance de la distribution de la variable en question. Ils sont appelés tests « non-paramétriques » ou non parametric tests.

Ils sont moins puissants que les tests paramétriques, ce qui veut dire qu’ils ont une capacité moindre à détecter des différences significatives

D Gile concepts de stats


Important 3

IMPORTANT (3)

4. Si l’un des échantillons est biaisé

On ne saurait extrapoler les résultats à l’ensemble de la population

En augmentant la taille de l’échantillon

On réduit la taille des intervalles de confiance,

Ce qui donne davantage de « puissance » au test,

Mais on n’élimine pas le biais

(sauf quand on en arrive à des échantillons qui couvrent quasiment la totalité de la population)

D Gile concepts de stats


  • Login