1 / 18

La question de la représentativité en pratique vue par le statisticien : La représentativité : synonyme de qualité?

La question de la représentativité en pratique vue par le statisticien : La représentativité : synonyme de qualité?. Alain Dessertaine – EDF R&D / SFDS. Introduction. La représentativité : un simple problème de vocabulaire ? Méthode Empirique : Méthode des Quotas

cais
Download Presentation

La question de la représentativité en pratique vue par le statisticien : La représentativité : synonyme de qualité?

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. La question de la représentativité en pratique vue par le statisticien :La représentativité : synonyme de qualité? Alain Dessertaine – EDF R&D / SFDS

  2. Introduction • La représentativité : un simple problème de vocabulaire ? • Méthode Empirique : Méthode des Quotas • Méthode aléatoire : Sondage stratifié avec allocation proportionnelle • Pourquoi ? • Retrouver ce que l’on sait sur la population à partir d’un échantillon pour un certain nombre de caractéristiques (variables) !

  3. Introduction • Un grand succès « commercial », mais quel degré de fiabilité ? • Méthode Empirique : Inconnue ! • Méthode aléatoire : Non optimum • Pourtant : • Cela serait sûrement bien de retrouver ce que l’on sait sur la population pour un certain nombre de caractéristiques (variables) !

  4. Introduction Peut-on construire un échantillon représentatif de la population, si on ne connaît aucune hypothèse sur ce que l’on doit mesurer ? Est-ce raisonnable ? Echantillon représentatif de la population : oui, mais de quelle population ? Et si présence de non-réponse ?

  5. Introduction Voir invoquer la « représentativité » dans un rapport d ’enquête pour justifier de la qualité d ’un sondage peut presque à coup sûr laisser soupçonner que l’étude a été réalisée dans une méconnaissance totale de la théorie de l’échantillonnage. Le concept de représentativité est aujourd’hui à ce point galvaudé qu ’il est désormais porteur de nombreuses ambivalences. Cette notion, d’ordre essentiellement intuitif, est non seulement sommaire mais encore fausse et, à bien des égards, invalidée par la théorie […]Donc, pour être valide, un échantillon ne doit pas être représentatif? ... Tillé [2001]

  6. Les deux grandes familles de méthodes : • Méthodes empiriques (ex : l’échantillonnage représentatif – le volontariat – la méthode des unités types …) : • Validées par une démarche expérimentale - agrémentées par des « sauces » personnelles • Intérêts : • faible coût • peuvent être très performantes • Inconvénients : • Impossibilité de calculer l ’erreur due à l ’échantillonnage • Peuvent parfois être « dramatiquement » non performantes • Méthodes aléatoires : • Validées par un argument strictement mathématique • Intérêts : • On peut calculer des totaux ! • Mesure et « maîtrise » de la « performance » • Prise en compte de la non-réponse • Inconvénients : • Plus cher à la mise en place • Bases de sondages • Défauts de couverture

  7. Quelle méthode choisir ?Choix « raisonné » ou « mauvaises » habitudes • Quelques mots sur les « charlatans » de la statistique … • … Quelques mots sur les mauvaises habitudes : • Application de méthodes « Prêtes à l’emploi » • Application de méthodes • qui rassurent • qui ont « bonne presse », • qui répondent à des « pseudo-normes » • S’appuyer sur un échantillon de personnes en qui on peut faire entièrement confiance! • Les méthodes en cause : • La méthode des quotas • Le volontariat, ou le choix « raisonné »

  8. Au fait, de quoi devrait-être représentatif un échantillon pour être valide?

  9. Echantillon représentatifoui, mais de quoi ? • Un échantillon devrait être représentatif des valeurs que l’on cherche à récupérer via l’enquête ! • Ou alors de certaines caractéristiques très bien corrélées avec nos variables d’étude …

  10. Echantillon représentatifoui, mais pourquoi ? • Si un échantillon est représentatif des valeurs que l’on cherche à récupérer via l’enquête, alors les résultats ne seront pas entachés d’erreurs d’échantillonnage ! • Cela serait le cas si les variables utilisées pour les quotas étaient strictement corrélées avec nos variables d’intérêts … • … Mais ce n’est JAMAIS le cas!!!

  11. Echantillon représentatifqui interroger ? • Et si cela pouvait marcher, qui devons nous interroger ? • Remarques importantes : • On peut toujours rendre un échantillon représentatif pour certaines variables, sans qu’il le soit pour d’autres, malgré de fortes corrélations entre elles … • Difficulté de respecter la représentativité sur plusieurs critères …

  12. Echantillon représentatifqui interroger ? • Alors, comment faire ? • « Brasser » suffisamment notre population afin de pouvoir aborder d’une certaine manière l’hétérogénéité des cas potentiellement existants ! • Un « brassage » empirique peut-il être suffisant ? • Et que faire avec les non-répondants ? • Remplacement par son « clone » … • … qui n’a pas forcément les mêmes caractéristiques étudiées que le non répondant… • Une seule solution scientifiquement valable pour régler ces deux problèmes (et bien d’autres) : Un échantillon aléatoire !

  13. Quelques notions fondamentalessur les sondages aléatoires • Spécificités des sondages aléatoires : • Échantillonnage sur base de sondage (fait appel exclusivement à un algorithme, généralement informatique, d ’échantillonnage) • Sur une population finie : • On peut (ou pourrait…) récupérer une liste exhaustive d ’unités statistique de notre population d ’étude • On peut (ou pourrait…) calculer sur cette population ce que l ’on cherche grâce à un éventuel recensement : cette valeur est la « vraie valeur » que l ’on cherche à déterminer par l’ intermédiaire de notre sondage (échantillon + stratégie d ’estimation correspondante) • Les variables traitées lors d’une étude par sondage ne sont pas aléatoires !!! Les réponses données durant une enquête sont supposées être les « vraies » réponses !!! • Seul le fait d’être tombé sur tel échantillon plutôt qu’un autre est aléatoire !!! • L’appartenance d’un individu à notre échantillon d’étude est aléatoire ! • Dans ce cas, nous pouvons calculer (ou estimer) l’erreur d’échantillonnage !

  14. Quelques notions fondamentalessur les sondages aléatoires • L ’erreur d ’échantillonnage est lié à la dispersion de l ’ensemble des valeurs prises par les estimations sur tous les échantillons possibles, construits suivant la stratégie choisie (avec le plan de sondage correspondant…) • Avec un échantillon, on peut estimer • Le total • L ’écart-type de la loi

  15. Quelques notions fondamentalessur les sondages aléatoires • Comment utiliser « ce que l’on sait » de notre population? • Sondages stratifiés : • Allocation proportionnelle • Allocation optimale au sens de Neyman • Sondages à probabilités inégales • Sondages équilibrés : • Sondages à probabilités inégales (ou non) sous contraintes que les estimations des totaux d’un certain nombre de variables (dites d’équilibrage) sur l’échantillon obtenu soient égales aux vrais totaux connus!

  16. Quelques notions fondamentalessur les sondages aléatoires • Remarques de Jean-Claude Deville sur les échantillons équilibrés : • « Construire un échantillon équilibré, c’est un peu le rêve de tous les praticiens, économistes ou sociologues, qui doivent travailler sur une population à partir d’un échantillon : pour un ensemble de variables connues, on souhaite retrouver ce que l’on sait de la population, pour ces variables l’échantillon doit être ‘représentatif’ pour être ‘bon’. Techniquement, c’est d’ailleurs la définition que donne J.HAJEK de la représentativité. L’ennui, c’est que le dit échantillon se doit aussi d’être tiré au hasard pour que, d’après J.NEYMANN, on puisse utiliser ses propriétés statistiques pour dire qu’il est exempt de biais et pouvoir évaluer sa précision. Un échantillon équilibré est donc un bon échantillon, aléatoire et représentatif. • On doit cependant comprendre pourquoi, mathématiquement, un tel échantillon est bon. La réponse est simple : il est bon parce qu’il est précis. Plus exactement, la variance des estimateurs naturels (Horvitz-Thompson) qui lui sont associés ne dépend que de la variabilité non expliquée par les variables que l’on contrôle. Dans certains cas, le gain peut s’avérer assez extraordinaire. Les applications nécessitent donc l’usage de bases de sondage contenant des variables auxiliaires assez nombreuses et connues pour toutes les unités tirables. … »

  17. Quelques notions fondamentalessur les sondages aléatoires • Problème : en théorie, pour construire un bon sondage aléatoire, il faut une bonne base de sondage : • Sans problème de couverture • Riche en informations auxiliaires • Les carences des bases de sondages : • 1ère cause : non disponibilité de la liste exhaustive des individus de la population d’étude • 2ème cause : base pauvre en informations supplémentaires pour affiner les résultats par des échantillons adaptés ou par des redressements valides • Alors, comment faire ? • Les sondages à 2 (ou plusieurs) degrés • Une solution intéressante et facilement applicable : le sondage indirect la méthode généralisée du partage des poids – Pierre Lavallée (2002)

  18. Alors déçus ?... • Certes, pour faire du sondage aléatoire, on a besoin d’une base de sondage … • … Mais avec un peu d’imagination et de créativité, on peut contourner da manière intéressante les carences potentielles d’une base de sondage de la population par un ciblage indirect de celle-ci!... • Mais ne perdons pas le fil : les sondages aléatoires doivent permettre de mieux respecter les propriétés de base d’une bonne enquête! • Résultats sans biais (ou avec un biais calculable…) • Avec un échantillon dit représentatif, la notion de biais statistique n’a aucun sens! • Mais le résultats obtenus avec un tel échantillon ne donnera quasiment jamais la vraie valeur • Connaissance et maîtrise des erreurs d’échantillonnage • De même, avec un échantillon dit représentatif, la notion d’erreur d’échantillonnage n’a aucun sens! • Traitement de la non-réponse … • Redressements … • Alors, toujours convaincu du caractère intournable de la représentativité d’un échantillon?

More Related