1 / 86

Carl-Erik Särndal Université d’Örebro Statistique Suède

Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse. Carl-Erik Särndal Université d’Örebro Statistique Suède. 7e Colloque francophone sur les sondages Rennes , 2012. 2012-11-06. Face à la non-réponse :

julian-rowe
Download Presentation

Carl-Erik Särndal Université d’Örebro Statistique Suède

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Réponse équilibrée et ajustement des estimations: Deux étapes dans le traitement de la non-réponse Carl-Erik Särndal Université d’Örebro Statistique Suède 7e Colloque francophone sur les sondages Rennes , 2012 2012-11-06

  2. . Face à la non-réponse : deux types d’activités (a) au « stade collecte (des données) » (b) au « stade estimation », collecte ayant été terminée Les étapes (a) et (b) ne sont pas indépendantes . Nous examinerons les deux, et leur interaction

  3. . Collecte des données: Évolue sur une période de temps (des jours, semaines). Aspect dynamique. Objectif: obtenir à la fin un ensemble de répondants bien équilibré Estimation: Objectif: Ajustement pour réduire le biais qui affecte néanmoins les estimations (malgré un certain équilibrage).

  4. . Collecte des données Estimation Les deux activités dépendent intégralement de l’accès aux variables auxiliaires Plus on en a, mieux c’est En Scandinavie, on est bien équipé

  5. Les idées pour cette présentation Collecte adaptive (Responsive design, USA, Canada) Europe: Statistics Netherlands (projet RISQ; représentativité) Statistics Sweden (réponse équilibrée) : projet en collaboration avec Peter Lundquist

  6. Points de départ: Les variables d’intérêt (variables y) : affectées par une non-réponse non-aléatoire (même conditionnellement sur vecteur auxiliaire x) Estimations plus ou moins baisées Le biais ne sera jamais entièrement éliminé La non-réponse ignorable (MAR) n’existe pas.

  7. Points de départ: Les variables auxiliaires (variables x) jouent un rôle primordial. Connues pour les unités de l’échantillon s (répondants et non-répondants), peut-être pour toute la population Vecteur x multivarié

  8. Points de départ: En Scandinavie, aux Pays-Bas et de plus en plus ailleurs Une multitude de variables auxiliaires disponibles , surtout pour les enquêtes sur ménages et individus : Sources : Les registres administratifs Nécessité de choisir “les meilleures”.

  9. Exemple, Suède : Pays d’origine Revenu Age Sexe Statut civil Région Taille de ménage Périodes sans emploi Urbain/rural Occupation et beaucoup d’autres Enquête sur ménages et individus, parmi les variables auxiliaires potentielles:

  10. . Je vous présente une théorie pour ce qui est pour nous, en Scandinavie, une réalité, chez vous, c’est peut-être différent …

  11. Les étapes de ma présentation 1. La notion de maléquilibre (ang.: imbalance) 2. Stade collecte : surveiller et intervenir 3. Partager le travail et les ressources : collecte vis-à-vis estimation 4. Stade estimation : réduction du biais

  12. 1. La notion de mal-équilibre Population U = {1, …, k , ..., N} Échantillon probabilistes (s U) Proba d’inclusion de l’uniték : Poids d’échantillonnage dek : .

  13. La non-réponse arrive Population U = {1, …, k , ..., N} Échantillon probabiliste s Ensemble des répondantsr r  s  U Sélectionnés mais non-répondants:s – r Taux de réponse pondéré : dk = 1/k

  14. La (les) variable(s) d’intérêt y continue ou catégorique On observe valeur par exemple .

  15. Pondération désirable mais hypothétique proba de réponse k inconnu, tout uniték : Serait sans biais pour le total de y, mais inutilisable .

  16. Introduisons Les concepts d’équilibre et de distance reposant sur des variables auxiliaires Vecteur auxiliaire xkde dimension J 1connuk s, ou bien pour tout k U (Mais la variable d’intérêt yk pour k r seulement) r s  U

  17. Contraster les répondants avec l’échantillon entier Pour la variable xj , calculer moyenne répondants moyenne échantillon entier ;

  18. Comparer répondants avec l’échantillon entier Le vecteur des différences , dim.J  1 ; pondéré : dk = 1/k

  19. Réponse équilibrée: Répondants égaux (en moyenne) à l’échantillon tout entier Désirable, mais difficile à réaliser entièrement Objectif pour la collecte : un niveau d’équilibre élevé néanmoins, au stade estimation, un ajustement s’impose .

  20. : réponse mal équilibrée D étant vectoriel, on forme une mesure uni-variée du maléquilibre (ang: imbalance) Matrice J Jde pondération, non-singulier : ,

  21. Exemple, la Suède : Pays d’origine Revenu Age Sexe Statut civil Région Taille de ménage Période(s) sans emploi Urbain/rural Occupation Vecteur x composé de : dimension souvent 40 ou plus

  22. Notation : IMB = imbalance = maléquilibre . IMB est une mesure descriptive - parmi d’autres également possibles - de l’ensemble r des répondants, tel qu’il se présente à un certain moment de la collecte des données.

  23. Remarquer : dépend de (i) la composition du vecteur auxiliaire xk (ii) la composition de r , étant donnés Mais par simplicité, utilisons IMB tout court serait notation plus complète

  24. . Propriété : Pour réponse r et échantillon s fixés , ajouter plus de variables au vecteur x fera augmenter IMB Un vecteur x plus grand donne plus de maléquilibre, naturellement, car davantage de variables pour lesquelles les moyennes doivent concorder. Le vecteur trivial xk = 1 donne IMB = 0 mais c’est un vecteur dépourvu d’intérêt

  25. La pondération avec s nous permet de poser une borne supérieure simple pour le maléquilibre

  26. Pour toute réalisation (s, r) et vecteur xk , P = taux de réponse 20% non-response: 0 IMB  0.25 50% non-response : 0 IMB 1 IMB n’est pas numériquement grand Mais IMB = 0.20 indique maléquilibre considérable comparablement à IMB = 0 (équilibre parfait)

  27. La notion de distanceentre répondants r and non-répondants nr = s - r P = taux de réponse Relation simple avec maléquilibre IMB :

  28. La distance Par exemple, 40% non-réponse, et maléquilibre

  29. Propritété : peu importe r, s et choix de vecteur x Par ex., non-réponse 50%  dist 2 Pour nos données, dist rarement  0.5 mais varie selon le choix du vecteur x

  30. 2. Stade collecte: surveiller et intervenir(un aspect de « Responsive Design ») Optique dynamique : Surveiller la collecte des données, vue en fonction du temps (les jours, les tentatives de contact); Envisager des interventions ou altérations dans un plan original.

  31. Surveiller et modifier la collecte Optique dynamique : Une série d’ensembles de répondants emboités, fonctions du point temporela Pour simplicité r dénotera n’importe lequel de ces ensembles

  32. Exemple d’application: Enquête sur les Conditions de Vie , Suède 2009 ECV2009 tributaire du EU-SILC Tirage aléatoire simple de personnes dans le registre de la population suédoise. Interviews par téléphone. Les tentatives de contact sont enregistrées par le dispositif WinDATI Nous analysons ici un sous-échantillon de taille 8,220 .

  33. Enquête sur les conditions de vie, Suède 2009 (ECV2009) Tentatives de contact enregistrées par WinDATI. Période collecte ordinaire: 3 semaines; pour beaucoup d’unités, > 30 tentatives; à la fin de cette période, taux de réponse P = 60.4 % Période des suivis (follow-up), 3 semaines , taux de réponse ultime P = 67.4% .

  34. Collecte ordinaire > 30 tentatives pour bon nombre d’unités Collecte suivie souvent > 10 tentatives Toutes ces tentatives … 53258, au total Est-que cela vaut la peine ? Fortement douteux. .

  35. Pour le fichier ECV2009, calculons le maléquilibre et la distance rép/non-rép sur vecteur x = (educ  owner  origin); dim = 23 = 8

  36. . x = (educ  owner  origin); dim = 2  2  2 = 8 3 variables binaires : Éduc (élevée ou non) Own (propriétaire ou non) Origine (suédois ou non)

  37. Fichier ECV2009 tel quel La distance augmente sans cesse. Comment est-ce possible ?

  38. Fichier ECV2009 : La distance augmente de 0.310 tentative no. 5 à 0.471 fin collecte Répondants de moins en moins semblables aux non-répondants ... C’est troublant … Mais dites-vous, cela dépend du vecteur x choisi …

  39. . Durant la phase collecte, comment réduire le maléquilibre ? Quelles interventions pouvons nous apporter à la collecte? Quelles modifications dans un plan original, pour pouvoir terminer avec un ensemble de répondants plus approprié?

  40. . Pour répondre à ces questions , il faudrait effectuer des expériences dans la collecte des données de la ECV.

  41. Faute d’ expériences réelles, nous effectuons des “expériences rétrospectives” dans le fichier ECV2009 On considère la collecte terminée dans un sous-groupe ayant atteint un certain taux de réponse comme 55% ou 60% ou 65% Cela possible avec le fichier ECV2009 . .

  42. . Ainsi, dans ces expériences, on rejette volontairement une partie des données du fichier ECV2009 (pour que le reste soit plus équilibré et avoir un IMB moindre) .

  43. ECV2009 Les groupes définis par le vecteur connu k s x = (educ  owner  origin) de dimension = 2  2 2 = 8 On sait que ces groupes diffèrent dans leur disposition à répondre .

  44. ECV2009 Résultats d’une de ces expériences rétrospectives: Considérer collecte terminée dans un group ayant atteint un taux de réponse de 60% les 23 = 8 groupes définis par le vecteur x = (educ  owner  origin) .

  45. Expérience rétrospective : collecte terminée dans un groupe si son taux réponse> 60% La distance maintenant décroissante, comme on souhaite

  46. Comparaison au point Final (collecte terminée) Taux rép. 100  P100  IMBdistance ECV tel quel 67.4 2.36 0.417 Expérience 58.9 0.82 0.220 (intervention par groupes) Moins de réponses (58.9% vs. 67.4%) Mais distance très réduite (0.22 vs. 0.42) .

  47. . Non seulement économise-t-on sur le nombre de tentatives (réduction d’environ 15%) mais la distance diminue aussi (répondants et non-répondants plus semblables) .

  48. 3.Collecte vis-à-vis estimationComment partager les ressources ? Quelle utilisation doit-on faire de l’information auxiliaire disponible? Quand faut-il agir, et dans quelle mesure ? • stade collecte ou bien • stade estimation ou les deux ?

  49. On se rend compte alors queles variables auxiliaires (nombreuses) doivent être regroupés en deux catégories : • Celles qu’on utilise lors du stade collecte, pour une surveillance • Celles qu’on utilise, la collecte terminée, lors du stade estimation

  50. . Le vecteur surveillancexa contient les variables x destinées à surveiller et diriger la collecte de données, pour s’assurer à la fin d’un ensemble de répondants bien équilibré, qui ressemble fortement à l’échantillon probabiliste s.

More Related