1 / 29

Anonymisation semi-automatique de corpus d’interactions É léments pour une méthode interactive

Anonymisation semi-automatique de corpus d’interactions É léments pour une méthode interactive. C. Reffay 1 , F.-M. Blondel 1 , S. Allaire 2 , E. Giguet 3 1 STEF – ENS-Cachan / IFÉ – ENS-Lyon 2 Université du Québec à Chicoutimi (UQAC), Canada 3 GREYC, Université Caen Basse-Normandie, CNRS.

mari
Download Presentation

Anonymisation semi-automatique de corpus d’interactions É léments pour une méthode interactive

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Anonymisation semi-automatique de corpus d’interactionsÉléments pour une méthode interactive C. Reffay1, F.-M. Blondel1, S. Allaire2, E. Giguet3 1 STEF – ENS-Cachan / IFÉ – ENS-Lyon 2 Université du Québec à Chicoutimi (UQAC), Canada3 GREYC, Université Caen Basse-Normandie, CNRS Journées Communication et Apprentissage Instrumentés en Réseau du 6 au 8 septembre 2012 à Amiens, France.

  2. Le fil conducteur • Introduction • Contexte, problématique • Les 2 Corpus traités • Anonymiser : définitions, exemples • Le processus d’anonymisation • Marquage • Fouille • Substitution • Bilan de l’application aux 2 corpus • Perspective JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet

  3. Introduction • Partage de données en recherche • Mulce : "Repository" de Corpus multimodaux d’enseignement et d’apprentissage • Calico : "Repository" + Outils d’analyse de Forums, Blogs, etc. • Données personnelles non partageables • Anonymisation nécessaire • Corpus d’interaction = Gros volumes • Besoin de méthode et d’outils JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet

  4. Anonymiser : pourquoi ? • Obligation légale (selon les pays) : • En France : CNIL, • Directives de la Commission Européenne • Canada : comités éthiques • Déontologie de la recherche • Protéger les données perso. des participants • Gagner leur confiance • Mieux garantir l’indépendance JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet

  5. Anonymiser : le « quoi » • Cacher les données personnelles • Noms (prénoms, patronymes, noms utilisateurs, …) • Identifiants (N°Passeport, N°Etudiant, N°INSEE, …) • Lieux (villes, rues, adresse, coordonnées) • Institution (école, club, entreprise, …) • Références de contacts (e-mail, mobile, MSN, skype, twitter, téléphone/fax, …) • Références explicites (URL page perso, blogs) • Noms d’utilisateurs de média sociaux (facebook, MySpace, Hi5, Soundcloud, Badoo, Friendster, …) • Et maintenircohérence et consistance du texte JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet

  6. 2 corpus JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet

  7. Ex: Données personnelles • {2011-11-30T19:24 Gabibr Re: Quelques informations ...}“Eu amo a língua Francesa! Quem sabe falar francês me adiconem no meu FACEBOOK;) J'aime parler français! Qui peut parler français? M'ajouter dans FACEBOOK;) Nom: GABRIELA MEDEIROS.” • {2011-12-27T09:25 Miche Re: Les stéréotypes culinaires answers} “inviate i vostri documenti alla mia mail mikinessi@yahoo.it grazie!!!;)” • {2011-10-22T19:52 PBS Re: Por que me chamo assim?! } “Yo me llamo Peimikà Bibiana. Como mi madre es tailandesa y mi padre es italiano, mi primer nombre, Peimikà, es tailandés y significa " dueña del amor ", mientras mi según nombre, Bibiana, es italiano y procede del etrusco " vibius " que significa " vida ". Me gusta mucho tener dos nombres (en Italia es más usual tener un nombre) y sobre todo estoy orgullosa de los orígenes diferentes que tienen y que hacen mi nombre aún más particular (además Peimikà no es muy difundido en tampoco en Tailandia y tampoco Bibiana en Italia” JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet

  8. En cherchant sur la toile… JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet

  9. Peimikà Bibiana… suite JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet

  10. Anonymisation Dans un corpus anonymisé, aucun participant ne doit être identifiable par une personne externe Contraintes: • Toute référence (ex: nom, lieu, etc.) doit être suffisamment imprécise pour englober plusieurs centaines de personnes. • Toute graphie identifiée doit être marquée (numériquement) même si elle est inchangée. • Conserver le maximum de dépendances sémantiques et culturelle. JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet

  11. Comment rendre anonyme ? « Bonjour, je m'appelle Kelly. J'ai 16 ans, je suis une élève en 1ère S dans le lycée Rosa Luxemburg à Canet, pas très loin de Perpignan. » • Une info (isolée) => 100+ personnes • Faisceau d’infos combinées => 7+ pers. • Penser aux sources externes… JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet

  12. Avant Après Anonymisation • Avant :{2011-10-17T08:22 KellyM Re: Qui sommes- nous? } Bonjour, je m'appelleKellly. J'ai 16 ans, je suis une élève en 1ère S dans le lycéeRosa Luxemburg à Canet,non loin dePerpignan… • Après:{2011-10-17T08:22 FLG01 Re: Qui sommes- nous? } Bonjour, je m'appelleKittty*. J'ai 16 ans, je suis une élève en 1ère S dans le lycéeMargherita Duras* à Aigues-Vives*,non loin dePerpignan… JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet

  13. Quelques difficultés • Synonymie ou altérations lexicalesExemple : Venise • Erreurs de typo: Verise, Venize… • Multilinguisme : Venizia, Venice, … • Homonymie : « Sylvie Paris semble avoir développé une véritable addiction au PMU (Paris Mutuels Urbains). Elle fréquente assidument l’hippodrome de Longchamp à côté de Paris. » JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet

  14. Processus d’Anonymisation Table de transformation des entités nommées Liste initiale participants,login,institution… 0 2 Détection de nouvellesgraphies Marquage 1 Corpus avec entités marquées Corpus àanonymiser Corpus Anonymisé Substitution 3 JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet

  15. = Synonymes : 2 graphies différentes représentent la même entité nommée Homonymes: La même graphie représente différentes entités Table de transformation : exemple JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet

  16. Marquage : Exemple (Kelly) A - Le concordanceur donne le contexte de chaque occurrence JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet

  17. Marquage: Exemple (Kelly) B – Ajouter “Gene Kelly” comme personne publique dans la table + JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet

  18. Marquage : Exemple (Kelly) C- Associer chaque graphie à l’entité correspondante Patronyme, forme normale, inchangéereprésente la célébrité Gene Kelly Prénom, forme normale, à changer :représente le participant KellyM JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet

  19. Processus d’Anonymisation Table de transformation des entités nommées Liste initiale participants,login,institution… 0 2 Détection de nouvellesgraphies Marquage 1 Corpus avec entités marquées Corpus àanonymiser Corpus Anonymisé Substitution 3 JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet

  20. Détection de nouvelle graphies : 2 stratégies • Règles lexicales : syntaxe proche • Eli -> Elô Ely ELY Seli • Gabriela -> GABRIELA • José -> Jose • Règles contextuelles : même contexte • First names: “mi chiamo …”, “accord avec …” • Cities: “Soy de …”, “vivo en …”, “j’habite à …” JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet

  21. Adriana Alèxia Anthony Baptiste Cleissa Eli… Elouise Emmanuel Federica Ferran Gabriela Guillem Iñigo Jaqueline Jean José Kelly Léo Mariana Mary Michela Monica Olalla Oleguer 1ère Stratégie : Règles Lexicales 103graphiesconnues adriana Alexia Antonhy baptiste Cleisa Elô Ely ELY Seli Louise MAnuel Federiac fran Fran GABRIELA guillem iñigo Jacqueline jean Jose Kellly Leo léo MariAna mary May Miche michelina moni olalla oleguer 31 nouvellesgraphies JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet

  22. 2ème Stratégie : Règles contextuelles 103 prénoms connus (Adrià, …, Veronica) 145 contextes : Gauches/Droits Total: + 250 règles testées 47 règles retenues 15 nouvelles graphies retenues Antonhy BelleBetChristineFedeFederiac Kellly Leo LineMaria May PeimikàRegina fran jean léo JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet

  23. Processus d’Anonymisation Table de transformation des entités nommées Liste initiale participants,login,institution… 0 2 Détection de nouvellesgraphies Marquage 1 Corpus avec entités marquées Corpus àanonymiser Corpus Anonymisé Substitution 3 JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet

  24. Substitution : principes & précautions • Vérifications avant exécution: • Homonymie (entre participants) maintenue • Pas d’introduction de nouveaux homonymes • Cohérence des graphies de substitution • Codage des acteurs (intra/inter corpus) • Exécution en une seule passe pour éviter les remplacements en cascade • Vérification par le chercheur par lecture (au moins sur un échantillon) JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet

  25. Evaluation de l’anonymisationSur le corpus 1 (Nomades) • Annuaire des données personnelles : prénoms, patronymes, institutions, villes, courriels : 269 données / 117 trouvées / 279 occurrences Méthode : Relecture exhaustive par l’animatrice • 7 graphies oubliées // 117 trouvées • 6 sur 7 dues à une application manuelle =>1 seule vraie oubliée par la méthode : Excellent résultat pour l’anonymisation JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet

  26. Evaluation de l’anonymisationSur le corpus 2 (Prog. court) • Annuaire des données personnelles : prénoms, patronymes : • 9 données / 11 trouvées / 115 occ. marquées Méthode : Expression régulière (Majuscule) : =>792 occ. représentant 328 graphies distinctes • 8 graphies : 2 institutions, 1 village, 5 pers. • Soit 31 occurrences oubliées Peu d’information au départ => moins efficace. JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet

  27. Discussion • Expressions régulières (majuscules) : • Corpus 1 (Nomades) : 6 287 occ. (1509 g) • Corpus 2 (Pgrm court) : 792 occ. (328 g) • Règles inutilisable en Allemand, autres ? • Dictionnaires externes • Corpus 1 (Nomades) : 5 langues (avec recouvrements) • Corpus 2 (Pgrm court) : Français du Québec • Réutilisation des règles : (1) -> 2 ? JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet

  28. Conclusion • Une méthode (sans dictionnaire) pour anonymiser • Retour aux hypothèses • Automatisation 100% impossible • 2 techniques de fouille complémentaires prometteuses • Selon contexte : ajouter expressions régulières • Le paradoxe de l’anonymisation • Ex: Google facilite la ré-identification => utilisons-le pour déterminer ce qu’il faut anonymiser ! • Perspectives • Développement (au dessus de Calico) JOCAIR'2012 - C Reffay, F-M Blondel, S. Allaire & E Giguet

  29. Merci C. Reffay1, F.-M. Blondel1, S. Allaire2, E. Giguet3 1 STEF – ENS-Cachan / IFÉ – ENS-Lyon 2 Université du Québec à Chicoutimi (UQAC), Canada3 GREYC, Université Caen Basse-Normandie, CNRS Journées Communication et Apprentissage Instrumentés en Réseau du 6 au 8 septembre 2012 à Amiens, France.

More Related