html5-img
1 / 63

Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC / Équipe ISLanD

Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC / Équipe ISLanD. Analyses cartographiques personnalisées de collections de documents électroniques. Analyses cartographiques personnalisées de collections de documents électroniques. Plan de la présentation.

nell
Download Presentation

Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC / Équipe ISLanD

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Thibault ROYUniversité de Caen / Basse-NormandieLaboratoire GREYC / Équipe ISLanD Analyses cartographiques personnalisées de collections de documents électroniques

  2. Analyses cartographiques personnalisées de collections de documents électroniques Plan de la présentation • Cadre de travail et propositions • Fondements et hypothèses • Moyens logiciels mis en œuvre • Analyses réalisées • Gestion Électronique de Documents • Analyse d’expressions métaphoriques • Perspectives de recherche Thibault ROY – Université de Caen – Laboratoire GREYC

  3. Cadre de travail et propositions Constat • De plus en plus : • De documents électroniques textuels • De moyens logiciels, de ressources et de puissance de calcul utilisées • Pourtant : • Grande difficulté d’accès au contenu de textes • Peu (pas ?) de réelle prise en compte du point de vue de l’utilisateur sur la tâche visée • Peu (pas ?) d’interactions lui sont proposées • Peu (pas ?) de réelle prise en considération de la dimension temporelle Thibault ROY – Université de Caen – Laboratoire GREYC

  4. Cadre de travail et propositions Travail de thèse • Prendre en compte la globalité d’ensembles documentaires • Dans le cadre d’analyses automatiques de contenu • Centrées sur l’utilisateur ou le groupe d’utilisateurs • Interactives et légères • Synchroniques et diachroniques • La globalité d’un ensemble documentaire… • Le regroupement de documents par des utilisateurs au sein de collections ou de corpus implique le partage de certaines propriétés • Nécessité d’une véritable analyse au niveau de la collection • Et non d’une somme d’analyses indépendantes au niveau du document Thibault ROY – Université de Caen – Laboratoire GREYC

  5. Cadre de travail et propositions Piste choisie • Proposer des modèles d’analyse au niveau global • Production de représentations graphiques globales du corpus et de rapports d’analyse • Représentations globales du corpus  supports d’interactions entre l’utilisateur et l’ensemble documentaire analysé • Basées sur des représentations des domaines d’intérêt de l’utilisateur • Représentation de ces domaines par des ressources lexicales personnalisées Thibault ROY – Université de Caen – Laboratoire GREYC

  6. Cadre de travail et propositions Visées applicatives • Accès au contenu de corpus et de collections de documents textuels • Gestion Électronique de Documents  Accès amélioré au contenu de collections (e.g. consultations thématiques) • Analyses linguistiques de corpus • Étude d’expressions métaphoriques  Analyse de l’influence de la dimension « corpus » dans la présence de certains phénomènes langagiers • Finalités dépendantes de la tâche visée ! Thibault ROY – Université de Caen – Laboratoire GREYC

  7. Cadre de travail et propositions Hypothèses et principes adoptés Hypothèse 1 : L’interprétation d’un texte dépend de l’individu Hypothèse 2 : Double détermination du sens • local  global • global local Principe d’architextualité(Rastier, 2001) : « Tout texte placé dans un corpus en reçoit des déterminations sémantiques, et modifie potentiellement le sens de chacun des textes qui le composent. » Principe de contextualisation (Rastier, 1994) : Nécessité de faire intervenir les trois notions suivantes afin de donner du sens à un énoncé : Co-texte/ Contexte extralinguistique/ Intertexte Thibault ROY – Université de Caen – Laboratoire GREYC

  8. Texte 1 : « (…) Le facteur m'a donné une lettre (…) » Texte 2 : « (…) Ta lettreest arrivée hier soir (…) » Isotopie inter-textuelle : /courier/ Cadre de travail et propositions Notions d’isotopies intra- et inter-textuelles • Sémantique Componentielle : • Décrire des significations en contexte à l'aide de sèmes • Exemple :« Le facteur m'a donné une lettre » "facteur"  /poste/, /courrier/, … "lettre"  /alphabet/, /courrier/, … • Isotopie intra-textuelle (Rastier, 1987) : • Récurrence d'un même sème dans un texte • Exemple : Isotopie (intra-textuelle) : /courrier/ • Isotopie inter-textuelle (Thlivitis, 1998) : • Récurrence d'un même sème dans un corpus Thibault ROY – Université de Caen – Laboratoire GREYC

  9. Cadre de travail et propositions Propositions • Quelles données ? • Modélisation du contexte : ressources lexicales sémiques • Modélisation de l’intertexte : ensembles de textes • Quelles analyses ? • Analyser les collections / corpus et les documents à l’aide des isotopies intra et inter-textuelles • Quels résultats ? • Différentes vues cartographiques globales et temporelles sur la collection, interactives, permettant de changer de niveau granularité, … Thibault ROY – Université de Caen – Laboratoire GREYC

  10. Cadre de travail et propositions Quels résultats ? • Cartes de collections de documents • Construites à partir des domaines de l’utilisateur • Permettant d’observer des proximités entre : • documents • groupes de documents • Interactions • Navigation sur les cartes • Visualisation interactive d’informations sur les cartes • Passage interactif d’un niveau de granularité à un autre • collection complète  groupe  …  document • document  groupe  …  collection complète Thibault ROY – Université de Caen – Laboratoire GREYC

  11. tps : t tps : t+1 Carte animée en 2D mettant en évidence la dimension temporelle de la collection tps : t tps : t+1 Carte des groupes de documents en 2D Carte des groupes de documents en 2D Cartes des documents et des groupes en 3D Cartes des documents et des groupes en 3D Carte animée en 2D mettant en évidence la dimension temporelle de la collection Carte des documents en 2D Carte des documents en 2D Cadre de travail et propositions Quels résultats ? Thibault ROY – Université de Caen – Laboratoire GREYC

  12. Cadre de travail et propositions Quelles données ? Modélisation du contexte • Représentation des domaines pertinents pour l’utilisateur dans le cadre de sa tâche • Deux représentations : • « Bags of Words » • Santé : médecin, soigner, aspirine, hôpital, etc. • Guerre : combattre, bombe, capituler, soldat, etc. • Modèle LUCIA (Perlerin, 2004) • Catégorisation lexicale plus fine • Description sémique différentielle (Beust, 1998) • Dans tout les cas : c’est l’utilisateur (ou le groupe d’utilisateurs) qui construit les ressources • Avec son propre vocabulaire • Selon les domaines de son intérêt Thibault ROY – Université de Caen – Laboratoire GREYC

  13. Cadre de travail et propositions Modèle Lucia • Exemple de table dans le domaine de la santé • Modèle différentiel du sème (Beust, 98) • Attribut : « Type de pathologie » • Valeurs d’attribut opposées : • Maladie, infection vs. Conséquence d’infection vs. Trouble psychologique vs. Trouble physique Thibault ROY – Université de Caen – Laboratoire GREYC

  14. Cadre de travail et propositions Quelles données ? Modélisation de l’intertexte • Corpus de textes (Pincemin, 1999) • Articles journalistiques et scientifiques • Collections de pages Web • Obtenues à l’aide de moteur de recherche • Flux documentaires • Forums de discussion et courriers électroniques Thibault ROY – Université de Caen – Laboratoire GREYC

  15. Cadre de travail et propositions Quelles analyses ? • Travail au niveau du co-texte : • Comptage des mots de ressources lexicales • Mise en évidence des isotopies intra-textuelles • Représentation vectorielle de chaque texte • Projection et catégorisation des vecteurs • Travail au niveau de l’intertexte : • Détermination des isotopies inter-textuelles • Rapports d’analyse des groupes et des textes • Utilisation des isotopies inter-textuelles pour positionner le groupe ou le texte par rapport à son intertexte • Prise en considération de la dimension temporelle en « localisant » les analyses sur une période donnée • Analyses mises en œuvre avec la plate-forme logicielle ProxiDocs… Thibault ROY – Université de Caen – Laboratoire GREYC

  16. Cadre de travail et propositions Plate-forme ProxiDocs (1 / 2) Thibault ROY – Université de Caen – Laboratoire GREYC

  17. Cadre de travail et propositions Plate-forme ProxiDocs (2 / 2) • Cartographie et catégorisation de corpus de textes • Interactive et centrée utilisateur • Traitements statistiques : ACP, CHA, KMeans, etc. • Java, SVG, Open-source, http://www.info.unicaen.fr/~troy/proxidocs Thibault ROY – Université de Caen – Laboratoire GREYC

  18. Cadre de travail et propositions Entrées de la plate-forme ProxiDocs • Ensembles de documents électroniques textuels (format texte, HTML) • Ressources lexicales (format XML) de 2 types : • Simple : 1 ensemble de mots  1 domaine • Avancé : 1 dispositif Lucia  1 domaine • Aides logicielles à la constitution des ressources : • MemLabor (Perlerin, 2002) • ThemeEditor (Beust, 2002) • LuciaBuilder (Perlerin, 2004) • Etc. Thibault ROY – Université de Caen – Laboratoire GREYC

  19. Analyses cartographiques personnalisées de collections de documents électroniques Plan de la présentation • Cadre de travail et propositions • Fondements et hypothèses • Moyens logiciels mis en œuvre • Analyses réalisées • Gestion Électronique de Documents • Analyse d’expressions métaphoriques • Perspectives de recherche Thibault ROY – Université de Caen – Laboratoire GREYC

  20. Analyses réalisées Différentes expérimentations • Besoin d’experts et de tâches précises • Mise en place d’un méta-moteur de recherche cartographique basé sur la plate-forme ProxiDocs • Projet IsoMeta : étude en corpus d’expressions métaphoriques • Projet CISMeF : recherche d’informations dans des documents médicaux • Groupe de travail sur les forums de discussion • Expérimentations toutes en cours !!! Thibault ROY – Université de Caen – Laboratoire GREYC

  21. Analyses réalisées Méta-moteur de recherche cartographique (1 / 4) • Objectifs : • Avoir un regard global sur le contenu des « principales » pages Web traitant de la Constitution Européenne • Contexte : • 12 domaines généraux choisis (approche « bags of words ») : • justice, violence, éducation, sécurité routière, agriculture, économie, informatique, etc. • Taille moyenne des domaines : 40 lexies • Expérience : • Requête : « constitution européenne » sur Yahoo • 100 pages provenant de sites francophones • Cartographie avec ACP et catégorisation CHA en 8 groupes Thibault ROY – Université de Caen – Laboratoire GREYC

  22. Analyses réalisées Méta-moteur de recherche cartographique (2 / 4) Thibault ROY – Université de Caen – Laboratoire GREYC

  23. Numéro du groupe – domaine majoritaire Commentaires sur les pages Web contenus dans le groupe 1 – Informatique Pages Web proposant des versions électroniques de la constitution ainsi que des outils informatiques de consultations 2 – Économie Pages Web traitant des enjeux économiques de la constitution 3 – Circulation Pages Web contenant des discussions sur la problématique du transport routier en Europe 4 – Éducation Pages Web décrivant des enseignements universitaires en économie et en sciences politiques Analyses réalisées Méta-moteur de recherche cartographique (3 / 4) Thibault ROY – Université de Caen – Laboratoire GREYC

  24. Analyses réalisées Méta-moteur de recherche cartographique (4 / 4) • Cartographie utile pour : • Visualiser la répartition des domaines sur l’ensemble documentaire • Accéder plus facilement au contenu • Première mise en évidence des isotopies inter-textuelles : • Ressources utilisées : • Informatique : logiciel, web, etc.  logiciel : /informatique/, web : /informatique/, etc. • Principales isotopies intertextuelles obtenues dans l’expérience : • Informatique, Économie, etc. • Utilisation du lien : local global, mais pas vraiment du lien global local… Thibault ROY – Université de Caen – Laboratoire GREYC

  25. Santé Météo Guerre Analyses réalisées Projet IsoMeta (1 / 6) • Étude simultanée de trois métaphores conceptuelles dans un corpus de 600 articles boursiers du Monde entre 1987 et 1989 : • La « météorologie boursière » • La « santé financière » • La « guerre économique » Bourse, Économie, Finances, Politique, Etc. Thibault ROY – Université de Caen – Laboratoire GREYC

  26. Analyses réalisées Projet IsoMeta (2 / 6) • Cartographie de corpus à partir des trois domaines sources : météo, santé, guerre • Représentation des domaines par des dispositifs Lucia • Construction des dispositifs par une étude lexicale du corpus (dispositif guerre : ~60 lexies, dispositifs météo et santé : ~110 lexies) • Filtrage des documents contenant au moins 2 occurrences de lexies des domaines : • 303 documents restants Thibault ROY – Université de Caen – Laboratoire GREYC

  27. Emplois non métaphoriques :« Pour se déplacer (..), des officiers de la guérilla utilisent les motos récupérées pendant les attaques. » Emploisnon métaphoriques Emplois figés :« Selon le SNUI, qui rappelle que le conflit des impôts dure depuis sept mois, (…) » Emplois figés :« En neuf mois, six firmes sur les trente-trois OPA ont été l'objet de véritables batailles boursières. » Emploismétaphoriques figés Emplois variés : « (…) après avoir contaminé New York et Londres, la fièvre des OPA s'est mise (…) à ronger la Bourse. » 08/02/1988 Emplois variés :« Porteur du terrible virus de la défiance, il se propage à la vitesse de l'éclair et les tentatives désespérées de réanimation (…) sont inopérantes. » Emploismétaphoriques variés Emplois variés : « Un petit vent frisquet a soufflé, ces derniers jours rue Vivienne, qui (…) s'est soudain éclipsé à la dernière minute pour laisser la place à une brise nettement plus chaude. » Analyses réalisées Projet IsoMeta (3 / 6) Thibault ROY – Université de Caen – Laboratoire GREYC

  28. Analyses réalisées Projet IsoMeta (4 / 6) Thibault ROY – Université de Caen – Laboratoire GREYC

  29. Groupe Corpus 1. Pathologie – 4 (9-5) 1. Violence – 10 2. Violence – 0 (10-10) 2. Pathologie – 5 … … Pondération des isotopies à l’aide du global Analyses réalisées Projet IsoMeta (5 / 6) • Analyses précédentes réalisées à l’aide des différents rapports de groupes et de textes • Intra et inter-isotopies mises en évidence dans les rapports de groupe • Réflexions en cours sur le classement de ces isotopies : • Singulariser le local (texte ou groupe) à l’aide de son global (resp. groupe ou corpus) Thibault ROY – Université de Caen – Laboratoire GREYC

  30. Analyses réalisées Projet IsoMeta (6 / 6) • Bilan • Intérêt de vues globales • Mise en évidence de proximités entre articles • Regroupement de textes en sous-ensembles • Influence du temps • Perspectives • Aller plus finement vers une caractérisation des isotopies dans le cadre de l’étude des trois métaphores Thibault ROY – Université de Caen – Laboratoire GREYC

  31. Analyses cartographiques personnalisées de collections de documents électroniques Plan de la présentation • Cadre de travail et propositions • Fondements et hypothèses • Moyens logiciels mis en œuvre • Analyses réalisées • Gestion Électronique de Documents • Analyse d’expressions métaphoriques • Perspectives de recherche Thibault ROY – Université de Caen – Laboratoire GREYC

  32. Perspectives de recherche Premier bilan • Intérêt de prendre en considération la globalité d’un ensemble documentaire pour : • des tâches d’accès au contenu de collections • une étude en corpus d’expressions métaphoriques • Intérêt de prendre en considération les domaines pertinents du point de vue de l’utilisateur Thibault ROY – Université de Caen – Laboratoire GREYC

  33. Perspectives de recherche Réflexions théoriques • Projection pertinente du globalsur le local • Mise en œuvre de différentes pondérations des isotopies intra et inter-textuelles selon le contexte • Mise en œuvre d’une évaluation de la plate-forme ProxiDocs • Protocole • Échantillon représentatif d’utilisateurs Thibault ROY – Université de Caen – Laboratoire GREYC

  34. Perspectives de recherche Évaluation • Évaluation des ressources : • Le modèle structurel des ressources est-il clair ? • L'aide à la construction des ressources est-elle suffisante ? • Le temps nécessaire à la construction des ressources est-il raisonnable ? • Les ressources sont-elles susceptibles d'évoluer facilement ? • Les ressources personnelles sont-elles a priori facilement partageables ? • Aucune compétence particulière est-elle nécessaire pour la construction des ressources ? • Évaluation de la plate-forme : • Le but applicatif vous semble-t-il clair ? • La prise en main est-elle facile ? • Est-ce que l'outil donne un retour intéressant sur les ressources ? • Les résultats du logiciel sont-ils facilement exploitables ? • Est-ce que l'outil est agréable à utiliser ? • Les traitements sont-ils adaptés à la tâche ? • Est-ce que l'outils permet d'envisager d'autres applications ? • L'outil permet-il plus facilement un travail à plusieurs sur la tâche ? • Est-ce que l'outil peut changer la façon d'accomplir la tâche ? Thibault ROY – Université de Caen – Laboratoire GREYC

  35. Perspectives de recherche Développement • Besoin de nouvelles possibilités d’interactions et de visualisation : • Ajout, suppression, déplacement dynamique d’un document ou d’un groupe de documents • Aller plus loin dans la prise en considération de la dimension temporelle des documents (déplacements de documents selon l’axe du temps) • Développer des supports d’interactions entre l’utilisateur et l’ensemble documentaire analysé Thibault ROY – Université de Caen – Laboratoire GREYC

  36. Analyses cartographiques personnalisées de collections de documents électroniques Merci de votre attention • Pour plus d’information : http://www.info.unicaen.fr/~troy Thibault ROY – Université de Caen – Laboratoire GREYC

  37. Thibault ROY – Université de Caen – Laboratoire GREYC

  38. Thibault ROY – Université de Caen – Laboratoire GREYC

  39. Métaphores conceptuelles « Météo Boursière » • « Une véritable tempête de hausses, alimentée par une marée de capitaux, étrangers pour partie, en quête de placement. »Le Monde 03/08/87 • « L'excédent de mars n'aura été qu'une embellie, et le sombre tableau brossé par le premier ministre, (…) »Le Monde 06/06/88 • « Rafraîchie durant les quinze derniers jours, la température est très largement remontée cette semaine rue Vivienne, avant de redescendre un peu à la veille du week-end. »Le Monde 28/11/88 Thibault ROY – Université de Caen – Laboratoire GREYC

  40. Métaphores conceptuelles «Guerre Économique» • « (…) après avoir opposé une assez vive résistance à la baisse avec des replis limités à 1,47% lundi, (…), elle s'est progressivement mise en devoir de regagner le terrain perdu » Le Monde 06/04/87 • « Le dénouement dans la bataille autour de la première banque commerciale privée du pays a eu peu d'effet sur les cours. »Le Monde 27/02/89 • « La firme du groupe de la Caisse des dépôts développements pourrait dans les jours prochains lancer une contre-offensive. » Le Monde 11/07/88 Thibault ROY – Université de Caen – Laboratoire GREYC

  41. Métaphores conceptuelles « Santé Financière » • « Le syndrome du 15 août ? Comme tous les ans la Bourse de Paris n'a pas échappé à cet indéfinissable malaise(…) » Le Monde 17/08/87 • « Une bonne partie du malaise ressenti sous la verrière était due à l'état de santé déplorable du marché obligataire, (…) » Le Monde 17/08/87 • « La pente fut longue à remonter, et il fallut bien douze mois pour panser les plaies du sinistre et à commencer à croire à de nouveaux records d'altitude pour le CAC. » Le Monde 01/08/89 Thibault ROY – Université de Caen – Laboratoire GREYC

  42. Thibault ROY – Université de Caen – Laboratoire GREYC

  43. La GED • Domaine dynamique, ancré dans une certaine tradition logico grammaticale • Accent mis aujourd’hui sur les techniques de visualisation et les interactions • Les principales limites : • Indexation et consultation des collections très souvent à l’aide de termes termes-clés • Visualisations complexes et traitements peu « transparents » • Et surtout, peu de prise en compte des utilisateurs et du contexte global Thibault ROY – Université de Caen – Laboratoire GREYC

  44. Quelques outils de GED • Lecture rapide d’ensembles documentaires • Recherche d’information sur le Web • Veille documentaire Thibault ROY – Université de Caen – Laboratoire GREYC

  45. Cone Tree (Robertson et al., 1991) Thibault ROY – Université de Caen – Laboratoire GREYC

  46. 3D XV(Jacquemin et Jardino, 2002) Thibault ROY – Université de Caen – Laboratoire GREYC

  47. Lexica(Société Le Sphinx) Thibault ROY – Université de Caen – Laboratoire GREYC

  48. Quelques outils de GED • Lecture rapide d’ensembles documentaires • Recherche d’information sur le Web • Veille documentaire Thibault ROY – Université de Caen – Laboratoire GREYC

  49. Google (http://www.google.com) Thibault ROY – Université de Caen – Laboratoire GREYC

  50. KartOO (Chung et al., 2001) Thibault ROY – Université de Caen – Laboratoire GREYC

More Related