1 / 11

Base de Données "Titres"

Base de Données "Titres". Projet "Visu" Réalisée dans le cadre de la maîtrise IL. Objectifs. Réaliser une base de données contenant différentes informations sur les titres des textes d'un corpus : Forme des titres (avec différents niveaux de détail) Niveau de hiérarchie

crevan
Download Presentation

Base de Données "Titres"

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Base de Données "Titres" Projet "Visu" Réalisée dans le cadre de la maîtrise IL

  2. Objectifs • Réaliser une base de données contenant différentes informations sur les titres des textes d'un corpus : • Forme des titres (avec différents niveaux de détail) • Niveau de hiérarchie • Reprises (occurrences et position)

  3. Etapes du travail • Constitution d'un corpus de départ • Extraction des titres (Perl) • Extraction des informations sur les titres (Perl) • Extraction des reprises (Perl) • Conditionnement des données extraites pour Access • Fabrication et remplissage de la base

  4. Corpus de départ • Constitué de 2 textes : • L'HDR de C. Jacquemin (138120 mots) • Le chapitre E/A de P. Rigaux (6315 mots) • Format des textes : balisage XML

  5. Perl (1) • Programmes pour extraire les informations des textes : • Utilisation d'expressions régulières • Utilisation des balises pour le repérage et l'extraction des titres et de leur niveau de hiérarchie • Repérage et extraction des reprises totales et des mots composant les titres

  6. Information 1 Information 2 Information 3 Tab Tab etc. Perl (2) • Stockage dans des fichiers "texte brut" • Mise en forme des information pour automatiser le renseignement de la base de données : • La tabulation servira à séparer les différents champs dans la table

  7. La base de données • Composée de tables, de requêtes et de formulaires • Les tables contiennent toutes les informations extraites par les programmes perl • Les enregistrements sont créés à partir des tables et servent à organiser les informations d'une ou plusieurs tables ou d'autres requêtes • Les formulaires permettent de présenter les informations ou de faciliter l'entrée de nouvelles informations dans la base

  8. Les tables • La base contient 11 tables : • La table Titres qui contient 6 champs : • La table Reprise qui contient 6 champs : • La table Corpus qui contient 6 champs : • 8 tables Forme (SN, SP, SV, SAdj, Formel, >Syntagme, Phrase, PropSub) : Ex : Forme_SN :

  9. Les requêtes • Les tables et les requêtes sont liées entre elles • Les requêtes permettent d'organiser les informations de la base • Exemple : Requête pour savoir combien de SN introduits par un article défini sont présents dans chaque texte du corpus

  10. Les formulaires • Ils permettent de mettre en forme et de présenter les informations de la table • Ils permettent aussi de rentrer de nouvelles informations dans la table

  11. Objectifs (ce qu'il reste à faire) • Renseigner la "position chiffrée" dans la base pour les reprises • Inclure dans la base les annonces de titre • Inclure dans la base les reprises anaphoriques • Adapter la base aux besoins du projet • Ajouter des textes au corpus • Analyser la base

More Related