1 / 8

FICHIER TEXTE

FICHIER TEXTE. EXTRACTION TERMINOLOGIQUE. ETIQUETAGE EN CATEGORIES DU DISCOURS. TRI DES SORTIES. EXEMPLE DE FICHIER TEXTE.

sorley
Download Presentation

FICHIER TEXTE

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. FICHIER TEXTE EXTRACTION TERMINOLOGIQUE ETIQUETAGE EN CATEGORIES DU DISCOURS TRI DES SORTIES

  2. EXEMPLE DE FICHIER TEXTE • BRUXELLES (AFP) - L'Union européenne, dont six pays sont touchés par le virus H5N1 de la grippe aviaire, a envisagé lundi l'octroi d'aides au secteur avicole frappé par la chute de la consommation de volaille, tandis que quatre nouveaux foyers ont été identifiés au Nigeria. • Bruxelles est prêt à autoriser des aides nationales sous formes de mesures techniques déjà existantes, comme des prêts à bas taux d'intérêts aux producteurs, à condition que les Etats membres respectent les règles communautaires, a déclaré la commissaire à l'Agriculture Mariann Fisher Boel à l'issue de la réunion à Bruxelles des ministres de l'Agriculture des 25 pays membres.

  3. Etiquetage par Tree Tagger

  4. Etiquetage par Cordial

  5. Extraction de correspondances selon type de patron FORMAT CORDIAL NC[A-Z]+ ADJ[A-Z]+ (ça devrait être  N[A-Z]+) FORMAT TREE TAGGER  NOM ADJ

  6. Programmation Programme fondé sur l’idée que les données formatées par Cordial ou Tree Tagger sont totalement normalisées A une suite d’étiquettes au rang [$i..$i+1], correspond exactement une suite de tokens au même rang Recherche des correspondances entre le patron fourni par l’utilisateur (p. ex. ADJ NOM) et les étiquettes du texte

  7. Difficultés Gestion des indices Longueur des expressions régulières : facile avec Tree Tagger (NOM ADJ) plus compliqué avec Cordial NC[A-Z]+ ADJ[A-Z]+  nécessité d’utiliser $& pour saisir la vraie longueur de la correspondance

  8. COMPARAISON DES SORTIES

More Related