1 / 11

Tutoriel TAL des NFCE Journée ATALA 5 Juin 2004

Tutoriel TAL des NFCE Journée ATALA 5 Juin 2004. Emilie Guimier De Neef. chui en fisic ta pa 1 id geeeniaaale 2 kdo pr ludo :-> a2m1 steph. Pré-traitement linguistique. Synthèse vocale. Je suis en physique t'as pas une idée de cadeau géniale pour ludo hahaha ! À demain Stèph.

prue
Download Presentation

Tutoriel TAL des NFCE Journée ATALA 5 Juin 2004

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Tutoriel TAL des NFCEJournée ATALA5 Juin 2004 Emilie Guimier De Neef

  2. chui en fisic ta pa 1 id geeeniaaale 2 kdo pr ludo :->a2m1 steph Pré-traitement linguistique Synthèse vocale Je suis en physique t'as pas une idée de cadeau géniale pour ludo hahaha ! À demain Stèph 4. Un exemple de traitement automatique :Pré-traiter des SMS avant vocalisation

  3. Plan • Architecture du système • L’analyseur de textes «TiLT» • Adaptations de TiLT au pré-traitement des SMS • Limites du pré-traitement • Démonstration du système

  4. Architecture du système • Combinaison de 3 briques logicielles de FTR&D : • Prolix : identification de la langue • TiLT : analyse linguistique • CVOX : synthèse vocale • Le message SMS reçu est… • …envoyé à un serveur Prolix de reconnaissance de langue. • …pré-traité linguistiquement par TiLT (SMS français uniquement) • …envoyé à un serveur CVOX de synthèse vocale anglaise, allemande ou française

  5. L'analyseur de textes TiLT Principales étapes et données :

  6. Adaptations de TiLT au pré-traitement des SMS (1) • Objectif : améliorer/permettre la vocalisation des SMS • "corriger" les formes SMS même écrites phonétiquement • restituer certaines marques formelles importantes (apostrophes, tirets, majuscules etc) • repérer les smileys pour bloquer leur épellation

  7. Adaptations de TiLT au pré-traitement des SMS (2) • Procédés d'écriture : • Abréviations dsl pr staprem / MDR le 6né • Recensement des formes les plus fréquentes (un millier environ) • Association à une/plusieurs formes expansées • Ecriture phonétique et par rébus: on se dbrouille / g ht du kfé • Données de segmentation adaptées (chiffres dans les mots) • Recensement des fomes les plus fréquentes (une centaine) • Modification du phonétiseur pour interprétation dynamique en mode correction phonétique • Troncation des mots : Veuillez m'appeler à ce numér • Correction de la troncature à 1 caractère • Agglutination de mots : jatend son cou 2fil • Adaptation du mode correctif séparation

  8. Adaptations de TiLT au pré-traitement des SMS (3) • Marques émotionnelles : • Smileys : slt ;-> / pq tapel pa :( • Données de segmentation adaptées • Restitution sous forme de balises sonores • Modification expressive de la graphie : g u 16 en fisic suupppeeer • Développement d'un mode de correction tolérant à la répétition de caractères

  9. Adaptations de TiLT au pré-traitement des SMS (4) • Corrections et abréviations génèrent une ambiguïté plus importante qu'en langue standard • L'absence de certaines marques formelles (apostrophes, signes de ponctuation, majuscules, tirets etc.) brouille les repères de la grammaire • Adaptation de la grammaire pour : • Affiner certaines descriptions (questions, mots réduits à une lettre) • Cerner des 'îlots de confiance' (salutations pour l'identification des noms propres etc.) • Décider contextuellement de l'interprétation d'une chaîne

  10. Adaptations de TiLT au pré-traitement des SMS (4) • Mise en forme du message : • Elisions : J n en ai pa l droit • Décidée contextuellement à la restitution du message • Tirets : va t on se boir un verre? • Ajout de tirets dans des configurations syntaxiques particulières • Majuscule en début de nom propre : Bjr jean claude ca va?

  11. Limites de l'approche • Tous les phénomènes ne sont pas traités : • Pas de procédés dynamiques pour tous les mécanismes d'écriture • Difficulté d'interprétation si cumul de procédés (agglutination de mots + écriture phonétique) • Segmentation des unités lexicales impossible en l'absence de séparateur • Difficulté augmente avec la longueur du message • …

More Related