1 / 15

Graphes d'annotation – une introduction

Graphes d'annotation – une introduction. Claude Barras, LIMSI-CNRS figures et exemples de Steven Bird et al ., Linguistic Data Consortium University of Pennsylvania http://www.ldc.upenn.edu/AG. Un exemple d'interface de transcription. Format des données associées.

scout
Download Presentation

Graphes d'annotation – une introduction

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Graphes d'annotation – une introduction Claude Barras, LIMSI-CNRS figures et exemples de Steven Birdet al., Linguistic Data Consortium University of Pennsylvania http://www.ldc.upenn.edu/AG

  2. Un exemple d'interface de transcription C. Barras - Graphes d'annotation

  3. Format des données associées <?xml version="1.0" encoding="ISO-8859-1"?> <!DOCTYPE Trans SYSTEM "trans-13.dtd"> <Trans scribe="cb" audio_filename="dormeur" version_date="050208"> <Topics><Topic id="to1" desc="Le Dormeur du val"/></Topics> <Speakers><Speaker id="spk1" name="Serge Reggiani"/></Speakers> <Episode> <Sectiontype="report"topic="to1" startTime="0" endTime="74.0"> <Turn speaker="" startTime="0" endTime="7.41"> <Background type="music" level="high"time="0"/> </Turn> <Turnspeaker="spk1" startTime="7.41" endTime="74.0"> <Sync time="7.41"/> C'est un trou de verdure où chante une rivière <Sync time="10.891"/> Accrochant follement aux herbes des haillons <Sync time="14.714"/> D'argent : où le soleil, de la montagne fière, <Sync time="19.138"/> Luit : c'est un petit val qui mousse de rayons. <Sync time="24.38"/> Un soldat jeune, bouche ouverte, tête nue, <Sync time="29.671"/> … C. Barras - Graphes d'annotation

  4. Nombreux autres environnements… • BAS Partitur • www.phonetik.uni-muenchen.de/Bas/ • CHILDES/CHAT • childes.psy.cmu.edu • DAMSL • www.cs.rochester.edu/research/cisd/resources/damsl/ • GATE • gate.ac.uk • LDC (TIMIT, Switchboard, SGML) • www.ldc.upenn.edu • TEI, CES • www.tei-c.org • www.cs.vassar.edu/CES/ C. Barras - Graphes d'annotation

  5. base dedonnées SGML Résultat, un bazar de formats et d'outils textetabulé C. Barras - Graphes d'annotation

  6. Cadre unificateurpour les annotations linguistiques • Problèmes • interopérabilité • adaptation des données à de nouveaux domaines de recherche • développement d'outils flexibles et génériques • Diagnostic • les différents formats de données masquent des similitudes structurelles dans toutes les annotations linguistiques • A formal framework for linguistic annotation,S. Bird & M. Liberman, ICSLP'98/SpeechCom'01 C. Barras - Graphes d'annotation

  7. Annotation linguistiqueappliquée à des signaux • Il faut préciser • Le signal source annoté • Larégion particulière du signal sur laquelle doit porter l'information • Lecontenu de l'annotation appliquée à cette portion du signal Signal Region Annotation C. Barras - Graphes d'annotation

  8. transcription: C'est un trou de verdure… transcription: Accrochant follement… 0 0.00 1 7.41 2 10.9 3 14.7 15 74.0 speaker:Serge Regianni background: music Le modèle des graphes d'annotation (AG) • Cas des signaux mono-dimensionnels • région = intervalle entre deux nœuds • annotation = arc étiqueté entre deux nœuds • l'arc porte des champs d'information • (couples attributs/valeurs) • graphe d'annotation = une collection d'annotations C. Barras - Graphes d'annotation

  9. W: C' W: est W: un W: trou 1 7.41 1-1 1-2 1-3 2 10.9 Définition des graphes d'annotation • Les nœuds peuvent être ancrés dans le signal • i.e. ils sont associés à un instant précis dans le signal • pour d'autres cette information est inconnue ou inutile • Définition formelle • graphe acyclique orienté, étiqueté,et partiellement ou totalement ancré • tout nœud est borné par le graphe entre des nœuds ancrés • Cadre unificateur • séparation du niveau physique et logique • pas d'hypothèse a priori sur le sens des étiquettes C. Barras - Graphes d'annotation

  10. Architecture à 3 couches Graphes d'annotation textetabulé C. Barras - Graphes d'annotation

  11. Caractéristiques des AG • Pas de contrainte dans la structure des graphes • chevauchements, discontinuités… • Evenements instantanés ? • pas de boucle sur un nœud (graphe acyclique) • possibilité de créer 2 nœuds renvoyant au même instant • Annotations non temporelles • utilisation e.g. des conventions Dublin Core /S 1 2 3 je oui C. Barras - Graphes d'annotation

  12. Le cas d'un dialogue • Il existe des parties de parole superposée • comment associer les transcriptions à un locuteur donnée? • Hiérarchie implicite • structure du graphe • regroupe les arcs portés par les mêmes noeuds • Hiérarchie explicite • classes d'équivalence • utilise un identifiant associé aux arcs spk: Client; A trans: Bonjour Monsieur; A trans: Je voudrais des informations sur …; A 1 2 4 5 3 trans: Bonjour Madame; B spk: Agent; B C. Barras - Graphes d'annotation

  13. AG Interchange Format <AGSet id="dormeur" version="1.0"> <Metadata> <dc:title>Le dormeur du Val</dc:title> </Metadata> <Timeline id="T1"> <Signal id="S1" mimeClass="audio" mimeType="wav" xlink:href="dormeur.wav"/> </Timeline> <AG id="t1" type="transcription" timeline="T1"> <Anchor id="A0" offset="0.00"/> <Anchor id="A1" offset="7.41"/> <Anchor id="A2" offset="10.89"/> <Anchor id="A3" offset="14.71"/> … <Annotation id="Ann1" type="speaker" start="A1" end="A15"> <Feature name="label">Serge Reggiani</Feature> </Annotation> <Annotation id="Ann2" type="transcription" start="A1" end="A2"> <Feature name="label">C'est un trou de verdure où chante une rivière</Feature> </Annotation> <Annotation id="Ann3" type=" transcription" start="A2" end="A3"> <Feature name="label">Accrochant follement aux herbes des haillons</Feature> </Annotation> … C. Barras - Graphes d'annotation

  14. code open source sur http://agtk.sourceforge.net/ code en C++, interface avec Tcl/Tk et Python plateformes Unix et Windows support de différents formats de données (xlabel, TIMIT, Penn Treebank, Switchboard, BAS Partitur, CSV, LDC Callhome, AIF level 0) Implémentation par le LDC C. Barras - Graphes d'annotation

  15. Perspectives et bilan • Extensions • généralisation à des sources non-linéaires (images, annotations): ATLAS proposé avec le NIST • traitement efficace de requêtes dans un graphe d'annotation • Bilan sur les graphes d'annotation • un cadre formel, simple et clair • des librairies logicielles, pas nécessairement un format de données spécifique • permet de factoriser l'effort sur la structure de données • la signification des annotations reste à la charge de l'application C. Barras - Graphes d'annotation

More Related