un dictionnaire multilingue de collocations n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Un dictionnaire multilingue de collocations PowerPoint Presentation
Download Presentation
Un dictionnaire multilingue de collocations

Loading in 2 Seconds...

play fullscreen
1 / 57

Un dictionnaire multilingue de collocations - PowerPoint PPT Presentation


  • 168 Views
  • Uploaded on

Un dictionnaire multilingue de collocations. Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr. Plan. Le projet "Collocations en contexte" Les collocations verbo-nominales Le dictionnaire L'extraction à partir des corpus monolingues

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Un dictionnaire multilingue de collocations' - dianne


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
un dictionnaire multilingue de collocations

Un dictionnaire multilingue de collocations

Amalia Todirascu

LiLPA (Linguistique, Langues, Paroles)

Université de Strasbourg

todiras@unistra.fr

slide2
Plan
  • Le projet "Collocations en contexte"
  • Les collocations verbo-nominales
  • Le dictionnaire
  • L'extraction à partir des corpus monolingues
  • L'extraction de candidats à partir des corpus multilingues alignés
  • Evaluation
  • Conclusion et perspectives
le projet
Le projet
  • objectifs:
    • le développement d'un système d'extraction semi-automatique de collocations à partir des corpus
      • paramétrable pour plusieurs langues(français, roumain, allemand)
      • information contextuelle
    • Création d'un dictionnaire multilingue des collocations
      • Une classe spécifique de collocations
  • projet du réseau "Lexicologie, Terminologie, Traduction", Agence Universitaire pour la Francophonie
    • Université Marc Bloch de Strasbourg (UdS)
    • Université de Stuttgart
    • Académie Roumaine de Bucarest
    • INSA Strasbourg
motivation
Motivation
  • Collocations
    • TAL
    • Traduction
    • Lexicographie
    • Apprentissage d'une langue étrangère
motivation ii
Motivation (II)
  • difficultés
    • choix lexical
      • a lua decizii mais make decisions
      • donner une conférence mais pas tenir une conférence
    • préferences morpho-syntaxiques
      • faire l'objet de, porter atteinte
    • sémantique
      • sens non-compositionnel: faire la tête, make good any damage
      • aspect: entamer une disscusion
      • pragmatique: donner/flanquer + gifle
contexte
Contexte
  • Nombreux travaux sur les collocations
    • propriétés des collocations (Grossmann et Tutin, 2003)
    • dictionnaires monolingues ou bilingues
      • Dico (Polguère 2000, Mel'čuk & al, 1994), LAF (Polguère, 2006)
      • BLF (Verlinde et al., 2003)
      • Dictionnaire combinatoire (Zinglé 2003)
      • Dictionnaire français-allemand (Blumenthal 2007)
      • Dictionnaire danois (Braasch et Olsen 2000)
      • DiCE (Alonso Ramos, 2003)
    • systèmes d'extraction automatique
      • Statistiques (Quasthoff, 1998)
      • Linguistiques (Seretan et al 2004, Seretan 2009, Tutin 2004)
      • Hybrides (Smadja, 1991, Krenn 2000, Heid 1998)
collocations et contextes
Collocations et contextes
  • Approche contextualiste (Halliday, 1985, Williams, 2003)
    • Expressions poly-lexicales, semi-figées, parfois discontinues, ayant un comportement morpho-syntaxique et sémantique propre, imprévisible
      • Lua o decizie/prendre une décisionmais pas*a face o decizie/*faire une décision
      • Faire une conférencemais pas*tenir une conférence
      • pour s'en convaincreest une cooccurrence fréquente de il suffit de
  • Trois points de vue (Gledhill, 2007):
    • cooccurence
    • construction
    • expression
m thodologie
Méthodologie
  • une méthode d'extraction appliquée pour l'allemand (Heid&Ritz 2005, Ritz&Heid 2006)
    • Les collocations sont caracterisées par le contexte
      • Propriétés morpho-syntaxiques
    • L'identification des propriétés à partir des corpus de grande taille (français, allemand, roumain)
      • corpus monolingues
      • corpus multilingues
m thodologie ii
Méthodologie (II)
  • Méthodes d'extraction
    • Monolingue
      • Module statistique + filtres linguistiques
      • Approche symbolique (allemand)
    • Multilingue
      • corpus alignés
  • Validation manuelle des candidats
  • Sélection des informations linguistiques pour le dictionnaire
les corpus
Les corpus
  • Corpus multilingue, aligné: AcquisCommunautaire (ACQ)
    • Documents communs pour les langues étudiées (16 millions mots/langue) : français, allemand, roumain, anglais
    • Étiquetage + lemmatization
      • TreeTagger (Schmid, 1994) pour le français, l'allemand et l'anglais
        • Flemm (Namer, 1994) pour un étiquetage plus fin
      • TTL (Ion, 2007) pour le roumain
    • Alignement propositionnnel et lexical (partiel)
    • Corpus spécialisé
  • Corpus monolingues (journaux, textes littéraires, manuels d'utilisation)
slide12
Plan
  • Le projet "Collocations en contexte"
  • Les collocations verbo-nominales
  • Le dictionnaire
  • L'extraction à partir des corpus monolingues
  • L'extraction de candidats à partir des corpus multilingues alignés
  • Evaluation
  • Conclusion et perspectives
les constructions verbe nom
Les constructions Verbe-Nom
  • Une analyse linguistique sur trois niveaux (Gledhill, 2007) inspirée par le modèle (Halliday 1985):
    • Structure lexico-grammaticale
      • propriétés spécifiques au verbe et au nom (Giry-Schneider 1987, Kearns 1989, Allerton 2002)
    • Fonction syntaxique
    • Rôle sémantique
propri t s du verbe
Propriétés du verbe
  • (Gledhill, 2007)
    • V1 (Equivalence).
      • faire du travail = travailler, mais faire froid n'est synonyme à refroidir
      • A face obiectul/'faire l'objet' = ?obiecta/'faire des objections'
    • V2 (Valence). Les constructions VN comportent des complements directs ou indirects
        • Guvernul nu face faţă situaţiei /’Le gouvernement n'est gère pas la situation’
        • Pierre fait peur à Jean
    • V3 (Passivation)
      • Un résumé de ton livre a été fait par Jean mais pas ??La fuite a été prise
propri t s sp cifiques au nom
Propriétés spécifiques au nom
  • N1(détermination). Le déterminant est absent ou fixe
    • prendre la fuite mais pas ?prendre une fuite
    • a face apel/'faire appel' (le déterminant est absent)
  • N2 (clivage). Le nom d'une VN ne peut pas servir du focus dans une structure clivée (fr)
    • C’est la caisse qu’il a prise mais pas ?C’est la fuite qu’il a prise
  • N3 (expansion). Le nom ne peut pas étre modifié par une clause relative
    • A luat decizia care era necesară /’ Il a pris la décision qui était nécessaire’, mais *A făcut obiectul care era necesar / ‘a fait l’objet qui s’imposait’
  • N4 (conversion). La nominalisation du V n'est pas toujours possible
    • A luat măsuri/'il a pris des mesures' = luarea măsurilor/'la prise de mesures'
    • Il a fait l'hypothèse mais non *son fait de l'hypothèse
quelques propri t s morpho syntaxiques
Quelques propriétés morpho-syntaxiques
  • Figement morpho-syntaxique partiel
    • Propriétés du nom: nombre, genre, cas
    • Propriétés du verbe: diathèse, temps
      • La commission a fait appelaux experts… (fr)
        • Absence du déterminant
        • Complément indirect: préference pour 'à'
        • Préférence pour le singulier
      • Statele membre fac faţăsituaţiei…/

'Les états membres font face à la situation…' (ro)

        • l'absence du déterminant
        • préférence pour le singulier
        • Complément indirect : préference pour le datif
constructions verbe nom ii
Constructions Verbe-Nom (II)
  • Les classes (Todirascu et Gledhill, 2008)
    • Prédicateur complexe (1)
      • construction Verbe+Nom qui joue le rôle de prédicat
        • Ex. faire l'objet, a ţine cont/'tenir compte', Gebrauch machen/'faire usage de…'
      • Figement morpho-syntaxique élévé
      • Complément de portée
    • Prédicat+complément (2)
        • Ex. prendre des mesures/a lua măsuri/Maβnahmen ergreifen
      • Variabilité morpho-syntaxique (modifieurs, passif/actif)
      • compositionalité
structure lexicale
Structure lexicale

Prédicat complex vs. prédicateur complexe (Gledhill 2007)

le nom d'un prédicat complexe peut être passivisé

Paul fait un gateau/ Le gâteau a été fait par Paul.

S P C

Agent Process Range

- le nom d'un predicateur complexe ne peut pas être passivisé

El şi-a luat zborul/*Zborul a fost luat

'il lui a pris vol-DET/Vol-DET a été pris'

S P C

Ben Process Range

le complément du prédicateur complexe peut être relativisé

we had a lookat the screenshots...

the screenshots which we had a look at were interesting.

propri t s s mantiques
Propriétés sémantiques
  • Le procès est exprimé par la phrase:
      • Les participants: agent, affecté, bénéficiaire etc;
      • Les non-participants: portée, temps, instrument, place…
  • La portée: les éléments qui précisent le procès (Halliday & Matthiessen 2004)
      • Jean fait un gateau.
      • Agent(Acteur) Procès Matériel Médium(Affecté)
      • Jean fait une remarque.
      • Médium(Annonceur)Procès Mental(Communicatif) Portée
      • L’examen fait peur aux étudiants.
      • Phénomène Procès Mental Portée Médium
d autres classes
D'autres classes
  • Simples co-occurences V-N (prédicat+complément)
  • Nom+verbe au participe
    • articolul adoptat/ l’article adopté
  • Sujet+prédicat
    • Le présent article ne vise que le commerce et la distribution des produits toxiques conditionnés qui sont destinés
  • Prédicat+complément circonstanciel
    • La référence à cette norme figure en annexe.
slide23
Plan
  • Le projet "Collocations en contexte"
  • Les collocations verbo-nominales
  • Le dictionnaire
  • L'extraction à partir des corpus monolingues
  • L'extraction de candidats à partir des corpus multilingues alignés
  • Evaluation
  • Conclusion et perspectives
quels objectifs
Quels objectifs?
  • Production de textes
  • Compréhension de textes
  • Utilisations possibles
    • Systèmes TAL (analyse et génération)
    • Aide à la traduction
    • Apprentissage d'une langue etrangère
quels fonctions
Quels fonctions?
  • rechercher les collocations dans une langue
    • par la base
    • par le collocatif
    • recherche par l'ensemble des élements
  • recherches des exemples d'utilisation
  • recherches multilingues
    • retrouver les equivalents de traduction
    • les propriétés morpho-syntaxiques spécifiques
quelques propri t s
Quelques propriétés
  • Les lemmes du nom et du verbe
  • les propriétés contextuelles :
    • Les propriétés du nom (détermination, nombre, cas…)
    • Les propriétés du verbe (actif/passif, temps, mode,…)
  • Les informations collocationnels
    • prépositions
    • la valence
      • les propriétés des arguments (le cas, le nombre de ces arguments)
    • exemples
quels candidats
Quels candidats?
  • Tri manuel des listes fournies par une extraction automatique
    • candidats identifiés à partir des corpus monolingues
    • équivalents de traduction obtenus dans les 3 langues
      • obtenus à partir des corpus alignés
  • Entrées trilingues
    • classes: prédicats et prédicateurs complexes
slide28
Plan
  • Le projet "Collocations en contexte"
  • Les collocations verbo-nominales
  • Le dictionnaire
  • L'extraction à partir des corpus monolingues
  • L'extraction de candidats à partir des corpus multilingues alignés
  • Evaluation
  • Conclusion et perspectives
l extraction partir des corpus monolingues
L'extraction à partir des corpus monolingues
  • Module statistique - détection des paires de mots non adjacents (Stefanescu et al, 2006):
    • indépendant de langue
    • liste de candidats Verbe+Nom triée par LL et leurs contextes
  • Filtrage à base de patrons morpho-syntaxiques
  • Exclusion manuelle des certains classes (Todirascu et Gledhill 2008)
      • Prédicat+Sujet
      • Prédicat+Complément Circonstaciel
slide30

avea vedere dist=2 LL=108759.176

--------------------------------------------------

având/vg/avea în/s/în vedere/nsrn/vedere 17786

avut/vp/avea în/s/în vedere/nsrn/vedere 130

aibă/v3/avea în/s/în vedere/nsrn/vedere 128

avea/vn/avea în/s/în vedere/nsrn/vedere 51

au/va3p/avea în/s/în vedere/nsrn/vedere 41

au/v3/avea în/s/în vedere/nsrn/vedere 31

având/vg/avea in/nsn/in vedere/nsrn/vedere 11

avea/v3/avea în/s/în vedere/nsrn/vedere 6

aibă/v3/avea o/tsr/un vedere/nsrn/vedere 4

avea/vn/avea o/tsr/un vedere/nsrn/vedere 1

  • propriétés morpho-syntaxiques invariables
  • fréquences des propriétés: sg (100%), prep (în 97%),
  • déterminant (null 99%, indéfini 1%)
slide31

contenir référence dist=2 LL=4658.77015127078 666

--------------------------------------------

contiennent/Vmip3p/contenir une/da3sf/un référence/Ncfs/référence 642

contenir/Vmn/contenir une/da3sf/un référence/Ncfs/référence 4

contiennent/Vmip3p/contenir une/da3sf/un référence/Ncfs/référence 4

contient/Vmip3s/contenir une/da3sf/un référence/Ncfs/référence 4

contient/Vmip3s/contenir des/Sp+p/du/ références/Ncfp/référence 3

contienne/Vmsp3s/contenir une/da3sf/un référence/Ncfs/référence 2

contient/Vmip3s/contenir/ les/da3p-/le références/Ncfp/référence 2

  • Variabilité morpho-syntaxique
  • fréquences des propriétés: sg (98%), pl (2%), prep (null),
  • déterminant (défini 1%, indéfini 99 %)
filtrage i
Filtrage (I)
  • Prédicateur complexe
    • Utiliser les contextes et les propriétés morpho-syntaxiques
      • Exemple de filtres (ro):
        • «VNSRY *{1,3} NxOY»
          • NSRY = substantif défini (sg), accusatif/nominatif;
          • NxOY = substantif défini, génitif/datif;
          • {1,3} = entre 1 et 3 mots entre le complément direct et indirect
        • 98,8% des contextes
        • Exemples: a menţine părerea/'maintenir son opinion', aface dovada/'faire preuve de‘;
filtrage ii
Filtrage (II)
  • Prédicat+complément
    • Préférences pour une propriété (cas, nombre): plus de 85%
    • Testes: filtres pour le passif (fr):
      • « Det:art Nom {2,3}* Ver:pperpar»
        • Nom = substantif, accusatif/nominatif;
        • Det:art = article défini, sg ou pl;
        • {2,3} = entre 1 et 3 mots entre le nom et le verbe
      • Exemples: prendre des mesures,donner un avis, faire des commentaires ;
slide34
Plan
  • Le projet "Collocations en contexte"
  • Les collocations verbo-nominales
  • Le dictionnaire
  • L'extraction à partir des corpus monolingues
  • L'extraction de candidats à partir des corpus multilingues alignés
  • Evaluation
  • Conclusion et perspectives
l extraction multilingue i
L'extraction multilingue (I)
  • Corpus alignés (ACQ): fr, de, en, ro (Ceausu et al, 2006)
    • au niveau propositionnel
    • Alignements bilingues: de-en, fr-en, ro-en
    • 64352 phrases alignés 1-1
  • Alignement lexical partiel
    • Anglais: langue pivot
    • Corpus étiquétés et lemmatisés, en format XCES
exemple
Exemple
  • <s num="980" lang="fr">3. Un état membre concerné peut demander à la Commission d' examiner, dans un délai de deux mois après qu' un transporteur aérien a informé le coordonnateur de son intention de faire usage de la souplesse prévue à l' article 8 paragraphe 4 , si les dispositions du présent article sont respectées.</s>
  • <s num="980" lang="en">3. A Member State concerned may request the Commission to investigate the application of this Article within two months of an air carrier informing the coordinator of its intention to use the flexibility provided for in Article?8 ( 4 ).</s>
  • <s num="980" lang="ro">( 3 ) Un stat membru interesat poate solicita Comisiei să analizeze , în decurs de două luni de la data la care transportatorul aerian a informat coordonatorul cu privire la intenţia sa de a face uz de flexibilitatea prevăzută în art. 8 alin. ( 4 ) , dacă se respectă dispoziţiile prezentului articol.</s>
l extraction multilingue ii
L'extraction multilingue (II)
  • les outils d'alignement lexical:
    • COWAL (Tufis et al, 2006) pour l'alignement ro-en
      • Règles héuristiques
        • mots contenus
        • étiquettes
        • entités nommées
        • position
    • GIZA++ (Och et Ney, 2003) pour l'alignement des corpus de-en et fr-en
  • Transfer des alignements lexicaux (Tufis et Koeva, 2007) : fr-ro, ro-fr, fr-de, de-fr, ro-de, de-ro
  • Extraction des listes d'équivalents de traduction pour chaque paire de langues (l'outil ColTrans): ro-fr, fr-ro
l alignement lexical i
L'alignement lexical (I)
  • Validation manuelle de l'alignement à l'aide de l'éditeur MtKit (Tufis et al, 2006)
    • un corpus de 1000 phrases pour les corpus fr-en, de-en, ro-en;
    • Phrases de longueur et structure variables (20 a 100 mots);
    • Methodologie d'alignement inspiré par le projet Blinker (Melamed, 2000)
      • annotation des classes ouvertes (N, Adj, V,...);
      • bonne couverture des mots grammaticaux
      • unités polylexicales
erreurs d alignement
Erreurs d'alignement
  • Problèmes linguistiques
    • Termes du domaine
    • Structures syntaxiques différentes
      • <s num="750" lang="fr">tous droits d' importation pour les réactifs pour la détermination des groupes tissulaires
      • <s num="750" lang="ro">orice drepturi de import a reactivilor utilizaţi pentru determinarea grupelor tisulare
    • Ordre de constituents
      • <s num=996>l' Observatoire doit réparer , conformément aux principes généraux communs aux droits des états membres , les dommages…</s>
      • <s num=996>în concordanţă cu principiile generale comune legislaţiilor statelor membre , Centrul trebuie să compenseze orice pierdere provocată
erreurs d alignement ii
Erreurs d'alignement (II)
  • Liens multiples
    • Groupe verbal: infinitif (fr) traduit par un subjonctif (ro)
      • exercer | să recurgă
    • Groupe nominal : le determinant défini est un suffixe rajouté au nom (en roumain)
      • la Comission | Comisiei
    • Aggregats (préposition+déterminant)
      • aux prescriptions | dispoziţiile
    • collocations
      • préposition non aligné
        • la Commission n'a pas pris de mesures raisonnables
        • Comisia nu a luat măsurile necesare
extraction de candidats
Extraction de candidats
  • l'outil ColTrans
    • les lemmes (verbe et nom)
    • la direction de recherche fr->ro, ro->fr
    • le corpus aligné au niveau lexical
  • résultats croisés
    • erreurs d'alignement
    • erreurs d'étiquetage
slide42
Plan
  • Le projet "Collocations en contexte"
  • Les collocations verbo-nominales
  • Le dictionnaire
  • L'extraction à partir des corpus monolingues
  • L'extraction de candidats à partir des corpus multilingues alignés
  • Evaluation
  • Conclusion et perspectives
r sultats de l extraction
Résultats de l'extraction
  • évaluation sur 1000 phrases
    • malgré les filtres, beaucoup de candidats qui sont des simples co-occurences (prédicat+complément direct, prédicat+circonstanciel)
      • fr
        • environ 38% de candidats éliminés par filtrage
      • ro
        • 36,7% candidats éliminés par filtrage
r sultats de l extraction ii
Résultats de l'extraction (II)
  • évaluer sur l'ensemble du corpus
    • les premiers 1000 noms les plus fréquents dans l'Acquis (fr,ro)
      • extraire les verbes qui co-occurent
      • beaucoup de noms spécifiques au domaine (fr,ro)
        • comission/comisie, article/articol, paragraphe/paragraf, directive/directivă
      • pas beaucoup de candidats de la classe 1 ou 2
      • quelques noms
        • fr
          • lieu (avoir, donner), vigueur (entrer, mettre), compte (prendre, tenir)
        • ro
          • parte (face) vigoare (intra) et măsură (lua, anula) 
r sultats
Résultats

Les 10 classes de constructions et coocurrences V-N et leurs répartition sur les 1000 premiers candidats

extraction d quivalents i
Extraction d'équivalents (I)
  • Extraire les listes d'équivalents de traduction (études des alignements fr-ro, ro-fr):
    • Prédicateurs complexes traduits par des prédicateurs complexes dans la langue source
      • fait/Vmip3s/faire l'/Da3ms/le

objet/Nc-s--/objet=face/Vmip3s/face obiectul/Ncmsry/obiect

      • dă/Vmip3s/da naştere/Ncfsrn/naştere=

donnerait/Vmic3s/donner lieu/Ncms--/lieu

    • Prédicats+compléments équivalents dans les deux langues
      • émis/Vmps-sm/émettre un/Da-ms/un avis/Nc-s--/avis=emis/Vmp--sm/emite avizul/Ncmsry/aviz
extraction d quivalents ii
Extraction d'équivalents (II)
  • Prédicateur complexe traduit par un verbe ou un nom
      • a/Vaip3s/avea reparat/Vmps-sm/repara pagubele/Ncmp--/pagubă=a/Vaip3s/avoir dédommagé/Vmps-sm/dedommager
      • donnent/Vmip3p/donner lieu/Nc-s--/lieu =generează/Vmip3s/genera
      • aducă/Vmsp3/aduce atingere/Ncfsrn/atingere=préjudice/Nc-s--/préjudice
extraction d quivalents iii
Extraction d’équivalents (III)
  • Entrées multiples
    • Plusieurs équivalents
      • A face referire = faire référence à, faire mention, définir, mentionner
    • plusieurs sens
      • dă/Vmip3s/da naştere/Ncfsrn/naştere = donner lieu
        • Conflits, débats, interventions
      • dă/Vmip3s/da naştere/Ncfsrn/naştere=accoucher
le dictionnaire
Le dictionnaire
  • 150 entrées/langue (en cours)
  • entrées trilingues
  • possibilité d'extensions vers d'autres langues (l'anglais)
  • informations sur la fréquence de chaque propriété (si > 85%)
  • possibilité de représenter les cas d'équivalence entre collocations et unités lexicales simples
  • interopérabilité de données
    • format XML, DTD définie
slide52
<?xml version="1.0" encoding="utf-8"?>

<collocations>

<entry id="1">

<te lang="fr">

<construction>tenir compte</construction>

<v_lemma>tenir</v_lemma>

<v_spec>

<form></form><active>oui</active>

</v_spec>

<prep>null</prep>

<n_lemma>compte</n_lemma>

<n_spec>

<det freq="90%">null</det>

<number freq="80%">sg</number>

<modifier freq="76%">null</modifier>

<case>nospec<case>

</n_spec>

<colloc_spec>

<c_spec>

<required_args case="Acc" prep="de">OD</required_args>

<lexical_head></lexical_head>

<c_spec>

<colloc_type>prédicateur complexe</colloc_type>

<examples>la commission a tenu compte du rapport de l'expert…

</examples>

</colloc_spec>

</te>

<te lang="ro"></te>

<te lang="de"></te>

</entry>

</collocations>

slide53
<?xml version="1.0" encoding="utf-8"?>

<collocations>

<entry id="1">

<te lang="ro">

<construction>lua considerare</construction>

<v_lemma>lua</v_lemma>

<v_spec>

<form></form><active>oui</active>

</v_spec>

<prep>în</prep>

<n_lemma>considerare</n_lemma>

<n_spec>

<det freq="98%">null</det>

<number freq="100%">sg</number>

<modifier freq="97%">null</modifier>

<case>nospec<case>

</n_spec>

<colloc_spec>

<c_spec>

<required_args case="Acc" det="déf">OD</required_args>

<lexical_head></lexical_head>

<c_spec>

<colloc_type>prédicateur complexe</colloc_type>

<examples>comisia a luat în considerare…

</examples>

</colloc_spec>

</te>

<te lang="fr"></te>

<te lang="de"></te>

</entry>

</collocations>

conclusion et perspectives
Conclusion et perspectives
  • Identification des propriétés morpho-syntaxiques spécifique pour chaque langue
  • Définition des filtres linguistiques
    • quelques classes de collocations
  • validation manuelle des données extraites
  • Utilisation de corpus alignés pour alimenter le dictionnaire
    • équivalents de traduction
conclusion et perspectives ii
Conclusion et perspectives (II)
  • enrichir le dictionnaire avec d'autres entrées
  • transformation vers le format LMF
  • développement d'interfaces Web pour interroger le dictionnaire
  • utilisation du dictionnaire comme ressource pour un système de traduction automatique factorisé fr-ro
  • utilisation du corpus annoté syntaxiquement pour automatiser le remplissage du dictionnaire
r ferences
Réferences

BRAASCH, (Anna), OLSEN (Sussi) : 2000, "Formalised Representation of Collocations in a Danish Computational Lexicon", in Heid (U.) et al., eds. The Ninth EURALEX Congress, Proceedings, Vol. II, (Stuttgart), pp. 475-488.

CEAUSU (Alin), ŞTEFANESCU (Dan) and TUFIS (Dan) : 2006, « Acquis Communautaire Sentence Alignment using Support Vector Machines», in Proceedings of LREC 2006, (Genoa).

GROSSMANN (Francis), TUTIN (Agnès), dir. : 2003, « Les collocations: analyse et traitement», Numéro special : « Travaux et Recherches en Linguistique Appliquée ».

HAUSMANN (Franz Josef) : 2004, « Was sind eigentlich Kollokationen? », in STEYER (K), eds., Wortverbindungen – mehr oder weniger fest, pp. 309-334

HALLIDAY (Michael) : 1985, An Introduction to Functional Grammar, (London, Arnold).

HEID (Ulrich) and RITZ (Julia) : 2005, « Extracting collocations and their contexts from corpora», in Actes de Conference on Computational Lexicography and Text Research, (Budapest).

r f rences ii
Références (II)

POLGUERE (Alain) : 2006, « Structural properties of Lexical Systems: Monolingual and Multilingual Perspectives», in Proceedings of the Workshop on Multilingual Language Resources and Interoperability (COLING/ACL 2006, Sydney), pp. 50-59.

RITZ (Julia) and HEID (Ulrich) : 2006, « Extraction tools for collocations and their morphosyntactic specificities», in Proceedings of the Linguistic Resources and Evaluation Conference, (Genova).

SERETAN (Violeta), NERIMA (Luka) and WEHRLI (Eric) : 2004, « A tool for multi-word collocation extraction and visualization in multilingual corpora», in Proceedings of EURALEX’2004, (Lorient, France), vol. 2, pp.755-766

TUTIN (Agnès) : 2004, « Pour une modélisation dynamique des collocations dans les textes», in Actes du congrès EURALEX’2004, (Lorient, France), vol. 1, pp. 207-221.

TODIRASCU(Amalia), Heid (Ulrich), Ştefănescu (Dan), Tufiş(Dan), Gledhill(Christopher), Weller(Marion), Rousselot (François): 2008, « Vers un dictionnaire de collocations multilingue », Cahiers de linguistique, Université de Louvain