130 likes | 272 Views
UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE ÉCOLE DOCTORALE : Langage et langues. 1. Doctorat en Sciences du langage :. Approches quantitatives de l’extraction de ressources traductionnelles à partir de corpus parallèles. Auteur : Maria ZIMINA-POIROT Thèse dirigée par André SALEM. 26/11/2004.
E N D
UNIVERSITÉ PARIS 3 ─ SORBONNE NOUVELLE ÉCOLE DOCTORALE : Langage et langues 1 Doctorat en Sciences du langage : Approches quantitatives de l’extraction de ressources traductionnelles à partir de corpus parallèles Auteur : Maria ZIMINA-POIROT Thèse dirigée par André SALEM 26/11/2004
2 Plan de l’exposé • Parcours… • Ressources textuelles multilingues • Gestion, accès au contenu linguistique… • Domaines d’application • Textométrie multilingue • Un nouveau courrant de recherches interdisciplinaire… • Bilan sur les utilisations 26/11/2004
3 Parcours • Etudes de lettres(Université Lomonossov, Moscou) • Philologie • Linguistique et langues modernes • Information Technologyfor Linguists(Coventry University, UK) • Travail sur corpus de textes • Première approche de concordanciers parallèles • Approches quantitatives de corpus parallèles(Université de la Sorbonne nouvelle – Paris 3) • …
4 « Il est maintenant possible d ’enregistrer et de manipuler par ordinateur des masses pratiquement illimitées de textes… Compte tenu de l ’évolution récente en informatique, tout indique en effet que les traducteurs pourront bientôt accéder facilement à de très vastes corpus bilingues contenant leurs propres traductions et celles de leurs collègues. » ISABELLE Pierre et WARWICK-ARMSTRONG Susan (1993). « Les corpus bilingues : une nouvelle ressource pour le traducteur ». In Bouillon, P. et Clas, A. (Eds.), La traductique. Montréal : les presses de l’Université de Montréal, pp. 288-306. 26/11/2004
5 Analyse de ressources textuelles multilingues Sources : Web, archives de textes traduits… Outils de gestion : aligneurs, étiqueteurs et analyseurs syntaxiques… Moyens d’accès au contenu linguistique : concordanciers parallèles, mémoires de traduction, lexiques de termes multilingues… Corpus de textes parallèles ou comparables Bi-textes numérisés Visualisations sélectives du contenu linguistique État 3 État 2 État 1 26/11/2004
6 Corpus multilingues: domaines d’application Traduction Lexicographie Terminologie Enseignement des langues étrangères Recherche d’information multilingue … 26/11/2004
TRADUCTOLOGIE Extraction de ressources traductionnelles Alignement automatique TEXTOMÉTRIE Ingénierie multilingue TRAITEMENT AUTOMATIQUEDE CORPUS MULTILINGUES 7 Textométrie multilingue http://www.cavi.univ-paris3.fr/lexicometrica/jadt/textometrie-multilingue/ 26/11/2004
8 Exploration textométrique parallèle (étape 1) volet français volet anglais fonctionnaires 26/11/2004
Exploration textométrique parallèle (étape 2) 9 volet français volet anglais fonctionnaires servants 26/11/2004
10 Analyse des résultats officers (Frq.P.=10) officials (Frq.P.= 7) servants (Frq.P.=31) fonctionnaires (Frq.Tot.=49) 48 volet français volet anglais ? 26/11/2004
11 Univers lexicaux parallèles F A F A F A Travail effectué en collaboration avec William Martinez 26/11/2004
12 Bilan…sur l’extraction de ressources traductionnelles • Notre approche permet d’extraire semi automatiquement et sans faire appel à des savoirs a priori, des correspondances traductionnelles à partir de corpus parallèles. • La textométrie met en évidence des phénomènes traductionnels complexes : • variations contextuelles des traductions, • groupes thématiques d’équivalences lexicales, • constellations lexicales parallèles, etc. • Appuyée sur la représentation topographique de corpus pluri textuels, cette approche permet d’explorer la structure des équivalences lexicales. 26/11/2004
13 Bilan…sur la création d’outils de traitement automatique de corpus multilingues Maquettes de logiciels d’exploration textométrique multilingue ; Procédures et objets informatiques indispensables pour l’acquisition de ressources traductionnelles à base de corpus. 26/11/2004