1 / 14

Hacia la gestión automática de contenidos multilingües en XLIFF

Hacia la gestión automática de contenidos multilingües en XLIFF. Objetivos gestión de contenidos multilingües para publicación en web reutilización de traducciones (memorias de traducción) creación de fondos: terminología, texto alineado herramientas: segmentadores, alineadores, filtros

faith
Download Presentation

Hacia la gestión automática de contenidos multilingües en XLIFF

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Hacia la gestión automática de contenidos multilingües en XLIFF • Objetivos • gestión de contenidos multilingües para publicación en web • reutilización de traducciones (memorias de traducción) • creación de fondos: terminología, texto alineado • herramientas: segmentadores, alineadores, filtros • filtros: formatos TXT, HTML, XML, TMX, XLIFF • control de flujo: redacción, traducción, publicación Albacete 2002, CLIP

  2. X-Flow: Antecedentes • Corpus LEGE-Bi (1995-2002) • Boletines bilingües (~3 M. palabras, proyectos LEGEBiDUNA) • Proyecto XTRA-Bi (2000-2001) • Segmentación y etiquetado de boletines • SGML  XML, TMX • Proyecto XML-Bi (2001-2002) • Recursos (LEGE-Bi+, servidor SARE-Bi, herramientas) • Procedimientos (EFQM) • Proyecto X-Flow (2002-2003) Albacete 2002, CLIP

  3. XTRA-Bi: Extracción automática de entidades bitextuales para software de traducción asistida • Compilación de corpus (extracción) • Herramientas de captura de webs (Teleport Pro, HTTrack) • Boletines Oficiales (BOG, BOB, BOTHA, BON, BOPV) • Prensa diaria bilingüe Albacete 2002, CLIP

  4. XTRA-Bi: Extracción automática de entidades bitextuales para software de traducción asistida • Segmentación en TEI/XML • Disparidad de formatos originales (Word, PDF, HTML, TXT) • Filtros y segmentadores (ad-hoc y generales) • Conversión a XML/TEI P4: subset propio de TEI (TEI-Bi) Albacete 2002, CLIP

  5. XTRA-Bi: Extracción automática de entidades bitextuales para software de traducción asistida • Alineación y reordenación en TMX • Párrafo como unidad de segmentación • Índice de alineación automática: 99% • Posibilidad de alineación de unidades menores (oraciones y nombres propios) con menor fiabilidad • Conversión a TMX (Transit, WordFast, Déjà-Vu, etc.) Albacete 2002, CLIP

  6. Ejemplo de formato TMX: <tu tuid="0100227-p11”> <prop type="project">XTRA-Bi: GAO-BOG</prop> <tuv lang="ES”> <seg>Asimismo, se hace saber que este acuerdo pone fin a la vía administrativa... </seg></tuv> <tuv lang="EU"> <seg>Era berean, erabaki hau behin betikoa da eta amaiera ematen dio administrazio bideari... </seg></tuv> </tu> Albacete 2002, CLIP

  7. Albacete 2002, CLIP

  8. XML-Bi: Análisis del flujo documental multilingüe • diseño de procedimientos de optimización de flujo documental para subsanar desfases en la traducción y publicación plurilingüe • distintas fases del ciclo de vida de la documentación, desde concepción inicial hasta la distribución, pasando por la redacción, corrección, traducción, revisión, publicación, archivación, recuperación, extracción y reutilización • estudio de campo: Universidad de Deusto Albacete 2002, CLIP

  9. XML-Bi: Análisis del flujo documental multilingüe • Desarrollos: • Estudio de campo (corpus UD-Bi) • Procedimientos operativos EFQM • Compilación e instalación de corpus LEGE-Bi en intranet (SARE-Bi) • Diseño y adaptación de segmentadores para corpus en formato TEI/XML y de filtros para conversión a TMX • Integración en plataforma web: www.deli.deusto.es/SareBi Albacete 2002, CLIP

  10. SARE-Bi: Gestor de documentación multilingüe sobre XML/TEI • Opciones para el servidor / gestor de corpus: • TEI/XML + XSLT + JavaScript • XML Query Engine, SQL, etc. • XML=Web, web-servers: • Microsoft .Net • WebSphere • ZOPE: • Open Source (www.zope.org) • Code&Syntax (www.codesyntax.com) • Localizer (www.j-david.net/localizer/) Albacete 2002, CLIP

  11. LEGE-Bi <teiHeader>, <front> • <teiHeader> <fileDesc> <encodingDesc> <classDecl> <taxonomy>...</taxonomy> • <text> <front> <DocDate>...</DocDate> <DocAuthor>...</DocAuthor> <head type="place">...</head> <head type"DepSup">...</head> <head type"DepInf">...</head> Albacete 2002, CLIP

  12. X-Flow: Gestor de contenidos multilingüe sobre XLIFF • Objetivos • seleccionar y organizar utilidades informáticas de apoyo a la importación y exportación de contenidos multilingües y de memorias de traducción (sobre los estándar TMX y TBX) • desarrollar un sistema de control de flujo de textos y traducciones basado en los estándar TMX y XLIFF • proporcionar herramientas para el mantenimiento actualizado de contenidos multilingües adaptadas a estos formatos. Albacete 2002, CLIP

  13. ¿Qué es XLIFF? • XML Localisation Interchange File Format: • Formato para intercambio de archivos de localización. • Su definición comenzó a finales de 2000 (de la mano de Oracle, Novell, Sun y IBM/Lotus). • Basado en Open Tag, parecido a TMX con innovaciones para el intercambio de información en web. • Primer borrador de mayo de 2001, última especificación de abril de 2002. • Se anuncia como una nueva especificación XML para intercambio de datos para web multilingües. Albacete 2002, CLIP

  14. Referencias • TEI: http://www.tei-c.org • TMX: http://www.lisa.org/tmx • Transit: http://www.star-ag.ch/ • XLIFF: http://www.opentag.com/xliff.htm • DELi: http://www.deli.deusto.es Albacete 2002, CLIP

More Related