Pseudo In-Domain Data Selection from Large-Scale Web Corpus for Spoken Language Translation

Pseudo In-Domain Data Selection fromLarge-Scale Web Corpus for Spoken Language Translation 作者: 卢世祥彭星源陈振标徐波报告人：李长亮中国科学院自动化研究所数字内容技术与服务研究中心

报告框架 • 任务 • 我们的方法 • 实验 • 结论

为什么需要领域自适应？ • 双语训练语料通过的不同的方式来自不同的领域 • 大量的训练数据中的“主题”或是“领域”是变化的，这样会导致“训练数据”和“当前翻译任务”不匹配 • 集内数据很小，集外数据很大

传统方法 • 数据选择 • 根据集内数据，从集外数据中选择相似的训练数据，运用这些数据训练新的翻译模型 • 主题模型 • 通过主题模型，将集内数据中的先验主题分布转换到集外数据上，进而调整集外短语表的概率分布 • 多领域模型融合 • 将多个不同领域的语料或是模型进行动态或是静态的融合

基于数据选择的领域自适应 • 本文中重点讨论基于数据选择的领域自适应方法 • 传统方法的缺陷 • 都是简单的基于词袋模型数据选择方法（如TF-IDF） • 数据选择模型不准确：没有考虑上下文信息 • 都是单语数据选择模型 • 翻译模型训练数据都是双语数据，单语数据选择模型不全面 • 我们的方法：基于短语的双语数据选择模型

基于短语的双语数据选择方法 • 主要思路: • 从集外双语语料中选择和集内双语语料相似的数据。 • 集外双语语料 • 网络上抓取的大量双语语料，大多来自双语字幕、双语例句，在形式中跟口语领域很相似，约有1100W句对。 • 集内双语语料 • IWSLT提供的双语语料：BTEC和CJK，约38W句对。

基于短语的双语数据选择方法 • 双语语料选取步骤 • Step 1: 启发式抽取集内语料的短语，分别计算每个短语所包含的信息。公式如下： • Step 2:计算集外语料的每个双语句对中所包含的集内短语的信息量，包含的越多，我们认为该句对和集内语料越相似。相似准则中我们同时考虑源语言和目标语言端。

实验 • 基线系统 • 开发集：IWSLT05，测试集: IWSLT07 • 集内双语语料：BTEC 和CJK，约38W句对 • 集外双语语料：网络抓取语料，约1100W句对 • 翻译模型：短语模型基线系统实验结果

选择相似性数据规模实验 • 实验结果 • 开发集：IWSLT05，测试集: IWSLT07 • 集内双语语料：BTEC 和CJK（约38W） • 集外双语语料：1100W 我们发现选取200W句对的时候实验效果最好，接下的实验我们都选取200W句对开发集上相似语料选取规模与翻译性能的实验结果

语料/模型混合下的实验结果 • 语料混合：集内语料（38W）和选取的集外相似语料（200W）混合在一起，训练翻译模型 • 模型混合：集内语料（38W）和选取的集外相似语料（200W）分别训练翻译模型，解码时同时使用两个翻译模型语料混合下的实验结果模型混合下的实验结果

结论 • 为了提高口语翻译性能，我们从网络收集了大量的双语语料，但是直接使用效果不好。 • 我们提出了一种基于短语的双语的数据选择方法，来筛选语料，提高口语翻译性能。 • 解决的问题 • 基于词袋模型数据选择方法没有考虑上下文信息 • 单语数据选择模型不全面 • 性能提升的结果 • 单纯语料选取可以提高1.6BLEU • 语料/模型融合分别可以提高3.9/4.5BLEU

谢谢各位老师和同学！ 本人由于工作原因，没有及时参会，由李长亮博士代我做报告，报告如有疑问的地方请与我本人联系！给大家带来的不便，敬请谅解！再次感谢各位老师和同学，还有李长亮博士！谢谢！卢世祥，邮箱：shixiang.lu@ia.ac.cn

Pseudo In-Domain Data Selection from Large-Scale Web Corpus for Spoken Language Translation

Pseudo In-Domain Data Selection from Large-Scale Web Corpus for Spoken Language Translation

Presentation Transcript

Analysing spoken language in literary texts: a corpus-linguistic approach

Large Language Models in Machine Translation

Information Extraction from Spoken Language

Automatic Synthesis of Microfluidic Large Scale Integration Chips from a Domain-Specific Language

Extracting User Profiles from Large Scale Data

Data Indexing for Stateful , Large-scale Data Processing

Large scale data processing

SPOKEN LANGUAGE CORPUS PROJECT

Spoken Language Identification Using the Speechdat-M Corpus

S TATISTICAL LANGUAGE MODELS FOR CROATIAN WEATHER - DOMAIN CORPUS

Exploiting Large Scale Web Semantics

Web Research - Large-Scale Web Data Analysis

Large Scale Data Integration

Large Scale Data Analytics

large scale data analysis

Workshop: Corpus (1) What might a corpus of spoken data tell us about language?

Interlingua Design for Spoken Language Translation

Large Scale Machine Translation Architectures

Spoken Language Translation