320 likes | 495 Views
Яков Длугач. Бригадир, отдел лингвистических технологий. Перестановки в машинном переводе. План. Зачем? Что и куда? Как? Ну и как?. Зачем?. Порядок слов в разных языках отличается но Модель канала с шумами (Noisy channel) подразумевает последовательный перевод.
E N D
Яков Длугач Бригадир, отдел лингвистических технологий Перестановки в машинном переводе
План Зачем? Что и куда? Как? Ну и как?
Зачем? Порядок слов в разных языках отличается но Модель канала с шумами (Noisy channel) подразумевает последовательный перевод
Пример (из «Вавилонского разговорника»)
Пример (из «Вавилонского разговорника») Кто Wer Вы sind такой Sie , und и was что möchte мне ich от von Вас Sie нужно ? ?
Phrase-based модели часто правильно обрабатывают «локальные» перестановки
Перестановки в phrase table У коротких фраз больше вероятность встретиться в параллельном корпусе. sindSie Вы такой vs. мне от вас нужно möchteich von Sie
Distortion (post-reordering) Позволяет переставлять фразы при переводе (по языковой модели) Сильно замедляет процесс перевода Плохо учитывает «окружающие» конструкции (например, “ne … pas”)
Что и куда? Pre-reordering (preordering) Куда? Типы моделей
Preordering Идея – поменять порядок слов до перевода Особенно нужно для языков с разной типологией порядка слов (например, SVO и OSV) Улучшает автоматические выравнивания (GIZA++) When you reach my age, you will not look as good. When my age you reach, look as good you will not.
Куда? reordering Обучение Предложение Предложение c изменённым порядком слов Параллельное предложение Предложение Предложение c изменённым порядком слов Перевод Перевод
Как? Описание модели Обучение Декодирование
Немного про индийский кинематограф series binding require skill much does not.
Описание модели: синхронные контекстно-свободные грамматики • Были придуманы для компиляторов • Используются в синтаксическом SMT, а также для построения семантических зависимостей [S] [X] [NP;1] [X;1] [VP;2] [X;2]
Обучение Как?
Дерево как набор помеченных отрезков Согласованный Несогласованный
Реализация Основной инструмент – утилиты фреймворка Moses: extractи score Модель языка – IRSTLM
Декодирование Как?
Алгоритм Кока-Янгера-Касами (CYK) Для каждой группы слов, следующих друг за другом, строим возможные «гипотезы» Начинаем с однословных групп Увеличиваем размер групп динамическим программированием
Построение гипотез S X X Гипотеза №1 Гипотеза№2 X X X X X VP X X X X X X X X X X VP X NP X X X X NP X NN VBG VBZ RB VB JJ NN . l t . s s e h g l o i r e e c n k i i n i o u u r s d d e q m n s e i b r
S X X X X X X X VP X X X X X X X X X X VP X NP X X X X NP X NN VBG VBZ RB VB JJ NN . l t . s s e h g l o i r e e c n k i n i o i u u s r d d e q m n s e i b r Правило склейки (gluing)
Реализация “Chart” decoder – имеет реализацию в Moses Вывод пословного выравнивания Настройка весов – MERT или batch-MIRA
Ну и как? Проверили на 3 языковых направлениях: Английский-Фарси, Английский-Итальянский и Английский-Урду Использовали данные RSMT12. Baseline: не менять порядок слов Соревновались с двумя другими командами
Метрики BLEU Kendall τ-distance Расстояние Хэмминга
Лексические модели TSP (задача коммивояжёра) –“A Word Reordering Model For Improved Machine Translation” (Visweswariah et al., 2011)
Яков Длугач Бригадир jacob@yandex-team.ru Спасибо http://yadi.sk/d/RVn9IVaC2_fkq