1 / 32

Яков Длугач

Яков Длугач. Бригадир, отдел лингвистических технологий. Перестановки в машинном переводе. План. Зачем? Что и куда? Как? Ну и как?. Зачем?. Порядок слов в разных языках отличается но Модель канала с шумами (Noisy channel) подразумевает последовательный перевод.

Download Presentation

Яков Длугач

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Яков Длугач Бригадир, отдел лингвистических технологий Перестановки в машинном переводе

  2. План Зачем? Что и куда? Как? Ну и как?

  3. Зачем? Порядок слов в разных языках отличается но Модель канала с шумами (Noisy channel) подразумевает последовательный перевод

  4. Пример (из «Вавилонского разговорника»)

  5. Пример (из «Вавилонского разговорника») Кто Wer Вы sind такой Sie , und и was что möchte мне ich от von Вас Sie нужно ? ?

  6. Phrase-based модели часто правильно обрабатывают «локальные» перестановки

  7. Перестановки в phrase table У коротких фраз больше вероятность встретиться в параллельном корпусе. sindSie Вы такой vs. мне от вас нужно möchteich von Sie

  8. Distortion (post-reordering) Позволяет переставлять фразы при переводе (по языковой модели) Сильно замедляет процесс перевода Плохо учитывает «окружающие» конструкции (например, “ne … pas”)

  9. Что и куда? Pre-reordering (preordering) Куда? Типы моделей

  10. Preordering Идея – поменять порядок слов до перевода Особенно нужно для языков с разной типологией порядка слов (например, SVO и OSV) Улучшает автоматические выравнивания (GIZA++) When you reach my age, you will not look as good. When my age you reach, look as good you will not.

  11. Куда? reordering Обучение Предложение Предложение c изменённым порядком слов Параллельное предложение Предложение Предложение c изменённым порядком слов Перевод Перевод

  12. Типы моделей

  13. Как? Описание модели Обучение Декодирование

  14. Немного про индийский кинематограф series binding require skill much does not.

  15. Описание модели: синхронные контекстно-свободные грамматики • Были придуманы для компиляторов • Используются в синтаксическом SMT, а также для построения семантических зависимостей [S] [X] [NP;1] [X;1] [VP;2] [X;2]

  16. Обучение Как?

  17. Дерево как набор помеченных отрезков Согласованный Несогласованный

  18. Согласованность в выравнивании

  19. Извлечение правил

  20. Реализация Основной инструмент – утилиты фреймворка Moses: extractи score Модель языка – IRSTLM

  21. Декодирование Как?

  22. Алгоритм Кока-Янгера-Касами (CYK) Для каждой группы слов, следующих друг за другом, строим возможные «гипотезы» Начинаем с однословных групп Увеличиваем размер групп динамическим программированием

  23. Построение гипотез S X X Гипотеза №1 Гипотеза№2 X X X X X VP X X X X X X X X X X VP X NP X X X X NP X NN VBG VBZ RB VB JJ NN . l t . s s e h g l o i r e e c n k i i n i o u u r s d d e q m n s e i b r

  24. S X X X X X X X VP X X X X X X X X X X VP X NP X X X X NP X NN VBG VBZ RB VB JJ NN . l t . s s e h g l o i r e e c n k i n i o i u u s r d d e q m n s e i b r Правило склейки (gluing)

  25. Реализация “Chart” decoder – имеет реализацию в Moses Вывод пословного выравнивания Настройка весов – MERT или batch-MIRA

  26. Ну и как? Проверили на 3 языковых направлениях: Английский-Фарси, Английский-Итальянский и Английский-Урду Использовали данные RSMT12. Baseline: не менять порядок слов Соревновались с двумя другими командами

  27. Метрики BLEU Kendall τ-distance Расстояние Хэмминга

  28. Результаты (BLEU/Hamming/Kendall)

  29. Лексические модели TSP (задача коммивояжёра) –“A Word Reordering Model For Improved Machine Translation” (Visweswariah et al., 2011)

  30. Результаты (BLEU/Hamming/Kendall)

  31. Яков Длугач Бригадир jacob@yandex-team.ru Спасибо http://yadi.sk/d/RVn9IVaC2_fkq

More Related