1 / 35

О методе интерактивного разрешения неоднозначности в системах машинного перевода

О методе интерактивного разрешения неоднозначности в системах машинного перевода А. Бердичевский (ОТиПЛ МГУ) alexberd1983@mail.ru Семинар «Некоторые применения математических методов в языкознании » под руководством В. А. Успенского 9 октября 2004 г. ЭТАП-3 :

frisco
Download Presentation

О методе интерактивного разрешения неоднозначности в системах машинного перевода

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. О методе интерактивного разрешения неоднозначности в системах машинного перевода А. Бердичевский (ОТиПЛ МГУ) alexberd1983@mail.ru Семинар «Некоторые применения математических методов в языкознании» под руководством В. А. Успенского 9 октября 2004 г.

  2. ЭТАП-3 : результат примерно двадцатилетней работы Лаборатории компьютерной лингвистики Института проблем передачи информации РАН Ю. Д. Апресян И. М. Богуславский Л. Л. Иомдин А. В. Лазурский Л. Г. Митюшин Н. В. Перцов В. З. Санников. Л. Л. Цинман и др.

  3. Четыре части доклада: «Информационная»: а) о проблеме неоднозначности в системах МП. б) об ЭТАПе. в) о других системах МП. «Отчетная»: о проделанной работе по разрешению лексической неоднозначности. «Прикладная»: новые предложения по разрешению синтаксической неоднозначности «Теоретическая»: некоторые выводы и наблюдения, сделанные в процессе работы.

  4. Постановка проблемы Неоднозначность – неотъемлемое свойство человеческого языка (и мышления) Обычно не представляет проблемы для носителей языка: адресанту неведома, адресатом разрешается за счет прагматических данных. В большинстве случаев высказывание даже не подвергается сознательному анализу, т.к. человек сразу выделяет верный вариант.

  5. Постановка проблемы Слабость машины: • Отсутствие возможности обратиться к прагматике. • «Беспристрастность»: обнаружение всех допустимых вариантов перевода. • Отсутствие холистического восприятия. • А кроме того…

  6. Постановка проблемы В проблемных случаях адресат использует метаязыковую операцию: обращается к адресанту с вопросом. — Мы, управление дома, — с ненавистью заговорил Швондер, — пришли к вам после общего собрания жильцов нашего дома, на котором стоял вопрос об уплотнении квартир дома... — Кто на ком стоял? — Крикнул Филипп Филиппович, — потрудитесь излагать ваши мысли яснее. М. А. Булгаков, «Собачье сердце».

  7. Постановка проблемы Система МП вопросов не задает. Идея МИРН – научить ее это делать. Задача: разработать язык формулирования запросов, понятный машине и доступный пользователю. Дан ряд ограничений характеристик «пользователя». Прикладная и теоретическая проблема.

  8. Кратко об ЭТАПе: ЭлектроТехнический Автоматический Перевод Теоретическая база:МСТ И. А. Мельчука, также теория интегрального описания языка и принципы системной лексикографии Ю. Д. Апресяна. Существенные для доклада характеристики: • Поуровневое представления языковых данных • Использование деревьев зависимостей и ПСО. • Использование лексических функций • Отсутствие работы со сверхфразовыми единствами

  9. АРН в ЭТАПе: краткий обзор Разрешение по ближайшему линейному контексту: Helaughs too loudly Thelaughs of the audience became too loud

  10. АРН в ЭТАПе: краткий обзор Разрешение с помощью механизмов фильтрации: • Древесные условия формирования бинарных поддеревьев. • Механизм установления окончательных синтаксических связей. • Фильтр древесности • Фильтр повторимости-неповторимости ПСО • Фильтр проективности

  11. АРН в ЭТАПе: краткий обзор Разрешение с помощью правил предпочтения: система приоритетов. Разрешение перебором альтернатив: окончательная проверка уцелевших гипотез. Все механизмы работают в цикле. Достоинство интерфейса: пользователю предлагается несколько вариантов перевода.

  12. АРН в ЭТАПе: краткий обзор Разрешение с использованием нетривиальных правил перевода. НПП обеспечивают компенсацию расхождения входного и выходного языков. Например, лексические функции: The heavers loaded the ship Грузчики загрузили корабль. The soldier loaded the gun Солдат зарядил ружье. Gun: в статье КС есть запись _PREPAR:LOAD2(/AIM2 ) Ружье: в статье КС есть запись _PREPAR:ЗАРЯЖАТЬ

  13. АРН в ЭТАПе: краткий обзор Разрешение с использованием синтаксически размеченного корпуса (И. С. Чардин). Совмещение эвристической и статистической стратегии. Все вышеописанные алгоритмы недостаточно мощны, особенно если речь идет о выборе лучшей структуры из нескольких возможных.

  14. Пределы возможностей Джон предупреждал о трудностях пути John has warned of a difficulty of the way John has warned of a hardship of the way John has warned about a difficulty of the way John has warned about a hardship of the way John has warned of a difficulty the ways John has warned of a hardship the ways John has warned about a difficulty the ways John has warned about a hardship the ways

  15. Пределы возможностей The wolf ran from behind a pine: Волк выполнил из зада сосну.

  16. Пределы возможностей Выпей коньяка! Drink cognac! The bitterns of cognac!

  17. Пределы возможностей Он вправе определять время начала и окончания рабочего дня • He has a right to define the time of the beginning and a completion of a working day • He has a right to define the time of the beginning and the completions of a workingday • He has a right to define the time of the beginning and a working completion of a day • He has a right to define the time of the beginning and a completion of a worker of a day • He has a right to define the time of the beginning and the worker's completion of day • He has a right to define the time of the beginning and a completion of the worker of a day • He has a right to define the time of the beginning and the completions of a worker of a day

  18. Способы решения: *Сохранять неоднозначность при переводе *Knowledge-Based Machine Translation *Example-Based Machine Translation *Накопители переводов *Статистические методы *Редактирование: *Пред- : controlled languages *Пост- : обычный Rule-Based Machine Translation *Интер-: Dialogue-Based Machine Translation

  19. Лексическая неоднозначность Составление двуязычных словарей омонимов: комментарий+пример. Огромная подготовительная работа. Желательность (и отсутствие) специальной лексикографической теории.

  20. *Чем тоньше семантическое различие, тем длиннее комментарий *Далеко не всегда возможно подобрать для каждого слова контексты, исключающие возможность употребления его омонима/полисеманта Л А Чем длиннее языковой знак, тем менее он омонимичен. Й О Контекст определяет лексическую единицу вероятностно, Н а не абсолютно. З

  21. Выучившему английский в детском саду гарантировано трудоустройство. To the one that has taught English in a kindergarten recruiting is guaranteed. To the one that has learned English in a kindergarten recruiting is guaranteed. To a garden that has taught English in the childish recruiting is guaranteed. To a garden that has learned English in the childish recruiting is guaranteed. Дескрипторы: тонкий метод vs. универсальная дубина.

  22. Морфологическая неоднозначность Что следует разрешать сначала: морфологическую или синтаксическую неоднозначность? Вопросы «в лоб»: уточнить форму слова, используя школьную терминологию. Следует выделить их в отдельный блок, подключаемый пользователем по желанию. Для русского возможностей будет больше, чем для английского: больше поверхностно выраженных грамматических категорий. Это упрощает МП. Возможно ли измерить степень омонимичности языка?

  23. Синтаксическая неоднозначность Fat soup admirer Откормите любителя супа Любитель жирного супа Жирный любитель супа Любитель супа жира

  24. Преобразования, уменьшающие неоднозначность • The given sentence is ambiguous. What should be understood? • (Fat soup) admirer • Fat (soup admirer) ИЛИ • The given sentence is ambiguous. What does the word fat refer to? • Fat soup • Fat admirer

  25. Не researches hums and whistles. Он исследует жужжание и свист. Он исследует жужжание и свистит. Можно разрешить лексически. С другой стороны, если можно использовать синтаксические алгоритмы, это эффективней: меньше словарей.

  26. The given sentence is ambiguous. What should be understood? researches whistles He whistles • The given sentence is ambiguous. What should be understood? He researches whistles He whistles • The given sentence is ambiguous. What should be understood? researchesand whistles Hums and whistles • The given sentence is ambiguous. What should be understood? He researches (hums and whistles) He (researches hums) and whistles

  27. Гренобльская группа Нervé Blanchon, Laurel Fais, Christian Boitet et al. В сотрудничестве с японскими лабораториями. DBMT как отдельная парадигма.Метод работы: составление корпуса примеров -> выделение частотных типов неоднозначности -> эксперименты с пользователями -> реализация «лингвера» -> реализация программного механизма

  28. Дальнейшие перспективы: *Разработка синтаксических алгоритмов *Настройка интерактивного блока: *Пользовательская настройка *Обоймы вопросов *Сбор статистических данных *Самообучение

  29. Выводы: Для того, чтобы верно задать вопрос, нужно знать большую часть ответа. При хорошем автоматическом анализаторе интерактивный блок может сослужить очень хорошую службу, помогая выбрать лучшую альтернативу.

More Related