310 likes | 518 Views
Интерактивное разрешение неоднозначности различных типов в машинном переводе И.М. Богуславский, Л.Л. Иомдин, А.В. Лазурский, Л.Г. Митюшин, А.С. Бердичевский , В.Г. Сизов, Л.Г. Крейдлин Работа поддержана грантом № 02-06-80085 РФФИ и стипендией Яндекса #102921.
E N D
Интерактивное разрешение неоднозначности различных типов в машинном переводе И.М. Богуславский, Л.Л. Иомдин, А.В. Лазурский, Л.Г. Митюшин, А.С. Бердичевский, В.Г. Сизов, Л.Г. Крейдлин Работа поддержана грантом № 02-06-80085 РФФИи стипендией Яндекса #102921
— Мы, управление дома, — с ненавистью заговорил Швондер, — пришли к вам после общего собрания жильцов нашего дома, на котором стоял вопрос об уплотнении квартир дома... — Кто на ком стоял? — Крикнул Филипп Филиппович, — потрудитесь излагать ваши мысли яснее. М. А. Булгаков, «Собачье сердце».
Вечная проблема неоднозначности • Разрешение на основе все более детальной лексической и грамматической информации • Недостатки: • Огромный объем работы • Ограниченная эффективность
Вечная проблема неоднозначности • Разрешение на основе статистических данных • Представляется очень перспективным, но максимальная эффективность на сегодняшний день около 75%
Интерактивное разрешение • Идея была впервые выдвинута примерно25 лет назад (по данным В. Хатчинза, Hutchins 1986) • Системы ALPS и Weidner в штатеЮта: начало 1980-х • Maruyama et al. 1990: для японского языка • Christian Boitet и Hervé Blanchon в Гренобле (1994) • Lidia, Systran, ALT-J/E (NTT Communication Science Laboratories of Japan), система МП университета UMIST, группа Spoken Translation в США, система многоязычного поиска и навигации в интернете, разработанная DFKI и университетом земли Саар
ЭТАП-3: синтаксический анализатор • Переводит морфологическую структуру предложения в дерево зависимостей:
Этап-3: перевод • На вход модуля перевода подается нормализованная древесная структура; если заданное предложение неоднозначно – несколько структур • Содержание узлов и синтаксические отношения переводятся на выходной язык; применяются тривиальные и нетривиальные правила, происходит обращение к комбинаторному словарю
Интерактивное разрешение лексической неоднозначности • Я попадаю в кабак и кучу с тремя девицами
Слово кучу неоднозначно. Что вы имеете в виду? КУЧА: существительное. ГРУДА. Куча земли.(heap) КУТИТЬ: глагол. ПРАЗДНОВАТЬ, ТРАТЯ ДЕНЬГИ.Мы сегодня кутим!(revel)
Подготовка лексического разрешения Для омонимичных слов (с совпадающими леммами или словоформами) в КС включаются КОММЕНТАРИИ: • аналитическое толкование значения слова или его существенный фрагмент; • маркер части речи, • простые синтаксические признаки, • синонимы и/или антонимы слова. и ПРИМЕРЫ
Точки, в которыхможет запрашиваться мнение эксперта • Непосредственно перед выбором вершиныдерева • После проверки всех синтаксических гипотез (бинарных поддеревьев) • Непосредственно перед выбором вариантов перевода
Достижения и намерения Обработано: 20000 русских омонимичных слов Обрабатывается: 20000 английских Цель – два возможных режима работы системы: • «Автоматический»: максимально используются вероятностные соображения,маловероятные гипотезы отсекаются на ранних стадиях анализа • «Интерактивный»: максимально используются знания пользователя, что позволяет получить более адекватную интерпретацию
American National Standards Institute Необходимость выбрать вариант перевода. Противоречия в словарях. Противоречия среди экспертов. Противоречия в справочных данных. Есть ли здесь вообще омонимия в пределах английского языка?
Опрос носителей • Есть те, кто замечает омонимию, есть те, кто не замечает • Среди не замечающих омонимию нет выбирающих National Institute • Один носитель пкак Standards Institute forAmerican Nationals
Ответ ЭТАПа: • Американские национальные стандарты учреждают • Стандарты американского подданного учреждают • Американские стандарты подданного учреждают • Национальные в отношении американца стандарты учреждают • Американский национальный стандартный институт • Стандартный институт американского подданного • Американский стандартный институт подданного • Национальный в отношении американца стандартный институт
The word Instituteis ambiguous. What does it mean? A noun: a scientific or educational institution.I work at the Medical Institute (институт) A verb: institutionalize, establish.To institute a society(учреждать)
The word Americanis ambiguous. What does it mean? Adjective: of or referring to America.American food (американский) Noun: aresident or citizen of America.An American was first on the competition (американец)
The word National is ambiguous. What does it mean? Adjective: of or referring to a nation.National anthem (национальный) Noun: a citizen.British nationals are known for their patriotism (подданный)
Синтаксическая омонимия • Разрешение лексической устраняет значительную часть синтаксической • Существуют механизмы и для разрешения чисто синтаксической, но требуют хорошего знания используемых формализмов • Ведется разработка механизмов, которые позволят вести диалог с неподготовленным пользователем
He studies buzzes and whistles This phrase is ambiguous. What does it mean? He studies buzzes and he whistles. He studies buzzes and he studies whistles.
Внутренняя и переводная неоднозначность • Некоторые случаи неоднозначностей следует различать вне зависимости от выходного языка • Мужу изменять нельзя • Я попадаю в кабак и кучу с тремя девицами
Внутренняя и переводная неоднозначность • Некоторые неоднозначности возникают только при переводе на конкретный язык • Не нужно различатьрыбу как животное и рыбу как еду при переводе с русского на английский, французский или немецкий • Но нужно при переводе на испанский, где pez – рыба как животное и pescado – рыба как еда
Внутренняя и переводная неоднозначность • Различие, последовательно проводимое в ЭТАПе • Различные типы обрабатываются на разных этапах: анализа и перевода • Важно для многоязычной среды: режим интерактивного разрешения включается в зависимости от выходного языка