110 likes | 254 Views
Логико-статистические методы представления языковых структур в машинном переводе. Елена Борисовна Козеренко Институт проблем информатики РАН kozerenko @ mail . ru. Лингвистические знания в системах машинного перевода.
E N D
Логико-статистические методы представления языковых структур в машинном переводе Елена Борисовна Козеренко Институт проблем информатики РАН kozerenko@mail.ru
Лингвистические знания в системах машинного перевода • Моделирование внутренних логико-семантических закономерностей языкового строя и функционирования языка на основе эвристических правил различной степени детализации • Методы разрешения неоднозначности языковых структур на основе условных правил
Машинное обучение • Истоки метода: алгоритмы распознавания речи и символов, коррекция орфографии • Цель: автоматический вывод модели для некоторой области на основании выборки данных из этой области • Системе, обучаемой правилам синтаксиса, должен быть предъявлен набор правил (фразовых структур) для обучения
Стохастические методы и модели • N-граммы, N-граммы переменной длины • Правило Байеса • Вероятностные контекстно-свободные грамматики • Вероятностные грамматики подстановки деревьев • Вероятностные грамматики подстановки функциональных деревьев
Системы машинного перевода: современное состояние • Рынок систем МП достиг зрелости в 2002-2004 годах • Появление больших корпусов параллельных текстов стимулировало развитие статистических методов обработки естественного языка • Вероятностные расширения основных подходов к разработке систем МП, таких как • Прямой перевод • Трансфер (перенос) • Интерлингва (семантический субстрат) • Современные вычислительные ресурсы позволяют использовать ПЕРЕВОДЧЕСКУЮ ПАМЯТЬ (прецедентные переводы)
Основные классы систем МП • Системы с доминированием статистического подхода и автоматическим формированием правил SDLX(SDL International) использует переводческую память и поддерживает все языки на основе латинского и арабского алфавитов, а также иврита DIPLOMAT: осуществляет перевод на основе прецедентов (example-based translation), разрешение неоднозначности на основе статистики
2. Системы с доминированием логико-лингвистических эвристик, использующие глубинную семантику и развитые лексико-семантические модели • KANT Center for Machine Translation (CMT), Carnegie Mellon University
3. Системы, исходно базирующиеся на гибридной логико-статистической модели Matador: испанско-английский МП 4. Системы – рабочие места переводчиков Наш подход относится к 3-й группе • Используется механизм сегментации языковых структур на основе функционально-семантического переноса и ряда приемов синхронного перевода • Разрешение неоднозначности языковых структур на основе весов, задаваемых для деревьев разбора • Включение механизмов обучения для формирования новых лингвистических знаний
Вероятностная контекстно-свободная грамматика, ее определение - G = (N,T,P,S,D), где N – это множество нетерминальных символов, T – множество терминальных символов, P – множество продукций вида A -> b, где A – это нетерминальный символ, b– это цепочка символов, S – специальный исходный симвло, D – это функция, приписывающая значения вероятности каждому правилу из множества P. • Вероятностная грамматика замещения деревьев: ее определение то же, что и для вероятностной контекстно-свободной грамматики, но здесь мы имеем дело c фрагментами деревьев произвольной глубины, при этом значения вероятности приписываются этим фрагментам.
Новый синтетический подход к формированию грамматики системы МП • семантическое выравнивание структур для ряда европейских языков • разрешение неоднозначности с использованием стохастических методов • усвоение системой новых структур и шаблонов с помощью методов машинного обучения