Interlingual machine translation
Download
1 / 47

Interlingual Machine Translation - PowerPoint PPT Presentation


  • 135 Views
  • Updated On :

Interlingual Machine Translation. دانشگاه صنعت ي ام ي ر کب ي ر دانشکده مهندس ي کامپ ي وتر و فناور ي اطلاعات. استاد درس: دکتر عبدالله زاده توسط: اسماعیل رضایی- 86131031 ‪. درس پردازش زبان طبيعی. مروری کوتاه بر ترجمه ماشینی. ترجمه ماشینی چیست ؟ Automated system

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Interlingual Machine Translation' - albin


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Interlingual machine translation

Interlingual Machine Translation

دانشگاه صنعتي امير کبير

دانشکده مهندسي کامپيوتر و فناوري اطلاعات

استاد درس:

دکتر عبدالله زاده

توسط:

اسماعیل رضایی- 86131031‪

درس پردازش زبان طبيعی


Interlingual machine translation
مروری کوتاه بر ترجمه ماشینی

ترجمه ماشینی چیست ؟

  • Automated system

  • Analyzes text from Source Language (SL)

  • Produces “equivalent” text in Target Language (TL)

  • Ideally without human intervention

Source

Language

Target

Language

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Interlingual machine translation

مروری کوتاه بر ترجمه ماشینی

روش های اصلی ترجمه ماشینی

  • Direct

  • Transfer

  • Interlingual

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Interlingual machine translation
روش های اصلی ترجمه ماشینی

Direct

این روش درواقع ترجمه لغت به لغت می باشد.

Transfer

زبان مبدا به یکی از بازنمایی های Syntax یا Semantic تحلیل شده و پس از این بازنمایی زبان مبدا به بازنمایی مناسب زبان مقصد تبدیل شده و در نهایت جملات زبان مقصد از این بازنمایی تولید می شوند.

Interlingual

جملات زبان مبدا به یک بازنمایی مفهومی سراسری که به آن IL گفته می شود ،تبدیل شده و جملات زبان مقصد ازتبدیل آن بدست می آید.

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Interlingual machine translation
روش های اصلی ترجمه ماشینی

  • Direct

  • Transfer

  • Interlingual

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند



Interlingual machine translation
روش های اصلی ترجمه ماشینی

  • Three main methodologies for Machine Translation

    • Direct

    • Transfer

    • Interlingual


Interlingual machine translation

بخش دوم کتاب

مسائل مطرح درساخت سیستم های

Large Scale وGeneral Purpose

پردازش زبان طبیعی

Uniform ,Nonuniform knowledge represantation

Automatic knowledge acquisition

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Interlingual machine translation

Uniform and Nonuniform knowledge represantation

Uniform

در روش یکنواخت،برای تمام فعالیت ها (Task) و مولفه ها از یک زبان بازنمایی استفاده شده است.

برای مثال : استفاده از منطق مرتبه اول برای تمام بخش ها.

بزرگترین مشکل این روش :

اینکه سیستم های بازنمایی دانش در دسترس قابلیت بازنمایی تمام خصوصیات زبان طبیعی را ندارند.

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Interlingual machine translation

Uniform and Nonuniform knowledge represantation

Nonuniform

در روش غیریکنواخت، از زبان های بازنمایی مختلفی برای بازنمایی دانش برای فعالیت ها و مولفه های مختلف استفاده می کند.

مهمترین مشکل این روش :

لزوم ترجمه بین بازنمایی ها متفاوت برای تبدیل وترکیب دانش.

این امر در سیستم های بزرگ و بویژه برای داده های واقعی بسیار پرهزینه و پیچیده می باشد.

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Interlingual machine translation

A Multi-Level Approach to Interlingual MT

Definingthe Interface between Representational Languages

Bonnie J. Dorr and Clare R. Voss

Department of Computer science

University of Maryland

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Interlingual machine translation

کلیت موضوع مقاله

یک طراحی چند لایه ای برای یک سیستم ترجمه ماشینی شرح داده می شود.

یک سیستم غیر یکنواخت که برای توصیف دانش های متفاوت از زبان های بازنمایی مختلف استفاده شده است.

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Interlingual machine translation

برای تولید یک ترجمه خوب ازیک جمله ،باید یک سیستم ترجمه ماشینی به چند روش بازنمایی دسترسی داشته باشد.

Lexicalfor lexicon-based information

Syntacticfor defining phrasestructure

interlingual)or IL) for sentence interpretation

knowledge representational (or KR) for filtering out interpretations that are incompatible with facts in the MT system's knowledge base.

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Interlingual machine translation

This paper ،باید یک سیستم ترجمه ماشینی به چند روش بازنمایی دسترسی داشته باشد.examines the interface between the interlingua and other representation types in an interlingual MT system.

multi-level :

syntactic, IL and KR

And non-uniform approach :

in which distinct representational languages are used for different types of knowledge.

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


1 6 interlingual machine translation 208

SL Input ،باید یک سیستم ترجمه ماشینی به چند روش بازنمایی دسترسی داشته باشد.

TL Output

SL Syntactic Analysis

TL Syntactic Analysis

IL Composition and Decomposition

SL Lexicon

TL Lexicon

شکل 1 ،کتاب ، فصل 6 (Interlingual Machine Translation)،صفحه 208

KR Filtering and Inference

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Interlingual machine translation

فازهای پردازش ،باید یک سیستم ترجمه ماشینی به چند روش بازنمایی دسترسی داشته باشد.

همانطور که در شکل 1 مشاهده می شود، در این مدل پیشنهادی 3 فاز پردازش داریم.

1 _ Analysis/synthesis phase :

in which a source-language (SL) sentence is parsed into a syntactic structure .

2 _A composition/decomposition phase :

A SL syntactic structure is composed into an IL representation or an IL representation is decomposed into a TL syntactic structure and lexical items.

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Interlingual machine translation

3_ KR phase : ،باید یک سیستم ترجمه ماشینی به چند روش بازنمایی دسترسی داشته باشد.

checks the IL representations

filtering out incompatible forms with known facts

Coercing or augmenting IL forms with

logically inferred knowledge in order to resolve an incomplete IL composition.

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Interlingual machine translation

کارهای گذشته ،باید یک سیستم ترجمه ماشینی به چند روش بازنمایی دسترسی داشته باشد.

Voss و Dorr در سال 1993 می گوید : کمبودی که در زمینهتحقیقات و ساختIL وجود دارد،این است که:

اتفاق نظری بر اینکه interlingua چیست و چگونه تعریف می شود ، وجود ندارد.

برای مثال :

(Rosetta, 1994) used an interlinguabased on Montague-grammar.

Mikrokosmos(1994) developed based on their own Text MeaningRepresentation (TMR) language.

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Interlingual machine translation

کارهای گذشته ،باید یک سیستم ترجمه ماشینی به چند روش بازنمایی دسترسی داشته باشد.

Verkuyl (1994) :a "layered" interlingua in two layer

Discourse Representation Structures

one level a Lexical Conceptual Structures

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Interlingual machine translation

در این مقاله ،باید یک سیستم ترجمه ماشینی به چند روش بازنمایی دسترسی داشته باشد.

PRINCIRAN :

Interpretation and representation of natural language sentences.

درواقع این سیستم برای ساخت یک سیستم بزرگ 3 سیستم را ترکیب می کند.

syntactic processing design of PRINCIPAR

(Dorr, Lin, Lee, and Suh (1995))

syntax-IL interface UNITRAN )Dorr, 1993)

IL-KR interface from the LEXITRAN

)Dorr and Voss, 1993(

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Interlingual machine translation

مثالی برای بیان، چرایی انتخاب یک روش غیر یکنواخت

German sentence:

“ Die KircheliegtimS"udenderStadt “

این جمله می تواند هر یک از دو تفسیر زیر را داشته باشد.

The church lies in the south of the city

(southern part of the city )

The church lies to the south of the city

(south of the city , outside the city)

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Interlingual machine translation

مثالی برای بیان، چرایی انتخاب یک روش غیر یکنواخت

این کاملا واضح است که جمله مزبور در زبان آلمانی هیچ ابهامی ندارد، اما یک سیستم ترجمه ماشینی باید بداند که جمله imS"udenderStadtبه دو شکل متمایز بازنمایی می شود.

1 - south-and-internal

2 - south-and-external

در واقع این کاریک KR filtering function بوده و جدا از

lexicalknowledge و یا Interlingua می باشد .

این مهمترین بخش کار این پروژه است .این کار یک شیوه خاص برای KR می باشد، نه IL .

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Interlingual machine translation

مثالی برای بیان، چرایی انتخاب یک روش غیر یکنواخت

  • Using Default knowledge in the KR

    • Mountains are physical entities, typically distinct and external to cities

    • System chooses second translation

      • The mountain lies to the south of the city

  • Using specific facts in the KR

    • A particular mountain is in the city

    • System overrides default knowledge and chooses first translation

      • The mountain lies in the south of the city


Interlingual machine translation

فرضیات پروژه روش غیر یکنواخت

1- پردازش ها تنها در sentence-level بوده و آنالیز( discourse) مورد نظر نمی باشد.

2- ورودی سیستم، خروجی سیستم PRINCIPAR است.

PRINCIPAR پارسراستفاده ساخته شده توسط Dorr،Linو Lee در سال 1995 است.

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Interlingual machine translation

فرضیات پروژه روش غیر یکنواخت

3- زبان مبدا به صورت مجموعه ای ازParse Tree تبدیل شده، که در این مجموعه تمام بازنمایی های نحوی ممکن از جمله مبدا فراهم شده است.

4- آنالیزPhrase Structure و ایجاد بهترین تفسیر بین زبانی برای تولید زبان مقصد، وظیفه مولفه های IL و KR است.

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Interlingual machine translation

Defined interfaces between three knowledge levels روش غیر یکنواخت

1 -Relates IL representations to corresponding syntactic forms by means of lexical entries.

2 - Checks the IL representations in the KR, filtering out those forms incompatible with known facts.

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Interlingual machine translation

Defining the Problem Space: Translation Mismatches روش غیر یکنواخت

در این بخش حل مسئله عدم تطابق در ترجمه ها مورد نظر است. در این زمینه به بیان دو گروه از اختلاف هایی که بین جملات مبدا و مقصد می تواند وجود داشته باشد، بیان می کنیم.

translation divergences

مفهوم جمله در زبان مبدا کاملا منتقل شده اما ساختار جملات در دو زبان متفاوت است.

translation mismatches

مفهوم منتقل شده در دو زبان با هم متفاوت است.

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Translation divergences
translation divergences روش غیر یکنواخت

Conflational Divergence

  • Translation of two or more words in one language into one word in another language

    • To kick

    • Dar una patada (Give a kick)


Translation divergences1
translation divergences روش غیر یکنواخت

عدم تطابق به دلیل تفاوت های ساختاری زبان ها

Realization of verb arguments in different syntactic configurations in different languages

  • To enter the house

  • Entrar en la casa (Enter in the house)


Lexical mismach
Lexical روش غیر یکنواختMismach


Interlingual machine translation

تعیین محدوده در این پژوه روش غیر یکنواخت

بیشترین تاکید بر Spatial Expression و بویژه بر Spatial Verb است که به آنها Spatial Predicates گفته می شود.

Spatial Predicate

گزاره هایی که برای توصیف ازتباط بین اشیاء فیزیکی در فضای سه بعدی به کار می روند.

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Interlingual machine translation

راه حل های دنبال شده در پژوهش های پیشین

حل مشکل divergences :

تغییر و بهبود بخشیدن مکانیزم های تبدیل، بازنمایی IL به ساختار زبان مقصد.

حل مشکل mismatch :

تاکید بیشتر برارایه جزئیات بازنمایی مفهومی در ساخت IL است.

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Interlingual machine translation

راه حل بیان شده در این پژوهش پیشین

حل هر دو مشکل مطرح شده در یک سیستم.

حل مشکل mismatch :

با دسترسی به KR واستفاده از دانشی که بطور منطقی قابل استنتاج است.

حل مشکل divergences :

ساخت تعداد کافی ساختار در IL و استفاده از آنها(از بین بردن تفاوت های ساختاری).

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Interlingual machine translation

تعریف یک پیشینInterlingua

برای تعریف Interlingua از سه منبع استفاده شده است.

1 - Lexical Conceptual Structure(LCS)

2 – Lexical Semantic Template(LST)

3 – Semantic Classification Scheme

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Interlingual machine translation

Lexical Conceptual Structure(LCS) پیشین

By Jackendoff (1983 , 1990)

Three independent subsystem

Fields

Conceptual constituents

Boundedness and aggregation property

تنها از دو زیر سیستم ابتدا در این پروژه استفاده شده است.

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Interlingual machine translation

Lexical Conceptual Structure(LCS) پیشین

LCS Fields

این فیلد ها توسط مشاهدات تخصصی در تقارن های لغوی ساخته شده اند، می توانند از قبیل

Loc(ational), Temp(oral), Poss(essional),

Ident(ificational), Perc(eptual)

باشند.

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Interlingual machine translation

Lexical Conceptual Structure(LCS) پیشین

Conceptual constituents

گزاره های اولیه

GO, STAY, BE, GO-EXT, and ORIENT

آرگومان ها و توصیف کننده های گزاره های اولیه

Type یا Antological Type گزاره های اولیه

Thing, State,Event, Place, Path, and Property

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Interlingual machine translation

Lexical Conceptual Structure(LCS) پیشین

یک مثال از اینکه ببینیم چگونه گزاره اولیه Go با نوع Event برای بازنمایی مفهوم یک جمله به کار می رود.

این بازنمایی به این معنا است که

"The ball went locationally

toward Beth."

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


John jogged to school

Lexical Conceptual Structure(LCS) پیشین

در اینجا یک شکل بازنمایی برای جمله زیر داریم.

“John jogged to school”

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Interlingual machine translation

Lexical Conceptual Structure(LCS) پیشین

بازنمایی بیان شده ، تنها مفهوم به مدرسه رفتن را می رساند و در این بازنمایی تفاوتی بین Run ، Walk و یا Jog بیان نشده است. بنابراین شکل کامل این بازنمایی به صورت زیر است.

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Interlingual machine translation

Lexical Conceptual Structure(LCS) پیشین

نتیجه گیری در بحث LCS

The LCS approach views semantic representation as a subset of conceptualStructure

This representation abstractsaway from syntax just

far enough to enable language-independent encoding.

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Interlingual machine translation

Lexical Semantic Template(LST) پیشین

این ابزار افعال را به دو بخش

Predicate Structure و

Nonpredicate constant

تجزیه می کند.که بخش دوم را به شکل <شکل ثابت فعل> نمایش داده می شود.

یک فعل با چند معنا دارای یک ثابت و چند ساختار گزاره ای متفاوت می باشد. و تشخیص معنا در هر یک از جملات بر عهده ساختار گزاره ای مربوطه است.

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Interlingual machine translation

Lexical Semantic Template(LST) پیشین

مثال :

The soldiers marched.

The soldiers marched to the barracks.

The soldiers marched clear of the falling rocks.

The soldiers marched the soles of their boots flat.

The general marched the soldiers to the barracks.

در این مثال تنها یک شکل ثابت برای فعل ، به شکل <march> داریم، اما مفهوم متفاوت درهر جمله بر عهده ساختار گزاره ای است.

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Interlingual machine translation

Lexical Semantic Template(LST) پیشین

امکان دیگر این ابزار داشتن چند Constant متفاوت با یک ساختار گزاره ای یکسان است. هر ترکیب از اینها بصورت یک فعل جدا در جمله اصلی شناخته می شود.

مثال

They funneled the mixture into the jar.

They ladled the mixture into the jar.

They spooned the mixture into the jar.

تنها تفاوت در ابزار کار است.<FUNNEL> ، <LADLE> و<SPOON>.

درس پردازش زبان طبیعی، استاد: دکتر احمد عبدالله زاده توسط: اسماعیل رضایی

آزمایشگاه سیستم های هوشمند


Interlingual machine translation

References پیشین

  • Journal of Language and Linguistics

  • Large-Scale Dictionary Construction for ForeignLanguage Tutoring and Interlingual MachineTranslation


Interlingual machine translation

برای مطالعه بیشتر پیشین

[1] Chris Quirk,” Training a Sentence-Level Machine Translation Confidence Measure”, May 2004.

[2] Einat Minkov,Kristina Toutanova, Hisami Suzuki Generating ,”Complex Morphology for Machine Translation”, June 2007 .

[3] Kristina Toutanova , Hisami Suzuki,” Generating Case Markers in Machine Translation”, April 2007.

[4] Robert C. Moore,ChrisQuirk,” Faster Beam-Search Decoding for Phrasal Statistical Machine Translation.” September 2007 .


Interlingual machine translation

با تشکر پیشین