1 / 50

The Structure of Interlingua in TRANSLATOR

The Structure of Interlingua in TRANSLATOR. מבנה שפת Interlingua בתכנת התרגום "טרנסלטור". Sergei Nirenburg , Victor Raskin and Allen B. Tucker . סמינר בבלשנות חישובית , 236817 הפקולטה למדעי המחשב, הטכניון מנחה : עוזי אורנן. מציגים:. נורית שוובסקי ובועז גולדשטיין 7.2.12. מוטיבציה.

adila
Download Presentation

The Structure of Interlingua in TRANSLATOR

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. The Structure of Interlingua in TRANSLATOR מבנה שפת Interlingua בתכנת התרגום "טרנסלטור" Sergei Nirenburg, Victor Raskin and Allen B. Tucker סמינר בבלשנות חישובית, 236817 הפקולטה למדעי המחשב, הטכניון מנחה: עוזי אורנן מציגים: נורית שוובסקי ובועז גולדשטיין 7.2.12

  2. מוטיבציה • אנו רוצים לתרגם באופן מכני בין שפות • כמו מתכנתים טובים, נרצה פיתרון כללי • בהרצאה זו נרצה להציג כיצד נראה יצוג מופשט של שפה, שאינו מבוסס על אף שפה טבעית. • בנוסף נראה שמספיק לתרגם את הרעיון שמאחורי הטקסט, ולא את המבנה שלו.

  3. בעיה

  4. הפתרון הכללי • להשתמש ב-"שפה" שאינה מבוססת על שפה טבעית. • השפה תיקרא Interlingua. • אינו שפה בפועל, אלא מבנה נתונים. • אינו מחזיק את הטקסט, אלא הרעיון המופשט מאחרי הטקסט. • מורכב מאוסף מידע על תתי-עולמות מהעולם האמיתי, לפי נושאים • לדוגמא: מאמרים טכניים במדעי המחשב, אילוף כלבים וכו.

  5. דוגמא הילדאכלפיצה Sentence Contains - מכיל Action(ingestion(ate)) Agent – פועל-יוזם Patient - מופעל Definite מיודע - Object(food(pizza)) Object(Creature(boy))

  6. מבנה TRANSLATOR קלט: טקסט בשפת המקור פלט: טקסט בשפת היעד Analysis מנתח Synthesis מיצר Augmentation מגביר טקסט משופר ב- Interlingua טקסט ב- Interlingua מילונים בשפת היעד מילונים בשפת המקור GRL DRL מילון תרגום משפת מקור ל-interlingua מילון תרגום מ-interlingua לשפת היעד

  7. יצוג שפות • שפת ה-Interlingua מוגדרת ומיוצגת ע"י 2 שפות יצוג מידע. • DRL (Dictionary Representation Language)– המילון • GRL (Grammar Representation Language) – התחביר • שפות במובן המחשבי, כמו XML. • בעצם אנו בונים סוג של גרף שצמתיו הם מונחים וקשתותיו קשרים תחביריים.

  8. דוגמא למסגרת Dog ::= (‘Dog’, (‘isa’, Creature), (‘agent-of’, +(bark,dig,sniff,…)) (‘consists-of’,+(tail,ears,feet,…)) (‘breed’,(dalmation|corgi|labrador|…)) … )

  9. למה צריך DRL? • DRL הוא מילון. • מהווה כלי לפתרון דו משמעויות. • דוגמא: לדני יש כלב. הוא נבח. • צריך לדעת שכלב יכול לנבוח ודני לא. • לצורך כך נשמור את כל המאפיינים ההגיוניים עבור מונח. • התכונה "צבע" עבור פרח תכיל ורוד, אדום, צהוב, כחול,לבן וכו • התכונה "צבע עבור שלג תכיל רק לבן (וצהוב)

  10. מבנה היררכי של DRL הכל אובייקט מאורע מוחשי לא מוחשי מצב תהליך ... חי דומם מידע רגש ... ... דיבור פיזי צמח בעל חיים ... ... ... ... בקשה הצהרה ... תכונות: ממי? למי? נושא? ... ... אדם חתול כלב

  11. מונחים ב-DRL • מונח הוא אובייקט (שקול בinterlingua למילה) שמביע שם עצם או פועל. • מרכיב את הצמתים בעץ המילון • דומה ל-class בתכנות • מכיל ירושה וסט מאפיינים • דוגמא: הולך, כלב, לנוע

  12. תכונות ב-DRL • תכונות מגדירות תארים, שמות מספר, תואר הפועל, וכו • נמצאים רק מתחת למונחים • ניתנים להורשה. • דוגמא: שחור, מאוחר, חלק, איטי, מעייף

  13. מסגרות DRL • משמשת ליצוג מונח, ואת המאפיינים שלו. • יורשת מאפיינים מטיפוס האב של המונח • מחזיקה את כל הערכים האפשריים עבור כל מאפיין • מאפיין יכול להיות תכונה או מונח. • כאשר מדובר במונח ניתן להשתמש גם במונחים מטיפוסים יורשים

  14. דוגמא למסגרת Creature ::= (‘creature’, (‘isa’, alive), (‘agent-of’, (eat,drink,ingest,…)) (‘consists-of’,(head,body)) … )

  15. דוגמא למסגרת Dog ::= (‘Dog’, (‘isa’, Creature), (‘agent-of’, +(bark,dig,sniff,…)) (‘consists-of’,+(tail,ears,feet,…)) (‘breed’,(dalmation|corgi|labrador|…)) … )

  16. דוגמא למסגרת עברית kelb ::= (‘kelb’, (‘yore$ mi-’, ycur), (‘yakollbace&a’, +(linbox,laxpor,leraxreyx,…)) (‘murkab mi-’,+(zanab,’oznaym,ragglaym,…)) … )

  17. מוטיבציה מאחורי GRL • לא כל המידע בטקסט כתוב באופן מפורש ולינארי. • כמות גדולה של טקסט יכולה לתאר מספר קטן של מונחים. • דוגמא: הבית הוא ירוק. הוא גם גדול ויפה. • כדי להבין את כל הטקסט, יש להבין את הקשרים הכלליים בין המונחים

  18. הצדקה ל-GRL • לכאורה, מניחים שקיים דקדוק אוניברסלי והוא מספיק לכל שפה שהיא. • לכל שפה יש נושא, נשוא, תארים, ועוד כמה כלים אוניברסליים. בלעדיהם לא נצליח לתרגם. • נועם חומסקי טוען שמבנים דקדוקיים מופשטים מובנים במוח האנושי, ולכן יופיעו בכל שפה אנושית. (תאורית הדקדוק האוניברסאלי של חומסקי).

  19. מבנה ה-GRL • בנוי ממבנים הנקראים מסגרות • מסגרות אלו שונות מהמסגרות של ה-DRL • החל מרגע זה, אנחנו החלטנו לקרוא למבנים של הGRL "חבילות", כדי למנוע בלבול. • במאמר משתמשים במושג "frame" עבור שני המבנים. • בחרנו במושג "חבילה" מתחום הרשתות כמשלימה למסגרת.

  20. דוגמא – חבילת GRL • (משפט_1 • (פסוקית-ראשית: פסוקית 2) • (פסוקיות-משנה: פסוקית 1, פסוקית 3) • (הדגשה: שם-עצם 3) • (תת-עולם: בעלי חיים) • ...)

  21. בניית החבילה • החבילה נבנית באופן רקורסיבי, מחבילה שמייצגת את הטקסט כולו, עד למטה לחבילות שמייצגות תתי רעיונות שמהם מורכבת משמעות הטקסט. • מכילות מאפיינים, כמו המסגרת. המאפיינים מקבלים את הערך הכתוב בטקסט בלבד (שלא כמו ב-DRL). • חלקם כתובים מפורשות בטקסט המקור • חלקם מוסקים מאנליזה של טקסט המקור, או מידע המוגדר ב-DRL

  22. היררכיית בניה - טקסט • החבילה הראשית של המבנה בשפת interlingua. מכילה בתוכה את כל מבנה הטקסט המתורגם. • יכולה להיות ריקה, להכיל חבילה המייצגת משפט יחיד או להכיל אוסף חבילות הקשורות ביניהן ומייצגות משפטים המרכיבים את הטקסט.

  23. היררכיית בניה - משפט • מורכב מחבילות המייצגות פסוקיות. • מאפיינים: מודליות, הדגשה, פעולת דיבור, תת-עולם • ניתן לראות שמאפיינים אלו הם שונים מהמאפיינים של המילון, הם מאפיינים של דקדוק ולא של מושגים. • יכול להכיל מידע מוסק. Sentence ::= (‘sentence-token’, (‘clauses’ Clause*) (‘subworld’ sub-world) (‘modality’ modality) (‘focus’ focus) (‘speech-act’ speech-act))

  24. משפט – פעולות דיבור • לכל משפט מוגדרת פעולת דיבור • תלונה, בקשה, דרישה, דיבור, התנצלות, הצהרה וכו. • מסביר לאיזה צורך כתבו/אמרו את המשפט. • לפעמים לא כתוב באופן מפורש ויש להסיק אותו. • היות והניסוח של פעולת דיבור יכול להיות מאוד שונה בין שתי שפות, הרבה יותר חשוב לשמר את קיומה של פעולת הדיבור, ולא את הנוסח שלה.

  25. דוגמאות לפעולות דיבור העבר את המלח • נבין בתור: אדם א' ביקש מאדם ב' להעביר את המלח. התור הזה איטי מידי • נבין בתור: הכותב מתלונן על התור. הכלב אכל פיצה • נבין בתור: הכותב מצהיר על עובדה.

  26. היררכית בניה - פסוקית • כל המידע בפסוקית מגיעה מטקסט המקור. • מהווה יחידה בסיסית של הבנה. • יכול להיות מחובר סינטקטית לכל חלק אחר בטקסט, ע"י מבנה השיח. Clause := (‘Clause’ (‘Discourse-structure’ discourse structure) (‘Event’ event) (‘Focus’ focus) (‘Modality’ Modality) …)

  27. מבנה השיח • מגדיר קשר בין פסוקיות שונות, ובין פסוקיות למשפטים וטקסטים שלמים • מגדיר את סוג הקשר. לדוגמא: • שקילות • דוגמא • הרחבה • דימיון • תנאי • ...

  28. דומגא לפסוקית מקושרת • נמרים הם חיות נקיות, בעוד שכלב עלול לעשות את צרכיו בבית. על אף זאת, השני יהיה חיית מחמד מוצלחת יותר מהראשון.

  29. מידע נוסף שיש לשמר • מצב • מיקום • זמן • כמתים • יחסים • מודליות • הדגשה

  30. הדגשה מים שחקו אבנים ---- water eroded stones אבנים שחקו מים ---- stones were eroded by water שחקו אבנים מים ---- the erosion of stones was caused by water • ניתן לשים הדגשה על שם עצם, פועל, צירוף שמני או פעלי, פסוקית, וכו.

  31. מודליות • מודליות מראה את היחס של הכותב לנאמר בתוך הפסוקית • הבית חייב לקרוס • הבית עלול לקרוס • הבית עשוי לקרוס • הבית יקרוס • הבית צריך לקרוס • כדאי שהבית יקרוס

  32. יחסים • משמים להגדרת יחס בין חלקי הפסוקיות • מהווים רכיב תחבירי • דוגמא: • הכוס על השולחן • הילד הוא תלמיד • הקינוח אחרי האוכל

  33. ידע • דרוש המון ידע על העולם, ועל שפת המקור, כדי להפיק את המשמעות מהטקסט • אנחנו מניחים את קיומו של הידע הזה, היות ובניית מילון אינו נושא שמכוסה במאמר

  34. הבה נרכיב הכל • ישנו אוסף מודלים שמנתחים את שפת המקור. • מזהים תלויות בין משפטים (משפט א' דרוש להבנת משפט ב') • משתמשים במילון DRL כדי לתרגם את המילים ל-Interlingua • תוך שימוש במספר מקורות ידע, מתרגמים מתחביר שפת המקור ל-GRL • מפעילים מודולים לגלות מידע כמו מודליות, הדגשה, פעולות דיבור, וכו. • פותרים משמעויות כפולות ע"י המידע מה-DRL וההקשר שנבנה ע"י ה-GRL

  35. דוגמא • כלב שגר בבית הוא חיית מחמד. • לצורך נוחות והבנה נראה את הדוגמא בעברית. • המשפט מורכב מ-2 פסוקיות • כלב גר בבית • כלב הוא חיית מחמד

  36. כלב שגר בבית הוא חיית מחמד אילו מילות יחס קיימות במשפט? • (יחס_1 • (סוג-היחס: המצאות-בתוך) • (זמן: ?) • (מופעל: ?) • (מופעל משלים: ?) • (תת-עולם: ?) • ...) • (יחס_2 • (סוג-היחס: הגדרה) • (זמן: ?) • (מופעל: ?) • (מופעל משלים: ?) • (תת-עולם: ?) • ...)

  37. כלב שגר בבית הוא חיית מחמד אילו שמות עצם יש במשפט? • (שם-עצם_3 • (מקרה-של: חיית מחמד) • (תת-עולם: בעלי חיים) • (תכונות: אין) • ...) • (שם-עצם_2 • (מקרה-של: בית) • (תת-עולם: בעלי חיים) • (תכונות: אין) • ...) • (שם-עצם_1 • (מקרה-של: כלב) • (תת-עולם: בעלי חיים) • (תכונות: אין) • ...)

  38. כלב שגר בביתהואחיית מחמד נמלא את החוסרים... • (יחס_2 • (סוג-היחס: ) • (זמן: ) • (מופעל: ) • (מופעל-משלים: ) • (תת-עולם: ) • ...) • הגדרה • תמיד • שם-עצם_1 (כלב) • שם-עצם_3(חיית מחמד) • בעלי חיים • (יחס_1 • (סוג-היחס: ) • (זמן: ) • (מופעל: ) • (מופעל-משלים: ) • (תת-עולם: ) • ...) • המצאות-בתוך • תמיד • שם-עצם_1 (כלב) • שם-עצם_2 (בית) • בעלי חיים

  39. הואחיית מחמד שגר בבית כלב נגדיר פסוקיות • (פסוקית_2 • (מבנה-השיח: אין) • (מאורע: יחס_2 (הגדרה)) • (הדגשה: שם-עצם_3 (חיית מחמד)) • (מודליות: אמיתי) • (תת-עולם: בעלי חיים) • ...) • (פסוקית_1 • (מבנה-השיח: (מרחיב את פסוקית 2)) • (מאורע: יחס_1 (נמצא בתוך)) • (הדגשה: זמן) • (מודליות: התנייה) • (תת-עולם: בעלי חיים) • ...)

  40. כלב שגר בבית הוא חיית מחמד • (משפט_1 • (פסוקית-ראשית: פסוקית 2) • (פסוקיות-משנה: פסוקית 1) • (הדגשה: שם-עצם_3 (חיית מחמד)) • (תת-עולם: בעלי חיים) • (פעולת-דיבור: • (סוג: הגדרה • דובר: הכותב • מאזין: הקורא ) • ...) נרכיב משפט:

  41. כלב שגר בבית הוא חיית מחמד עכשיו מהסוף להתחלה... • (משפט_1 • (פסוקית-ראשית: פסוקית 2) • (פסוקיות-משנה: פסוקית 1) • (הדגשה: שם-עצם_3 (חיית מחמד)) • (תת-עולם: בעלי חיים) • (פעולת-דיבור: • (סוג: הגדרה • דובר: הכותב • מאזין: הקורא ) • ...)

  42. הואחיית מחמד שגר בבית כלב נגדיר פסוקיות • (פסוקית_2 • (מבנה-השיח: אין) • (מאורע: יחס_2 (הגדרה)) • (הדגשה: שם-עצם_3 (חיית מחמד)) • (מודליות: אמיתי) • (תת-עולם: בעלי חיים) • ...) • (פסוקית_1 • (מבנה-השיח: (מרחיב את פסוקית 2)) • (מאורע: יחס_1 (נמצא בתוך)) • (הדגשה: זמן) • (מודליות: התנייה) • (תת-עולם: בעלי חיים) • ...)

  43. כלב שגר בביתהואחיית מחמד נמלא את החוסרים... • (יחס_2 • (סוג-היחס: הגדרה) • (זמן: תמיד) • (מופעל: שם-עצם_1 (כלב)) • (מופעל-משלים: שם-עצם_3(חיית מחמד)) • (תת-עולם: בעלי חיים) • ...) • (יחס_1 • (סוג-היחס: המצאות-בתוך) • (זמן: תמיד) • (מופעל: שם-עצם_1 (כלב)) • (מופעל-משלים: שם-עצם_2 (בית)) • (תת-עולם: בעלי חיים) • ...)

  44. כלב שגר בבית הוא חיית מחמד אילו שמות עצם יש במשפט? • (שם-עצם_3 • (מקרה-של: חיית מחמד) • (תת-עולם: בעלי חיים) • (תכונות: אין) • ...) • (שם-עצם_2 • (מקרה-של: בית) • (תת-עולם: בעלי חיים) • (תכונות: אין) • ...) • (שם-עצם_1 • (מקרה-של: כלב) • (תת-עולם: בעלי חיים) • (תכונות: אין) • ...)

  45. כלב שגר בבית הוא חיית מחמד. סיכום הדוגמא • הטקסט (החבילה העליונה ביותר) הוא משפט יחיד, ולכן בניית החבילה פשוטה. • הצלחנו לייצג את משמעות המשפט בצורת מבנה נתונים, כלומר ב-interlingua • אם יש עוד משפטים, נתרגם אותם ונקשר בין המשפטים במידת הצורך

  46. כלב שגר בבית הוא חיית מחמד. המשך התהליך • את הטקסט ב-interlingua נעביר לשלב השני, שתפקידו להשלים את המידע שיש להסיק מהטקסט. • לבסוף הפלט יועבר לסינטזה בשפת היעד.( המאמר אינו דן בסינטזה). • ישנם מספר פלטים סבירים בשפת היעד, כמו • A dogis called a pet if it lives in a house • Adog, living in a house, is a pet • A pet is defined as a dogwhich lives in a house.

  47. סיכום: יתרונות וחסרונות יתרונות: • יעיל במספר המודולים הדרושים • משמר משמעות היטב גם בין שפות רחוקות חסרונות: • קשה לביצוע • מסיר כל סממן סגנוני ותרבותי מהטקסט

  48. המצב כיום • התוכנה שעליה הייתה ההרצאה, TRANSLATOR, אבדה במשך השנים. • קיימות מספר קטן של תוכנות שמתעסקות ב-Interlingua • KANT, פעיל כיום, נוסד ב-89', מתרגם מסמכים טכניים. • OntoSem נכתב ע"י נירנבורגורסקין (מחברי מאמר זה), מ-2004, משמש למנועי חיפוש סמנטיים. • ישנן מספר תוכנות אקדמיות

  49. סיכום • הראינו את המבנה הכללי של הinterlingua • DRL • GRL • חבילות ומסגרות • חשוב לציין שלא הראינו אל כל הGRL הדרוש כדי לייצג את כל מה שעשויים לכתוב בשפה אמיתית

  50. ביבליוגרפיה • The Structure of Interlingua in TRANSLATOR:Nirenburg, Raskin, and Tucker (c. 1986) • Evaluating the Peformance of the OntoSem Semantic Analyzer: Nirenburg, Beale, McShane (c.) • Machine Translation: Interlingual Methods: Dorr, Hovy , and Levin (c. 2001) • Natural Language Processing and Machine Translation: Dorr, Hovy and Levin

More Related