1 / 59

תרגום רב לשוני מבוסס דיאלוג עבור מתרגם חד לשוני

תרגום רב לשוני מבוסס דיאלוג עבור מתרגם חד לשוני. אמיר אשכנזי רוני שרף. סמינר בבלשנות חישובית. בהנחיית פרופ' עוזי ארנון. בפקולטה למדעי המחשב, טכניון 2011. אז מה יהיה לנו היום. הצגת הגישה נציג 2 מערכות המממשות את הרעיון " LIDIA " HebRus TranTool

leanne
Download Presentation

תרגום רב לשוני מבוסס דיאלוג עבור מתרגם חד לשוני

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. תרגום רב לשוני מבוסס דיאלוג עבור מתרגם חד לשוני אמיר אשכנזי רוני שרף סמינר בבלשנות חישובית בהנחיית פרופ' עוזי ארנון בפקולטה למדעי המחשב, טכניון 2011

  2. אז מה יהיה לנו היום... • הצגת הגישה • נציג 2 מערכות המממשות את הרעיון • "LIDIA" • HebRus\ TranTool • נשווה בין המערכות • נסכם

  3. מטרה: כמו כל ההרצאות עד עכשיו. רוצים לתרגם כמות עצומה של מסמכים למספר רב של שפות. הקושי: • תרגום אנושי - יקר מידי, איטי וגם לא תמיד אפשרי. (למשל משתמש ביתי) • תרגום באמצעות מחשב – הוא גם יקר וגם כמו שכבר ראינו על מנת לקבל תרגום ברמה גבוהה דרושה התערבות אנושית או מגבלות על השפה.

  4. תרגום באמצעות מחשב כמו שראינו גם בהרצאות קודמות הקושי העיקרי בתרגום באמצעות מחשב הוא פתרון דו-משמעויות.

  5. גישה חדשה ננסה לשלב בין השניים. נרצה לתרגם באמצעות מכונה אך עם עזרתו של מחבר המאמר. ישנם הרבה מיקרים בהם יש למחבר המאמר אינטרס לתרגם את מאמרו ולכן ישמח לשתף פעולה עם מכונה ולתרגם את מאמרו לשפות רבות. נשים לב המחבר לא צריך לדעת את שפות היעד אלא רק את שפת המקור

  6. יתרונות הגישה השילוב בין המחבר למכונה נותן לנו מספר יתרונות: • הוזלת עלות המכונה • נמנעים מלהגביל את שפת המקור • השפעה של המחבר על התרגום הסופי • ניצול ידע נוסף שקיים אצל המחבר

  7. ויש גם חסרונות • מאט במקצת את כתיבת הטקסט • נדרשת נכונות של המחבר לתהליך התרגום. • חסרון נוסף שכיום כבר לא כל כך רלוונטי הוא אולי חוסר הגישה של כל מחבר טקסט למחשב. (המאמר נכתב בשנת 94)

  8. למי המכונה תתאים • "מחבר חד-לשוני" – מחבר טקסט שלא בהכרח בקיא בשפת היעד • מחבר שרוצה להתערב במהלך התרגום למען תוצאה איכותית יותר

  9. מתי כדאי להשתמש במכונה כזאת • כאשר הטקסט לא מתאים לגישות הקיימות (הטקסט מורכב מידי) • נדרש תרגום למספר רב של שפות • רוצים תרגום איכותי עם מגבלות תקציב ויכולת.

  10. דרישות מהמערכת • מנשק נוח למשתמש • תאימות למשתמש שאינו מומחה • אמינות התרגום • מינימום הגבלות על שפת המקור • כדאיות

  11. Large Internationalisation des Documents par Interaction avec l'Auteur בנאום של מסמכים גדולים על ידי אינטראקציה עם המחבר

  12. פרויקט LIDIA 1.0 • המערכת מומשה בשנת 1996 • בשלב הראשוני של פרויקט LIDIA חשבו על מצב ספציפי: מהנדס צרפתי, אשר צריך ליצור מסמך טכני בצורה של "כרטיסיה", על מחשב מקינטוש. • המהנדס צריך לעזור למערכת לתרגם את המסמך לשפות אנגלית, גרמנית ורוסית. • לשם כך, היו לרשות המהנדס תחנת עבודה על מחשב מקינטוש ושרת מכונת תרגום (MT) על IBM-4361 המריצה סביבת עבודה Ariane-G5.

  13. דוגמא לכרטיסיה/ היפר כרטיס היפר כרטיס זהו שם נרדף לאוסף כרטיסים. לכל כרטיס יש רקע, פקדים ושדות. רקע יכול להיות משותף למספר כרטיסים

  14. מדוע כרטיסיות? • כרטיסיות הפכו להיות מאוד פופולריות באותם הימים לצורך תיעוד טכני. • ההנחה הקיימת היא שהמחברים ייטו להסכים להשתתף בדיאלוג, אם האמצעי שהם משתמשים בו הוא אינטראקטיבי וידידותי למשתמש.

  15. יתרונות שימוש בכרטיסיות • בידוד הטקסט מתמונות, נוסחאות, טאבים שונים וכו'. • הטקסט יכול להיות מוקלד, וכתוצאה מכך מקל על ניתוחו.לדוגמא: שדה מסוים יכול להכיל רק כותרות (לפעמים די בהם להבנת הכוונה), שדה אחר יכול להכיל רק משפטים ללא הנושא הראשוני (כי ידוע מההקשר)

  16. שיטת העבודה של LIDIA 1.0 • סטנדרטיזציה: כל השדות והפקדים יומרו לסוגי טקסט ידועים מראש. תהליך המבוצע באופן אינטראקטיבי עם המחבר. • ניתוח הטקסט הסטנדרטי: שימוש בשרת תרגום, על מנת להמיר ייצוג פנימי של הטקסט (mmc-structure) לצורה חיצונית, הנוחה לקריאה, ואשר נשלחת למקינטוש. • mmc – Multisolution, Multilevel and Concrete

  17. שיטת העבודה של LIDIA 1.0 • יצירת דיאלוג אינטראקטיבי: על המקינטוש עם המחבר. המחבר יראה את כל אפשרויות התרגום בשפה שלו, כלומר את כל המשפטים הדומים (לפי מאגר הנתונים,כולל משפט הזהה, אם קיים) למשפט שברצונו לתרגם, ויבחר באפשרות המתאימה. • mmc-structure -> umc-structure • umc – Unisolution, Multilevel and Concrete • הפשטה: לשפת ייצוג של שפת המקור • umc-structure -> uma-structure • uma – Unisolution, Multilevel and Abstract

  18. שיטת העבודה של LIDIA 1.0 • העברה לשפת היעד: את הייצוג המופשט של שפת המקור מתרגמים לייצוג המופשט של שפת היעד. (gma-structure) • gma – Generating, Multilevel and Abstract • תרגום: את הייצוג המופשט של שפת היעד נתרגם לטקסט בשפת היעד. • בקרת משתמש: במידה והמשתמש ירצה, הוא יוכל לבצע תרגום חזרה לשפת המקור, לצורך בקרה.

  19. דוגמא קטנה "ניסיתי למצוא משפט טוב למצגת היום" Google translate "I tried to find a good line presentation today" Google translate "ניסיתי למצוא מצגת קו טוב היום"

  20. שיטת העבודה של LIDIA 1.0 סטנדרטיזציה mmc-structure תרגום חזרה umc-structure טקסט בשפת היעד uma-structure gma-structure

  21. מגבלות של LIDIA 1.0 • אינטראקציית המשתמש עם היפר-כרטיסיות: נקבע על ידי קבוצת העדפות מוגדרת מראש. פקדים ותיבות טקסט שקיימות בכרטיסיות היוו את האפשרויות הקיימות. • התוכנה נועדה למהנדסים בלבד. (תחום צר) הערה: מחברי המאמר כתבו כי הם הוסיפו check box להתחלת והפסקת ריצת התוכנה. בנוסף, הוסיפו מגבלות אשר מבטיחות כי התרגום יהיה של הטקסט בלבד ולא של הסקריפט (כלומר הקוד של הפקדים השדות השונים וכו')

  22. דיאלוגים שונים להבהרה וסטנדרטיזציה: במודל זה, לא היו קיימים כלים סטנדרטיים לבדיקת איות, עיצוב וקטגוריות טקסט. • כיסוי שפה: • 134 למות צרפתיות, המתייחסות ל-526 חריגות בשפה, לעומת כ- 10000 למות הקיימות בשפה • 304 למות אנגליות, לעומת כ- 10000 הקיימות בשפה • 370 למות גרמניות, לעומת כ- 5000 הקיימות בשפה • 394 למות רוסיות, לעומת כ- 30000 הקיימות בשפה • כיסוי דקדוקי בינוני.

  23. מאגרי מידע ב- LIDIA 1.0 LIDIA 1.0 מכילה מסד נתונים, אשר בו שני סוגי כרטיסים: • כרטיסי סיפור – אוסף של 2-3 סיפורים בעלי משפט משותף כלשהו, אשר אינו חד-משמעי. • Le capitaine a rapporte un vase de Chine. Ce vase estanglais • Le capitaine a rapporte un vase de Chine. Son navireesttresdefraichi. • כרטיסי משפט – מכילים משפט כלשהו, המהווה אופציה אחת לסיפור ספציפי המוצג בכרטיס סיפור. • Le capitaine a rapporte un vase de Chine. • Son navireesttresdefraichi.

  24. דוגמא: • המחבר רוצה לתרגם משפט מסוים מצרפתית לגרמנית. הוא עושה זאת על ידי בחירת אופציית התרגום בתוכנה (LIDIA 1.0). לאחר מכן, התוכנה מחכה שיבחר את המשפט שיש לתרגמו:

  25. נוצר חלון מצב של המשפט שמתבצע עליו תרגום: • אם נלחץ על סימן השאלה המופיע בחלון, נפתח חלון נוסף,המציג: • את פעילות המערכת כעת (מודגש) • את הפעילות הקודמת (ייצוג רגיל) • את הפעילות העתידית (טקסט מוטה - italic)

  26. הפעילות הנוכחית היא ניתוח המשפט הנבחר. • פעילות עתידית, הסרת דו-משמעות למשפט, אם קיימת.

  27. כאשר יש צורך בהתערבות של המחבר (עקב מחסור בנתונים), LIDIA שולחת למחבר סיגנל, ומחכה לתגובה: • ברגע שהמחבר יבחר בפקד השמאלי בחלון (משמאל לסימן השאלה), התוכנה תציע לו אפשרויות שונות לניתוח הגורמים הרלוונטיים במשפט.

  28. המשפט הראשון מרמז שהקפטן היה בסין ומשם הביא את האגרטל • המשפט השני מרמז שהקפטן הביא אגרטל שמקורו בסין • המחבר בוחר באפשרות המתאימה לו

  29. המערכת מציגה את האפשרויות עבור המילה capitaine, אשר לה גם כמה תרגומים אפשריים. המחבר יתבקש לבחור באפשרות המתאימה לו. בהקשר שלנו, במה יבחר המחבר? קפטן הוא רב חובל של ספינת מסחר קפטן הוא קצין צבאי, המפקד על פלוגה קפטן הוא ראש קבוצת ספורט

  30. לבסוף, לפי האפשרויות שנבחרו, המערכת מוכנה לתרגם את המשפט לגרמנית, ומציגה את התוצאה: • Der Kapitän hat eine chinesische Vase mitgebracht. • מה קורה לתוצאה השנייה, שהייתה מוצגת בהתחלה? Le capitaine a rapporte(un vase de Chine) de Chine, le capitaine a rapporte un vase.

  31. המערכת מעדכנת את כרטיס הסיפור המתאים בגרמנית: • צד שמאל מתאים ל: Le capitaine a rapporte un vase de Chine. Ce vase estanglais • צד ימין מתאים ל: Le capitaine a rapporte un vase de Chine. Son navireesttresdefraichi.

  32. המערכת מאפשרת לבצע תרגום חזרה של המשפט מגרמנית, לקבלת המשפט בצרפתית: • במשפט הנ"ל אין כבר דו-משמעות, וידוע בדיוק מה הייתה "כוונת המשורר".

  33. סוגי רב-משמעויות הנידונות ב- LIDIA 1.0 • דו-משמעות סינטקטית: • רב-משמעות במבנה הפועל: The firm pilot carries her. The pilot shutsthe door. Le pilotefermela porte. He talks about the cooking school. He talks from the cooking school. He talks from the school about cooking. Il parle de l'école de cuisine

  34. The lyonnaise cooking school is closed. The school of lyonnaise cooking is closed. • דו-משמעות בכפיפות: • דו-משמעות בסדר של המילים: L'école de cuisine lyonnaise est fermée Which author is this lecturer quoting? Which lecturer is this author quoting? Quel auteur cite ce conferencier

  35. אופן הניתוח של משפט • בהינתן משפט, LIDIA 1.0 יוצרת עבורו עצי ניתוח, כאשר כל עץ מהווה משמעות אחת של הבנת המשפט. • עבור משפט רב-משמעי, היו נוצרים מספר עצי ניתוח.

  36. דוגמא: Le capitaine a rapporte un vase de Chine un vase a Le rapporte capitaine de Chine הקפטן הביא אגרטל שמקורו בסין

  37. Le capitaine a rapporte un vase de Chine un vase a Le rapporte capitaine de Chine הקפטן הביא אגרטל מסין

  38. כיצד ניתן לטפל בדו-משמעויות • חילוק המשפט למקטעים, כאשר כל קטע מתורגם בנפרד. • חילוק הקשרים באופן הגיוני (לא נייחס פועל של עשייה למשהו דומם) - מה שמתאים לעולם. • חיבור המקטעים השונים למשפט אחד חד-משמעי • במידה והתוכנה לא יכולה ליצור משפט חד-משמעי, אזי תידרש התערבות המחבר, בדומה למה שראינו קודם.

  39. מסקנות • המערכת נועדה לשימוש אינטראקטיבי ופעיל של המחבר. המחבר לוקח חלק בתהליך התרגום • המערכת עובדת עם מסד נתונים מוגבל, ולכן אינה מצליחה תמיד לתרגם באופן מלא את המשפט • התוכנה היא "מערכת לומדת", כיוון שהיא מעדכנת את מסד הנתונים, לפי הבחירות של המחבר, ולכן מגדילה אותו ומקטינה את הסיכויים לטעויות בעתיד • המערכת נותנת שירות ב-4 שפות בלבד, כיוון שנחשבו בזמנו (ואולי אפילו כיום) כשפות מרכזיות בעולמם של המהנדסים

  40. LIDIA כיום • קיימות גרסאות LIDIA 3 ו- LIDIA 2, כאשר ב- LIDIA 3 קיימת אפשרות של תרגום קטעים של XHTML (שפת סימון לעיצוב דפי אינטרנט). • קיים מסמך נלווה, המכיל את ניתוח הפירושים של עצים מרובים (במקרה של דו-משמעות)

  41. HebRusand TranTool

  42. עקרונות המכונה • מערכת לומדת • שימוש במסד נתונים מצומצם • מילון ביתי עברי-רוסיורוסי-עברי

  43. תהליך העבודה של המכונה טקסט מקור ניתוח לקסיקלי ומורפולוגי טקסט לאחר ניתוח ראשוני (בעל דו-משמעויות) פתרון דו-משמעויות טקסט חד-משמעי יצירה טקסט יעד

  44. פתרון דו-משמעויות עבור מלה מסויימת שיכולה לקבל כמה משמעויות הניתוח יעבוד כך: • המכונה תבנה תפריט פירושים מתאימים עבור המילה. • המחבר יבחר את הפרושים המתאימים ביותר מתוך התפריט. • המכונה תשקלל את הבחירות של המשתמש ותבחר את התרגום הטוב ביותר.

  45. בניית תפריט פרושים למשתמש עבור מילה עם דו-משמעות, כדי לבנות את תפריט הפרושים נוציא את כל הפרושים שלה מהמילון ומכאן נוציא עבור כל פרוש את כל הפרושים שלו מן המילון ההפוך.

  46. בניית תפריט פרושים למשתמש דוגמא: כנובע מניתוחיו המורפולוגיים ניתוח, בדיקה analiz razbor Operacia ניתוח, פירוק, בדיקה ניתוחיו מבצע, ניתוח, פעולה, תפעול, עסקה

  47. במשתמש בוחר את הפרושים המתאימים. המשתמש מקבל את רשימת האפשרויות: ניתוח, בדיקה, פירוק, בירור, מבצע, פעולה, תפעול, עסקה. בחירת המשתמש: ניתוח, בדיקה, פירוק, בירור

  48. שקלול הבחירות של המשתמש עבור כל מילה נגדיר כמה דברים F יהיה שווה ל 3 אם הפרוש נבחר, ואחרת יהיה שווה ל -1 Order_max יהיה מספר כל הפרושים שהתקבלו t_iיהיה המקום של הפרוש לפי הסדר שהתקבלו הפרושים

More Related