1 / 79

מציגים: עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

סמינר בבלשנות חישובית 236 81 7 חורף 2011 תשע"ב, מדעי המחשב - טכניון שילוב דינאמי של מכונת תרגום מבוססת דוגמאות ומכונת תרגום מבוססת חוקים. Towards a Dynamic Linkage of Example-based and Rule-based Machine Translation Michael Carl, Catherine Pease, Leonid L.Iomdin , Oliver Streiter

aislin
Download Presentation

מציגים: עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. סמינר בבלשנות חישובית236817 חורף 2011 תשע"ב, מדעי המחשב- טכניוןשילוב דינאמי של מכונת תרגום מבוססת דוגמאות ומכונת תרגום מבוססת חוקים Towards a Dynamic Linkage of Example-based and Rule-based Machine Translation Michael Carl, Catherine Pease, Leonid L.Iomdin, Oliver Streiter 2001, Kluwer Academic Publishers Netherlands מציגים: עמרי דוד ותומר סטולרו בהנחיית פרופ' עוזי אורנן

  2. מבוא • קיימות שתי גישות מרכזיות למימוש מכונת תרגום: • מכונת תרגום המבוססת על דוגמאות ועל גוף הטקסט - CBMT • מכונת תרגום המבוססת על מגוון רחב של חוקים: מורפולוגים, סמנטים וסינטקטיים – RBMT • אנו ננסה להביא דגם של מכונה משולבת אשר מנצלת את הטוב שבשני העולמות, כך שביצועיה יעלו על ביצועי כל אחת מהמכונות בנפרד.

  3. תזכורת: • מכונת תרגום מבוססת דוגמאות (קורפוס) CBMT • מכונת תרגום מבוססת חוקים RBMT המכונות מבטאות הבדלים בין שתי גישות שונות לתרגום מידע לשוני:גישה אינדוקטיבית מול גישה דדוקטיבית.

  4. CBMT – מכונת תרגום מבוססת קורפוס מאפיינים: • מערכת אינדוקטיבית – הסקת הכללים מהדוגמאות, מזיכרון התרגום וניתוח הטקסט על פיהם. • מבוססת על טיוטת התרגום בשפת המקור ובשפת היעד • קבלת ההחלטות מבוססת מידע סטטיסטי – • ככל שקיים מאגר גדול יותר של תרגומים כך "איכות" התרגום עולה, כלומר הקורא יוכל להבין את המשמעות של הטקסט המתורגם בצורה טובה יותר. • תלויה בגודל הזיכרון המוקצה למכונה.

  5. RBMT – מכונת תרגום מבוססת חוקים מאפיינים: • חוקים מורפולוגיים • מערכת דדוקטיבית – מערכת ש"למדה" כללי וחוקי דקדוק על מנת להתמודד עם ניתוח ותרגום המשפטים • מבוססת על כללי התחביר • מילונים לקסיקוגרפיים בשפת המקור ובשפת היעד • גמישה מבחינת "כיסוי", כלומר תומכת במגוון רחב של נושאים

  6. למה נרצה מכונה משולבת? לכל אחת משיטות התרגום שהוצגו קיימים חסרונות שונים: • איכות התרגום • ביצועי מע' התרגום - מהירות העבודה, דיוק התרגום וכד' • גמישות והסתגלות המערכת לטקסטים בנושאים מגוונים המטרה: ניצול היתרונות של כל אחת מהמערכות כדי להציג שיפור בביצועים שיעלה על יכולותיה של כל מכונה בנפרד.

  7. למה נרצה מכונה משולבת? דוגמא לחסרונות של הגישות, • מכונת תרגום עם זיכרון (קורפוס) תתקשה בתרגום נכון של משפט חדש לחלוטין או של טקסט חדש. • מכונת תרגום מבוססת חוקים (RBMT) אינה "מכונה לומדת", לא תוכל לשמור תוצאות תרגום ולהסיק מהן על תרגומים עתידיים.

  8. מוטיבציה למכונה משולבת • טקסט המכיל נושאים מגוונים יתורגם באופן מהימן למקור בעזרת מכונה מבוססת חוקים בצורה טובה יותר מאשר במכונה המבוססת על דוגמאות ולהיפך. • חשוב להדגיש שגם כאשר מדובר במערכת מבוססת דוגמאות, יש שימוש בכללים על מנת לנתח את הדוגמאות ולהזין את התבניות למערכת.

  9. מאפיינים של מכונות תרגום • איכות התרגום • כיסוי • התאמה בין הטקסטים (Recall) • גודל יחידות התרגום • הסתגלות/גמישות

  10. מאפיינים של מכונות תרגום – איכות התרגום • קיימת חלוקה לחמש רמות – • אינדיקטיבי (מרמז) – מידע כללי על מתווה הטקסט. • אינפורמטיבי – מאפשר לקורא להבין באופן כללי את תוכן המסמך. • מילולי- כל פיסת טקסט מתורגמת באופן נכון מבחינת התבנית הדקדוקית • מהימן – מסמך היעד ערוך נכון מבחינה רעיונית ומבחינת הסגנון • מוכוון משתמש – הרמה הגבוהה ביותר. תרגום נכון מנקודת המבט של הקורא והשקפת עולמו.

  11. מאפיינים של מכונות תרגום – איכות התרגום • דוגמא: هناك ثلاث طائرات أمريكية بدون طيار تَحُومُ على مدار اليوم في سماء قريتنا •  שָׁם שלוש מטוסים אמריקאית בלא טייס תרחף על ציר היום בתוך שמיים כפר שלנוכפרנו (מבנה זה נמצא במקור ומצוי גם בעברית. בסוף מתאים לכתוב הכפר שלנו) • יש שלוש מטוסים אמריקאית ללא טייס תרחף על משך היום בשמיים כפר שלנו • יש שלושה מטוסים אמריקאים ללא טייס שמרחפים במשך כל היום בשמיים של הכפר שלנו. • יש שלושה מטוסים אמריקאים ללא טייס שחגים במשך כל היום בשמי כפרינו. • יש שלושה אפאצ'ים אמריקאים ללא טייס שחגים במשך כל היום בשמי כפרינו. 

  12. מאפיינים של מכונות תרגום – פרמטרים נוספים • התאמה (recall)– נכונות התרגום של כל יחידת טקסט בשפת המקור ביחס ליחידת הטקסט בשפת היעד. הנכונות מתייחסת למושגים כמו, מין, מספר, זמנים וכו'...ערך ההתאמה גדל כתלות ביכולת המכונה לחלק את הטקסט ליחידות תרגום. • طائرات أمريكية • כביכול היינו אמורים לתרגם את הביטוי הנ"ל כ- "מטוסים אמריקאית" • עבור התאמה טובה, עלינו לתרגם את הביטוי כ- "מטוסים אמריקאים"

  13. מאפיינים של מכונות תרגום – פרמטרים נוספים • גודל יחידות התרגום – ככל שאורך היחידות שיתורגמו נכונה יגדל, כך המכונה תשיג איכות תרגום גבוהה יותר. אורך יחידות התרגום אף יכול להפוך תרגום מילולי למהימן ואף למוכוון משתמש. • אם נפריד את הביטוי مداراليوم לשתי יחידות שונות, יתקבל תרגום שגוי – חגים על ציר היום בשמי הכפר שלנו • עבור תרגום נכון, על המילים להופיע באותה יחידת תרגום:חגים במשך היום בשמי הכפר שלנו اليوم في سماء قريتنا اليوم في سماء قريتنا تَحُومُ على مدار

  14. מאפיינים של מכונות תרגום – כיסוי • השאיפה של כל מכונת תרגום היא לתרגם בצורה הטובה ביותר כל טקסט שיינתן לה. עם זאת, תחומי עניין שונים מאופיינים במילים וביטויים ייחודיים. • כיסוי רחב יאפשר למכונת התרגום לעבד בצורה מקיפה מגוון טקסטים גדול ואילו כיסוי מצומצם יגביל את מרחב התרגום האפשרי של המכונה. • RBMT – כיסוי גבוה, כל טקסט מתורגם עפ"י סדרת כללים • CBMT – כיסוי נמוך, רק עפ"י הדוגמאות שהוזנו למערכת.

  15. מאפיינים של מכונות תרגום – כיסוי נמוך עבור מזג אוויר אין צורך בכיסוי גבוה, מפני שהביטויים קבועים וידועים מראש

  16. מאפיינים של מכונות תרגום – כיסוי גבוה השונות של הטקסט גדולה, תרגום אוטומטי יתקשה להשיג אפילו איכות סבירה

  17. מאפיינים של מכונות תרגום – פרמטרים נוספים • הסתגלות – • דרישה בסיסית מתרגום באיכות של תרגום מילולי היא ארגון נכון של יחידות הטקסט והתאמתן לשפת המטרה. • ככל ששפת המקור תהיה יותר עשירה, כך יהיה קשה יותר למכונת התרגום להתאים את המבנה של הטקסט לכזה שיתאים לשפת היעד. • ההסתגלות נמצאת ביחס ישר לגודל יחידות התרגום – ככל שיחידות התרגום ארוכות יותר כך קשה יותר לתרגמן בצורה תקינה.

  18. מאפיינים של מכונות תרגום – פרמטרים נוספים • דוגמא, Die Brilleistbilligerin Russland The eyeglasses is cheaper in Russia • נשים לב שאחוז ההתאמה (recall) הוא 100% :כל יחידת טקסט מתורגמת באופן תקין לשפת היעד. • חלוקת יחידות התרגום באופן שונה עשויה הייתה להניב תרגום יותר מהימן, מכיוון שהיחס בין "משקפיים" ל"זולות" היה ברור: The eyeglasses are cheaper

  19. שילוב הגישות למכונות התרגום • עקב החסרונות של כל אחת מהגישות, הגיע הרעיון למזג מספר תפיסות למכונת תרגום משולבת. • שילוב חלש – לכל רכיב משאבים ומבני נתונים משל עצמו שאינם משותפים עם שאר מרכיבי המערכת. התרגום מבוצע על ידי מנשק שמוגדר היטב – פלט של רכיב אחד הוא הקלט של הרכיב הבא. • שילוב חזק – מבני הנתונים משותפים לכל המרכיבים. יתכנו שינויים למבני הנתונים שישפיעו על תוצאות התרגום של מספר מרכיבים שונים. שילוב חזק מול שילוב חלש

  20. שילוב הגישות למכונות התרגום - המחשה שילוב חלש ….. שילוב חזק

  21. שילוב הגישות למכונות התרגום – דוגמאות מחקריות • אידיום – צירוף מילים בעל משמעות מיוחדת, שונה מזו המתקבלת באופן מילולי מכל אחת מהמילים המרכיבות אותו בנפרד. • קפה + טורקי / נס / הפוך / שחור • כאשר מכונת התרגום תיתקל במילה "קפה", היא תוכל לפרשה כקָפֶה, קֹפָה אוקֻפָּה. המכונה תיעזר במילה הבאה שתופיע על מנת להכריע בין הצירופים האפשריים. • הוכח שתרגום מבוסס חוקים המועשר במערכת סטטיסטית יכול לטפל בצורה טובה במקרים של צירופים מסוג זה. • נעשו מספר ניסיונות לנצל את התכונה כדי להשיג תרגום איכותי.

  22. שילוב הגישות למכונות התרגום – מחקריםשילוב חזק • בשנת 95 רֵיינר ובוילון תיארו שימוש במידע סטטיסטי במהלך הפעלת מכונת תרגום מבוססת חוקים. המידע הסטטיסטי נאסף באופן ידני על ידי דירוג התרגומים השונים שהציעה המערכת.מאחר שכל המסמכים עסקו בתחום עניין מצומצם, ניתן היה לטפל בשגיאות טיפוסיות שנעשו על ידי המערכת. • במקרה זה איכות התרגום הגבוהה באה על חשבון הכיסוי. • זהו שילוב חזק, מכיוון שלכל חוק נקבעה רמת התאמה סטטיסטית לנושא הטקסט

  23. שילוב הגישות למכונות התרגום – מחקריםשילוב חזק • איסוף סטטיסטי ידני יאפשר להגדיר עדיפות גבוהה למילה קָפֶהכאשר מופיעים אחריה ביטויים מתאימים. • באותו אופן ניתן להגדיר עדיפות למילה חָלָב, כאשר יש צורך בכך. מתוך תפריט "קפה הלל"

  24. שילוב הגישות למכונות התרגום – מחקריםשילוב חזק • דוגמה נוספת לשילוב חזק הביאו בשנת 99 סטרייטר ועמיתיו.הם אספו מידע על תדירויות מילים בטקסטים וסיווגו את המילים לפי תחומן. את המילים הללו הוסיפו למילון מכונת התרגום מבוססת החוקים, כך שהתרגומים הנפוצים קיבלו עדיפות גבוהה. באופן זה הושג כיסוי גבוה, אך איכות התרגום ירדה.בחירה לפי סטטיסטיקה לא תמיד נכונה או מתאימה לתחום.

  25. שילוב הגישות למכונות התרגום – מחקריםשילוב חלש • במערכת שהוצגה על ידי פרדריק ונירנבורג ב- 94, שלוש מ"ת בלתי תלויות הורצו במקביל כשכל אחת מהן מתרגמת חלקים של טקסט המקור.אלגוריתם בשם "הליכה על טבלה" (chart-walk) אסף את התרגומים ובכל פעם בחר מבין המרכיבים המתורגמים את אלה שהתאימו בצורה הטובה ביותר לבניית משפט בשפת היעד. האלגוריתם בעצם הרכיב את המשפטים בשפת היעד מחלקי התרגום הטובים ביותר שמצא בפלט של שלוש מכונות התרגום.זהו שילוב חלש מכיוון שכל אחת מהמכונות עבדה בנפרד עם הנתונים שלה

  26. שילוב הגישות למכונות התרגום – מחקריםשילוב חלש • בימי קדם אנשים נהגו לצוד את האוכל שלהם In the ancient times… In the eastern days… In the greeting days… In the ancient times people used to hunt their food

  27. שילוב הגישות למכונות התרגום – מחקריםשילוב חלש • בשנת 96 תיאר הֶיין אינטגרציה בין שתי מערכות - הראשונה מבוססת על זיכרון דוגמאות(TRADOS) והשנייה מכונה מבוססת חוקים (LOGOS). • במקרים בהם מכונת התרגום TRADOS לא מצאה במילוניה התאמה לתבניות המוכרות לה, הועבר המשפט לתרגום רגיל על ידי מכונת התרגום מבוססת הכללים LOGOS.בסופו של התהליך המשתמש קיבל הודעה איזו מהמערכות תרגמה את המסמך, מכיוון שאיכות התרגומים של לוגוס צפויה להיות פחות אמינה.

  28. ETAP-3 • מערכת תוכנתית גדולה, מבוססת חוקים, שפותחה עבור תרגום באיכות גבוהה. • המערכת מבוססת על הקשר משמעות טקסט, זוהי תאוריה לשונית שעושה שימוש בעצי תלויות עבור הייצוג והמבנה הסינטקטי. • השימוש העיקרי היה לתרגום דו-כיווני בין רוסית לאנגלית ושימש בעיקר בטקסטים מדעיים וטכניים של מדעי המחשב, הנדסת חשמל והנדסת חומרים • ל- ETAP-3 פותחו גרסאות ניסוי צרפתית-רוסית, רוסית-קוריאנית וגרמנית-רוסית. • בנוסף, קיים מודול שממיר מאנגלית או רוסית לשפת הרשת הבינלאומית UNL.זוהי היא שפת ביניים (Interlingua) המבוססת אנגלית.פותחה במטרה לאפשר למשתמשי האינטרנט תרגום חצי אוטומטי של שפות. • משפטי המסמך מתורגמים אחד אחרי השני, בעזרת שימוש בכללים המוטמעים בלקסיקונים השונים. http://cl.iitp.ru/etap

  29. ETAP-3 משפט מקור משפט יעד

  30. ETAP-3 - MorphS • Wishes father thoughts 1. [הוא] מייחל למחשבות האב 2. משאלות מולידות מחשבות בשורה השנייה בטבלה אין מחשבות? (או להפנות לשקף הבא)

  31. ETAP-3 - SynthS • Wishes father thoughts • Пожелания порождают мысли. • Father הינו גרעין הפרדיקט ומופיע בראש העץ • עץ התלויות הוא הרכיב החשוב ביותר במערכת ETAP-3, ככל שההתאמה לשפת המקור נכונה יותר כך נוכל לגזור ממנו בשלב הבא מבנה תקין יותר בשפת היעד.

  32. ETAP-3 - SynthS • Wishes father thoughts • Пожелания порождают мысли. • נשים לב שמכונת התרגום בחרה באפשרות השנייה:fatherהוא הנשוא (פועל), כאשר Wishes מהווה את הנושא. • ככל הנראה נבחרה האפשרות השנייה, על ידי ה-Parser, מכיוון שבאנגלית קיימים כללים נוקשים, לפיהם בדרך כלל המשפט מתחיל בנושא.

  33. ETAP-3 – מרכיבים נוספים • מרכיב חשוב נוסף במערכת הינו מזהה הביטויים האינטראקטיבי. • זוהי מערכת חצי אוטומטית, מכיוון שהיא מחייבת אינטראקציה עם משתמש אנושי. • משמש להוספת ביטויים-רעיוניים למילון המערכת: פרשת-דרכים, קיבוץ גלויות, פיצוץ אוכלוסין. • במידה ומזוהה ביטוי כזה, נבנים עבורו עצים בשפת המקור ובשפת היעד. • בשלב הבא, המערכת יוצרת עבור כל עץ את המשפט המתאים ומציגה למפעיל האנושי את התוצאות. • במידה והמפעיל אישר את התרגום, המערכת מחפשת האם קיימת תבנית תרגום מתאימה במערכת הכללים הדו-לשוניים ומקשרת אליה את הביטוי או יוצרת תבנית חדשה. • אם המפעיל אינו מרוצה, מוצגים תרגומים נוספים עד אשר המפעיל מרוצה מהתוצאה. • במקרים נדירים, יאלץ המפעיל להזין בעצמו את התרגום הנכון ולהוסיף אותו ידנית למערכת הכללים.

  34. CAT-2 • מערכת תרגום מבוססת חוקים. • מכניזם שפותח עבור מספר שפות, ביניהן אנגלית, צרפתית וגרמנית, וניתן היה לתרגם בעזרתו מגוון נושאים. • נעשה שימוש בCAT2 - בפרויקט שפת הרשת הבינלאומית UNL. עבור התרגום מגרמנית ל-UNL .

  35. CAT-2 - דוגמא נרצה לתרגם את המשפט: Der Sprachwissenschaftler hat bei der Arbeit grosse Angst vor ununterscheidbaren Morphemen. בתרגום חופשי הפירוש הוא: THE LINGUIST HAS BY THE WORK BIG FEAR OF AMBIGUOUS MORPHEMES חששו הגדול ביותר של הבלשן במהלך עבודתו הוא מורפמות רב-משמעיות.

  36. CAT-2 - דוגמא שלב א' – שלב הניתוח המורפולוגי Der Sprachwissenschaftler hat bei der Arbeit grosse Angst vor ununterscheidbaren Morphemen. Der לקסמה: d_art קטגוריה: יידוע מין: נקבה יחיד/רבים: יחיד יחסה: מושא עקיף/ שייכות יחיד/רבים: רבים יחסה: שייכות מין: זכר יחיד/רבים: יחיד יחסה: נושא/נשוא

  37. CAT-2 - דוגמא שלב א' – שלב הניתוח המורפולוגי Der Sprachwissenschaftler hat bei der Arbeit grosse Angst vor ununterscheidbaren Morphemen. Sprachwissenschaftler לקסמה: Sprachwissenschaftler קטגוריה: ש"ע מין: זכר יחיד/רבים: יחיד יחסה: נושא-נשוא / מושא ישיר מין: זכר יחיד/רבים: רבים יחסה: נושא-נשוא/ מושא ישיר / שייכות

  38. CAT-2 - דוגמא שלב א' – שלב הניתוח המורפולוגי Der Sprachwissenschaftler hat bei der Arbeit grosse Angst vor ununterscheidbaren Morphemen. hat לקסמה: haben קטגוריה: פועל יחיד/רבים: רבים כינוי סתמי זמן: הווה FIV=familiar irregular verb

  39. CAT-2 - דוגמא Der Sprachwissenschaftler hat bei der Arbeit grosse Angst vor ununterscheidbaren Morphemen. שלב ב' – בסיום הייצוג המורפולוגי מבוצע ניתוח סינטקטי וסמנטי • מוגדרות פונקציות סינטקטיות: נושא, מושא ישיר ועקיף, לוואים ועוד. • בנוסף מופעלים כללים סמנטייםהקשורים ל-נושא המשפט, המבצע והמטרה. למשל בדוגמא: (חששו הגדול ביותר של הבלשן במהלך עבודתו הוא מורפמות רב-משמעיות.) הנושא: הפחד Angst (fear) משמש כנושא הפועל. הנשוא: הוא מקושר עם הפועל hat (have) שמשמש כגרעין הפרדיקט מי שחש את הפחד הוא הבלשן ה-Sprachwissenschaftler (the linguist)למה הפחד? המורפמות ununterscheidbarenMorphemen(indistinguishable morphemes) הן מקור הפחד.

  40. CAT-2 - דוגמא Der Sprachwissenschaftler hat bei der Arbeit grosse Angst vor ununterscheidbaren Morphemen. s = subject g = goal t = theme f = function word pred = predicate

  41. CAT-2 - דוגמא Der Sprachwissenschaftler hat bei der Arbeit grosse Angst vor ununterscheidbaren Morphemen. בשלב הבא מוסרות מהעץ מילים שהשפעתן על תרגום המשפט מועטה או מילים שעשויות להתפרש כדו משמעיות. למשל מילות יחס, שמות תואר ועוד. לאחר מכן, מסירים כינוי גוף ואוגדים (מילים הקושרות בין הנושא לנשוא כמו היה, היתה, נעשה וכו') ובמקומם מוכנסות מילים שמתארות את מבנה הארגומנט.

  42. CAT-2 - דוגמא Der Sprachwissenschaftler hat bei der Arbeit grosse Angst vor ununterscheidbaren Morphemen. למעשה נקבל את "עץ המנשק" :

  43. CAT-2 - דוגמא Der Sprachwissenschaftler hat bei der Arbeit grosse Angst vor ununterscheidbaren Morphemen. כעת מבוצעת המרה לשפת היעד עבור העלים של "עץ המנשק" : n = notion l = lemma

  44. CAT-2 - דוגמא Der Sprachwissenschaftler hat bei der Arbeit grosse Angst vor ununterscheidbaren Morphemen. ununterscheidbaren לאחר תרגום המילים נקבל את העץ הבא: s = subject g = goal t = theme mod = modifier n = noun v = verb d = direct object a = adjective

  45. CAT-2 - דוגמא Der Sprachwissenschaftler hat bei der Arbeit grosse Angst vor ununterscheidbarenMorphemen. • לבסוף מוכנסים למשפט פעלי העזר והאוגדים בשפת היעד לפי המפרט הלקסיקלי. למשל מוכנס האוגד be • המילים מאורגנות בסדר הנכון של שפת היעד • מוכנסים תיקונים אחרונים, למשל שלילה (כמו מה שראינו קודם)

  46. CAT-2 - דוגמא The linguist is very much afraid of morphemes that are not distinguishable during the operation

  47. EDGAR • מערכת תרגום מבוססת דוגמאות. • מבוססת על דוגמאות תרגום של ניתוחים מורפולוגים. • שיטת הפעולה המרכזית: • פירוק והכללת מבנה משפט המקור באמצעות השוואה לתבניות ידועות. • דוגמאות המוכלות אחת בשנייה מועברות למבנה כללי תוך כדי שמירת מאפייני התבנית. • התאמת חלקי המשפט לשפת היעד

  48. EDGAR • המשתנה הגנרי יקבל שמות עצם המתאימים למגבלות החלות על המילה ski, כלומר ש"ע היוצר צירוף שמני, למשל • Station de sport • Station de taxi • Station de métro • במקרה שלא תהיה התאמה מושלמת בין הדוגמה לטקסט היעד, יתכנו גם תרגומים שגויים: • Station de terreGround station • Sport station • Taxi station • Metro station

  49. EDGAR – דוגמה • נניח שקיימים הכללים והתבנית . • נרצה לתרגם את המשפט הבא לגרמנית: • הפרדת המשפט ליחידות תרגום על בסיס הדוגמאות הנתונות. • החלפת חלקי המשפט במשתנים הכלליים המתאימים: המשפט שהתקבל מתאים לתבנית שקיימת במאגר, לכן נכליל אותו למשתנה יחיד: • a green apple. • The small boy • eats • einen grünen Apfel • Der kleine Junge

  50. שילוב מערכת ETAP-3 עם זיכרון תרגום • אחד החסרונות העיקריים של מערכת ETAP-3 המבוססת על חוקים הוא החוסר בזיכרון תרגום. • המערכת בונה לכל משפט את עץ התלויות, אך לא יכולה לדעת האם המשפט כבר הוצג לה פעם או שזהו משפט חדש. • חיסרון זה בא לידי ביטוי כאשר הטקסט מכיל מילים בשפה חופשית או סלנג –תיתכן דו-משמעות, כך שיחידת התרגום אמורה לקבל משמעות שונה בהקשרים שונים של טקסט, אך בהיעדר זיכרון יהיה צורך ליצור מספר עצים שונים ולתרגמם: • כאשר מסתכלים לאחר מכן על הטקסט המתורגם בהקשר המלא יתכנו סתירות בתרגום הראשוני. • "שיח מרתק" • ?

More Related