1 / 41

סמינר בבלשנות חישובית קורס מס' תאריך... הפקולטה... הטכניון המנחה... מאריה ח'לף מריאן מנסור

סמינר בבלשנות חישובית קורס מס' תאריך... הפקולטה... הטכניון המנחה... מאריה ח'לף מריאן מנסור Some Key Issues in Designing MT Systems. עקרונות בסיסים לבניית מערכת תרגום. מבוא. ההרצאה מבוססת על המאמר “Some Key Issues in Designing MT Systems ”,

raja
Download Presentation

סמינר בבלשנות חישובית קורס מס' תאריך... הפקולטה... הטכניון המנחה... מאריה ח'לף מריאן מנסור

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. סמינר בבלשנות חישובית קורס מס' תאריך... הפקולטה... הטכניון המנחה... מאריה ח'לף מריאן מנסור Some Key Issues in Designing MT Systems. עקרונות בסיסים לבניית מערכת תרגום.

  2. מבוא • ההרצאה מבוססת על המאמר “Some Key Issues in Designing MT Systems”, Keh-YihSu and Jing-Shin Chang, in Machine Translation Vol. 5 (1990) pp. 265-300. • כותבי המאמר פיתחו את מערכת התרגום אנגלית-סינית "ArchTran" בשנת 1985. • המאמר התמקד ב: -ניסיון כותבי המאמר בבניית מערכת תרגום גדולה. -נקודות בסיסיות שונות שחייבים לשקול אותם בעת בניית מערכת תרגום.

  3. מבוא • ARCHTRAN: • מכונת תרגום אנגלית-סינית • פותחה בשנת 1985 כפרוייקט ב National tsingHua University • מכונה זו השתמשה בשיטות ייחודיות : • ניתוח השפה נעשה ע"י שיטה המשלבת בין Top-Down ו Bottom-Up. • שיטת הציון (scored mechanism) • שיטה סטטיסטית המבוססת על קבצי אימון.

  4. מבוא • כתוצאהממרוכבות שפות טבעיותמכונת התרגום נתקלת במספר בעיות: -דו משמעות (Ambiguities) . -יצירת יתר (Overgeneration). - מבנים חריגים(Ill formed constructions). - אוצר המילים לא מוגבל. • ניתוח טוב של שפת המקור הוא השלב הקריטי בתהליך התרגום. • כדי לפתור בעיות אלו אנחנו צריכים לאגור מידע רב, הכולל מידע מילולי, מידע על אופן בניית ביטויים בשפה ומידע סימנטי. • אבל צריך לשמור על עקביות המידע שבמערכת, על אילוצי הזמן והיעילות של המערכת.

  5. שיקולים לבחירת דקדוק מבוא • השפות הטבעיות דורשות ניתוח סמנטי וסינטקטי מורכב. • הכוח התיאורי של השפה אצור בכללי הגזירה. • קיימים הרבה סוגים של דקדוקים. • בחירת הדקדוק צריכה להתבצע מנקודת מבט של מעצב תוכנה: - היכולת לממש ידע לשוני. - טיפול בדו המשמעות. - שמירה על יעילות הזמן.

  6. שיקולים לבחירת דקדוק מבוא • כל ניסיון להרחיב את הדקדוק עם כללים סמנטיים חייב לחרוג ממסגרת הפורמליזם. • כללים סמנטיים הם אלה שקובעים את האפשרות לחבר מילה למילה אחרת בשפה. • יכול להיות משפט נכון מבחינה תחבירית אך לא מבחינה סמנטית. דוגמא: ילדה פחדנית דירה פחדנית • המשפט השני נכון מבחינה תחבירית ש"ע+ ש"ת אבל לא נכון מבחינה סמנטית. • אי אפשר לצרף את שם התואר פחדן לשם העצם דירה כי פחדן שם תואר ל חייה.

  7. שיקולים לבחירת דקדוק כוח יצירה לעומת כוח ביטוי • כוח הדקדוק נקבע ע"י שני גורמים : 1.כוח יצירה: יכולת הדקדוק לייצר מילים ששייכות לשפת המקור. 2.כוח תיאור: יכולת הדקדוק לתאר שפה מבלי לייצר פירושים רבי משמעות.

  8. שיקולים לבחירת דקדוק כוח יצירה לעומת כוח ביטוי (תיאור) דוגמה: "הילד שותה מים" דקדוק מתאים לניתוח המשפט: משפט  ש"ע פועל ש"ע • בעיה: הדקדוק לא מתאים למשפטים כדוגמת: "שתה הילד מים" כוח היצירה של הדקדוק מוגבל

  9. שיקולים לבחירת דקדוק כוח יצירה לעומת כוח ביטוי דוגמה – המשך: ננסה דקדוק "גמיש" יותר: 1.משפט  מילה* 2.מילה  ש"ע | פועל בעיה 1: יצור גם משפטים חסרי משמעות כגון "רואה שותה"  יצירת יתר (Overgeneration). בעיה 2: מיצר פירושים רבי משמעות: פועל ש"ע הילד אוכֵל תפוח הילד אוכל תפוח כוח תיאור נמוך • קיבלנו דו משמעות מילולית : דו המשמעות נוצרה ממילה דו משמעית. • דוגמה לדו משמעות תחבירית: קיבלתי עניבה מאיטליה מאיטליה יכולה לשמש ל: -תיאור וקיבלתי -לוואי לעניבה

  10. שיקולים לבחירת דקדוק כוח יצירה לעומת כוח ביטוי - סיכום • דקדוק שכוח היצירה בו גדול מדי מאבד את המבנה התחבירי של השפה ומוסיף פירושים רבי משמעות (כוח התיאור יפגע). • דקדוק שכח היצירה בו מוגבל לא מכסה את כל השפה. • מסקנה: נשתמש בכוח יצירה קטן ככל שאפשר כדי לכסות את המבנה התחבירי של השפה עם מינימום יצור של פירושים רבי משמעות.

  11. שיקולים לבחירת דקדוק מאפייני דקדוקים • ישנם ארבעה סוגי דקדוקים לפי ההיררכיה של חומסקי. • סוג 0: דקדוקים בלתי מוגבלים,מתאים למודל מכונת טיורינג. • מכונת טיורינג: היא מודל מופשט לאופן פעולתו של מחשב עם זיכרון לא מוגבל. • סוג 1: דקדוק תלוי הקשר (CSG) • כלל היצירה תלוי בהקשר שבו מופיע המשתנה. • סוג 2: דקדוק חסר הקשר (CFG) • כלל היצירה עבורA יכול להתבצע ללא חשיבות לשאלה מה נמצא מימינו ומשמאלו של , כלומר ללא חשיבות להקשר בו הוא מופיע. • סוג 3: מתאים לשפות רגולריות

  12. שיקולים לבחירת דקדוק מאפייני דקדוקים • שפות רגולריות: • שפה רגולרית היא שפה שאפשר לתאר על ידי אוטומט סופי. • שפות טבעיות אינן רגולריות. • הסיבה המרכזית לכך ששפה אנושית אינה יכולה להיות שפה רגולרית היא קיום מבנים רקורסיביים בשפה טבעית. רקורסיה, בהקשר זה, היא האפשרות לשבץ מבנה תחבירי כלשהו בתוך מבנה תחבירי אחר מאותו סוג • דוגמה : דן אמר שרינה שכחה שיוסי יודע שהגשם ייפסק • כל משפט יכול להכיל בתוכו משפט משועבד (שיכול גם הוא להכיל משפט משועבד נוסף, וכו').

  13. שיקולים לבחירת דקדוק מאפייני דקדוקים - המשך • דקדוק חסר הקשר הוא מקרה פרטי של דקדוק תלוי הקשר, הכוח החישובי שלו קטן יותר. אבל חסר הקשר מתאים יותר לעיבוד שפות טבעיות. • דקדוק חסר הקשר מספיק בכדי לתאר את המבנה התחבירי של השפה. • רוב התיאוריות הסינטקטיות, שנעשו אז, היו מבוססות על דקדוקים חסרי הקשר והצטבר ידע תיאורטי רב וניסיון בטיפול בדקדוקים אלה ביעילות. • מנתחים תחביריים עבור דקדוקים חסרי הקשר הם יעילים בהרבה מאשר מנתחים תחביריים עבור דקדוקים תלויי הקשר.

  14. שיקולים לבחירת דקדוק מאפייני דקדוקים - המשך • הדקדוק צריך לאפשר ייצוג נוח של ידע בלשני: • ידע מוצהר (Declarative knowledge):מידע על חוקי השפה (אוצר המילים, תחביר...) • השימוש בשפה על סמך החוקים התחביריים. • ידע מוסק (Procedural knowledge): ידע על איך משתנים אלמנטים בשפה (הטיה). • השימוש בשפה בלי לדעת את החוקים. מוטב להרחיב שורה זו וזו שאחריה • מימוש נוח בעזרת מבנה נתונים.

  15. שיקולים לבחירת דקדוק תופעות דקדוקיות יוצאות דופן • לא תמיד ניתן לייצג תופעה לשונית בעזרת כללי דקדוק בצורה יעילה. לעיתים ניסיון כזה עלול ליצור כמות רבה של פרושים רבי משמעות. דוגמה: נתבונן בביטויים הבאים: בית ספר, בית שימוש, בית אבות וכו' ננסה ליצור כלל דקדוק שמזהה אותם כיחידה בעלת משמעות: ביטוי  "בית" ש"ע כלל כזה יזהה גם צירופים כגון "בית חברי" כביטויים בעלי משמעות מיוחדת.

  16. שיקולים לבחירת דקדוק תופעות דקדוקיות יוצאות דופן עוד בעיה : כתיבה חסרת ניקוד בעברית. • פתרון: -שימוש בטכניקות קיימות לתיקון שגיאות בצורה עדינה שלא מוסיפות דו משמעויות. - שלב עיבוד מוקדם של ניתוח לקסיקלי ומורפולוגי (אפשר לאחד ביטויים בשלב זה).

  17. אסטרטגיה לניתוח תחבירי מבוא • הניתוח התחבירי הוא השלב המרכזי של התרגום. • מטרת המנתח התחבירי ליצור את הניתוח הנכון בזמן סביר. ע"י : -בחירת המסלול המכיל מינימום הסתעפויות. -סילוק כפילויותומסלולים לא סבירים. -נתינת עדיפויות למסלולים. הסבר בהמשך...

  18. אסטרטגיה לניתוח תחביריBottom-Up vs. Top-Down • Top-Downכלפי מטה : עץ הגזירה נבנה מהשורש כלפי העלים • Bottom-Upכלפי מעלה : עץ הגזירה נבנה מהעלים כלפי השורש דוגמה לשני סוגי הניתוח: נתבונן בדקדוק הבא: G={V,T,S,P} V={S,A,B,C,D} T={a,b,c} P={SAB, ACB|CD, Cab, Bbc, Dbb} ננתח את המחרוזת הבאה: abbbbc

  19. אסטרטגיה לניתוח תחביריBottom-Up vs. Top-Down G={V,T,S,P} T={a,b,c} V={S,A,B,C,D} P={SAB, ACB|CD, Cab, Bbc, Dbb} ננתח TOP-DOWN את המחרוזת הבאה abbbbc:

  20. אסטרטגיה לניתוח תחביריBottom-Up vs. Top-Down G={V,T,S,P} T={a,b,c} V={S,A,B,C,D} P={SAB, ACB|CD, Cab, Bbc, Dbb} ננתח Bottom-Up את המחרוזת הבאה abbbbc:

  21. אסטרטגיה לניתוח תחביריBottom-Up vs. Top-Down • השוואה בין שתי השיטות: • במהלךTop-Down מבנה ההיררכי של התחביר ידוע, ובכך מקל על הניתוח הסמנטי. • בכל שלב זוכרים מאיזה חוק הגענו ואיזה חוק מפעילים כרגע. • יכולת גילוי הטעויות של Top-Down חלשה. • כי במהלך הגזירה Top-Down מנחש את כל צעד. • בד"כ Bottom up יותר יעילה מ Top down , כי היא מתבססת על הקלט לעומת Top-Down המתבססת על כללי הגזירה. ובכך Top down עלולה לבצע יותר גזירות בלתי אפשריות. זה תלוי שפה נראה הסבר בהמשך.

  22. אסטרטגיה לניתוח תחביריBottom-Up vs. Top-Down • יעילות שיטת הניתוח תלויה בכללי הדקדוק: • כמות גדולה של כללים מהצורה XYi תגרום ל- Top-Down להיות פחות יעילה. דוגמה: • ש"ע  ילד | כלב |חתול |בת|... • כמות גדולה של כללים מהצורה XiY תגרום ל- Bottom-Up להיות פחות יעילה. דוגמה: • פועל  אוכל ש"ע אוכל • בד"כ (ובפרט באנגלית) יש יותר כללים מהצורה XYi. • בדקדוק השפה האנגלית כל משתנה גוזר 8 חוקים בממוצע לכן Top-Down עובר על 8 האפשרויות אך Bottom-up מצליח בשני ניסיונות. • מסקנה : בחירת השיטה שתוביל למינימום הסתעפויות תייעל הניתוח.

  23. אסטרטגיה לניתוח תחביריBottom-Up vs. Top-Down • Bottom-Up יעילה יותר. • Top-Down טבעית יותר לניתוח סמנטי.  נשתמש ב- Bottom-Up על מנת לבנות את עץ הניתוח התחבירי, ובשלבים מסוימים נפעיל פונקציות מבוססות Top-Down כדי לאכוף הגבלות סמנטיות. • השיטה הנ"ל נקראת“Top-Down filtering with Bottom-Up parsing”

  24. אסטרטגיה לניתוח תחביריBottom-Up vs. Top-Down • דוגמא ל Mixed strategy: • בשלבי הגזירה של המרכיבים הלקסיקליים יש מספר רב של הסתעפויות. ש"ע  כלב |חתול | פרה ... . אפשר להתחיל ב BU עד שכל המרכיבים הליקסיקלים יזהו ואז לחזור לראש העץ ולהמשיך TD.

  25. אסטרטגיה לניתוח תחבירישיטות למניעת מעברים נשנים • Chart parsing: שיטה למניעת מעברים חוזרים על תתי מסלולים בעץ ע"י שמירת טבלה שמכילה מידע על תתי עצים שכבר נבנו. • State merging: שיטה למניעת מעברים חוזרים על תתי מסלולים בעץ ע"י שמירת מצב וקלט. כלומר אם הגענו למצב A שכבר הגענו אליו קודם עם אותו קלט אז במקום לבצע את החישוב עוד פעם, נשתמש בתוצאה שקיבלנו מקודם.

  26. אסטרטגיה לניתוח תחביריניתוח תחבירי מבוסס ציון וקיטוע • בשיטת הchart parsing ייעלנו את הניתוח אך לא צימצמנו את מרחב החיפוש ולא סילקנו מסלולים בלתי אפשריים. • בשיטות המסורתיות נתנו ציון לכל כלל גזירה(לפי מספר הפעמים שהפעלנו כלל זה או לפי אילוצים סימנטיים...).

  27. אסטרטגיה לניתוח תחביריניתוח תחבירי מבוסס ציון וקיטוע • בשיטה הזו ניתן ציון לכל מסלול בעץ החיפוש. • ציון זה יסייע לנו לייעל את תהליך החיפוש. ע"י מעבר על מסלולים בעלי העדיפות הגבוה לפני המסלולים האחרים. • הציון למסלולים תלוי בכללי גזירה, כללים סמנטיים וכללים הסתברותיים. • משפטים שגויים סינטקטית יקבלו ציון נמוך. • לייעול התהליך אפשר לחשב כמה מסלולים במקביל ( N המסלולים בעלי העדיפות הגבוהה ביותר)- beam search

  28. אסטרטגיה לניתוח תחביריניתוח תחבירי מבוסס ציון וקיטוע • שיטה זו מצמצמת את מרחב החיפוש. במקום לעבור על כל הגזירות השונות נעבור רק על הגזירות בעלות העדיפות הגבוהה ביותר. • החיפוש מתבצע מהגזירות בעלות העדיפות הגבוהה ביותר אל הגזירות בעלות העדיפות הנמוכות ביותר( כל פעם מחשבים N מסלולים עד למציאת המסלול הנכון). • האלגוריתמים המממשים שיטות אלה מאפשרים לקבוע (בצורה סטטית או דינמית) את מספר המסלולים השונים שיבדקו. • מרחב החיפוש קטן  מספר הדו משמעויות הצטמצם.

  29. אסטרטגיה לניתוח תחביריציון וקיטוע לעומת Chart Parsing • Chart Parsing היא שיטה ששומרת מידע (טבלאות) ככל שיותר של ניתוחים שכבר בוצעו. • שיטת הציון וקיטוע מבוססת על ביטול מסלולים בעלי עדיפות נמוכה וצמצום מספר הניתוחים.  השיטות מנוגדות.

  30. רכישת ידעמבוא • מערכות תרגום שנבנו לעבוד על טקסטים מתחום מסויים הביאו לתוצאות הרבה יותר טובות. • ככל שהמערכת תצבור ידע רב יותר על השפות, כך התרגום שתפיק יהיה איכותי יותר. • צריך לבחון הנחה זו בזהירות! • פיזיביליות. נסו לסכם גם בכתב מה שאתן רוצות להסביר בע"פ • עלות המימוש.

  31. רכישת ידעמורכבות המודל לעומת טיב התוצאה • בניית מערכת התרגום מורכבת משני שלבים: • הרצת המערכת על קבצי אימון. • בניית מודל השפה. • המטרה היא שיפור התוצאה ע"י אימון המערכת. • ביצוע המערכת נמדד עפ"י יכולתה להתמודד עם טקסטים חדשים. • בעיות עם שיטה זו: • המודל של השפה יכול להיות לא מתאים לתיאור הטקסט. • המידע המבוקש לתרגום הטקסט עלול להיות לא מכוסה ע"י קבצי האימון. • "כוונון יתר": התאמה של המערכת לקובצי האימון יתר על המידה עלולה לגרוע מאיכות התרגום על טקסטים אחרים. • מסקנה: בחירת קבצי אימון משפיעה על איכות ומרוכבות המערכת.

  32. רכישת ידעבעיות עם גישות מבוססות ידע • צבירת הידע הנחוץ מצריכה: - בדיקת נכונות המידע - שמירה על עקביות - התערבות אנושית רבה • פתרון בעיית הטיפול במקורות ידע גדולים יקר: • מבחינת עלות פיתוח המערכת. • מבחינת ביצועי המערכת.

  33. רכישת ידעבעיות עם גישות מבוססות ידע • הגישה המקובלת הייתה שהבנה סמנטיתמליאה של הטקסט תוביל לתרגום איכותי יותר. • טענה זו אינה תמיד נכונה. לפעמים תרגום מילולי של הטקסט יוביל לתוצאה טובה יותר. • קיימות כמה סיבות לכך שאי אפשר לבנות מערכת תרגום איכותית: -רכישת מאגר המידע דורשת זמן רב. -ברוב המקרים המידע מכיל הרבה סתירות (לא עקבי) -ככל שמגדילים את מאגר המידע, רמת האי עקביות גדלה בהתאם . • מסקנה: תהליך רכישת מאגר המידע הוא צוואר הבקבוק בתהליך בניית מערכת התרגום גדולה.

  34. רכישת ידעאלטרנטיבה: שיטות סטטיסטיות אנחנו צריכים מנגנון אחר שיכול לתת עדיפיות לאפשריות השונות, ובאותו זמן להשאיר את מאגר המידע תחת השליטה • שיטות סטטיסטיות: - עלות פיתוח נמוכה: קביעת העדיפויות בשיטה זו מתבצעת בצורה אוטומטית (ללא צורך בהתערבות אנושית). - גמישות: ניתן להוסיף קבצי אימון בכל שלב בעלות נמוכה ומבלי לשנות ולסבך את מבנה המערכת. - תהליך בניית המערכת יכול להתבצע באופן הדרגתי. - קביעת העדיפויות באופן אובייקטיבי על פי המצב בשטח (ולא על פי דעתו הסובייקטיבית של הבלשן)

  35. רכישת ידעבעיות עם שיטות סטטיסטיות • נדרשת כמות גדולה של קבצי אימון • המערכת לא תוכל להתמודד עם תופעות לשוניות שלא מופיעות בקבצי האימון

  36. רכישת ידעשילוב הגישות • בני אדם מסוגלים לבנות מודל מובנה היטב לשפה, אך לא לטפל בכמויות גדולות של מידע • מחשבים מסוגלים לטפל בכמויות גדולות של מידע, אך לא להסיק את מודל השפה. • מסקנה: האדם צריך ליצור מודל בנוי היטב של השפה שיכול לאתחל מספר פרמטרים, והמחשב צריך לכוון פרמטרים אלה בצורה סטטיסטית בעזרת קבצי אימון. • דוגמה: שילוב של שיטת הניתוח המבוססת על ציון וקיטוע, כשפונקצית הציון משלבת שיקולים סטטיסטיים

  37. אינטגרציה של מקורות ידע • ראינו שהמערכת מבוססת על מספר סוגי כללים: לקסיקליים, סינטקטיים, סמנטיים וסטטיסטיים • נרצה שהמערכת תחולק למודולים נפרדים, שיוכלו לעבוד במקביל • נרצה שהמודולים יוכלו לתקשר ביניהם באופן יעיל • לכך, יש צורך במבנה נתונים משותף, שהגישה אליו מסונכרנת ומבוקרת

  38. סיכום • ראינו מספר עקרונות לבניית מערכת תרגום • דברנו על כוח התיאור וכוח הייצור של הדקדוק, יש להרחיב את הדקדוק כך שיכיל את רוב המבנים התחביריים של השפה אך שהפגיעה בכוח התיאור תהיה מינימאלית. • הרבה דקדוקים מתבססים על דקדוק ח"ה, שעבורם נבנו מנתחים יותר יעילים מאשר דקדוקים תלויי הקשר, שאפשר להרחיב אותם בעזרת כללים סמנטיים כך שיהיה להם כוח שקול למכונת טיורינג. • לא תמיד כדאי לפתור בעיות לשוניות חריגות בהוספת כללים לדקדוק, טיפול בתופעות אלו צריך להתבצע בשלב הניתוח לקסיקלי ומורפולוגי או ע"י שימוש בטכניקות קיימות לתיקון שגיאות,

  39. סיכום • היעילות של הניתוח נמדד לפי הכוח שלו לפתור בעיות דו משמעיות זמן הביצוע. • BU יותר יעילה מבחינת זמן לעיבוד שפות טבעיות. • TD במבנה ההיררכי מספקת דרך טבעית לתיאור סמנטי של השפה ועוזרת לסינון אפשרויות לא רצויות. • לכן שילוב בין שתי השיטות יתן לנו תוצאה אופטימלית. • לייעל את זמן הניתוח דיברנו על: • Chart mechanism למניעת חזרה על ניתוחים שכבר בוצעו. • BU + TD

  40. סיכום • כדי להתגבר על הבעיות של דו משמעות ויצירת יתר ותופעות לשוניות חריגות דיברנו על: • שיטת הקיטוע, הוספת כללים סמנטיים. • שיטת ציון שנותנת עדיפויות לאפשרויות המתחרות. • לפעמים תרגום מילולי של הטקסט יוביל לתוצאה טובה יותר. • האדם צריך ליצור מודל בנוי היטב של השפה שיכול לאתחל מספר פרמטרים, והמחשב צריך לכוון פרמטרים אלה בצורה סטטיסטית בעזרת קבצי אימון.

  41. לסיום... שאלות?! תודה!!

More Related