1 / 45

Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew. Levinger-Ornan-Itai Computational Linguistics, 21, 383-404, (1995). הקפה. מה כתוב כאן? The coffee הקָ פֶ ה Encirclement הקָפָה Her perimeter הֶקֵפָהּ. פתרון רב משמעות מורפולוגית – לשם מה?.

Download Presentation

Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Learning Morpho-Lexical Probabilities from an Untagged Corpus with an Application to Hebrew Levinger-Ornan-Itai Computational Linguistics, 21, 383-404, (1995).

  2. הקפה מה כתוב כאן? • The coffeeהקָפֶה • Encirclementהקָפָה • Her perimeterהֶקֵפָהּ

  3. פתרון רב משמעות מורפולוגית – לשם מה? • מנתחים תחביריים • מערכות להמרה של טקסט לדיבור • חיפוש באינטרנט

  4. הגדרות בהינתן שפה L, ומלה W, ניתן למצוא את כל הניתוחים המורפולוגיים האפשריים. למלה Wיש kניתוחים אפשריים: אם 1 < kאז Wרב-משמעית.

  5. הגדרות (המשך) ההסתברות המורפו-לקסיקלית שלAi נתונה ע"י: האלגוריתם המוצע יחשב את - הסתברות מוערכת

  6. ראשי פרקים: • תיאור של בעיית הרב-משמעיות בעברית. • כיצד לרכוש הערכה טובה של ההסתברויות המורפו-לקסיקליות תוך שימוש בקורפוס בלתי-מתויג. • תיאור של ניסוי לבדיקת איכות ההערכה של ההסתברויות אלו. • אסטרטגיה פשוטה לביצוע פתרון רב-משמעות מורפולוגית בעברית ע"י שימוש בהסתברויות אלו.

  7. רב משמעיות בעברית

  8. רב משמעיות בעברית • במחקר נאספו 40,000 מלים (word tokens). • 2.1 אפשרויות ניתוח בממוצע למילה. • 55% מהמלים הן רב-משמעיות.

  9. הכתיב העברי • הכתיב המקובל (כתיב מלא לא מנוקד) משמיטה אינפורמציה חשובה:רוב התנועות מכפלים • מילים קצרות (מלות היחס, ו-החיבור, ה' הידוע) מופיעות כתחיליות בלתי מופרדות. ולעיתים גם לא מפורשות בכתב. לדוגמא בְבית בַּבּית.

  10. מרכיבי מלה בעברית • שורש + משקל = בסיסד.ב.ר. + פיעל = דיבר • חלק דיבר (POS)פועל, שם-עצם, שם-פעולה... • הטיות קניין ומושא מחברותי, אהבתיה • מין, מספר (עבור ש"ע, תארים, פעלים) • גוף (עבור פעלים ומלות יחס) הלכתי, אליה • זמן (עבור פעלים)

  11. בעיות נוספות בעברית • במקרים רבים שני ניתוחי מלה אפשריים יש להם אותה קטגוריה. יתר על כן, במקרים מסוימים ההבדל היחיד בין שתי אפשרויות הוא השורש – לדוגמא: חלו • סדר המלים חופשי יחסית

  12. גישות קודמות לפתרון • אורנן, 1986 – הכתב הפונמיšiţa liktob ´ibrit b-`otiyot laţiniyot b-`opn še-mšaqqep `et mibne ha-şapa -דורש העברת טכסטים קיימים בעברית לכתב הפונמי. • חוקים\מגבלות סינטקטיים - לא מאפשר לפתור את הבעיה ביעילות. פותר רק עבור מקרים מסוימים

  13. הפתרון המוצע – הגישה הסטטיסטית.כיצד מחליטים איזה ניתוח מילה לבחור? למרות שהעברית מאוד רב-משמעית מבחינה מורפולוגית, נראה שדובר השפה יכול לנחש בד"כ את הניתוח הנכון. זאת מבלי לדעת את הקונטקסט. הדיוק בניחוש יגבר, אם דובר השפה ידע לאיזה תת-שפה המילה שייכת. מכאן, עבור כל מלה רב-משמעית, מצא את ההסתברות המורפו-לקסיקלית של כל ניתוח אפשרי. אם ערך מסוים גבוה משמעותית מהאחרים, בחר בניתוח במתאים לערך זה.

  14. כיצד נחשב הסתברויות אלה? דרך אחת לחשב הסתברויות אלה, הוא לקחת קורפוס מתויג גדול, לספור את המופעים של כל אפשרויות הניתוח של כל מילה, וכך לחשב את ההסתברויות. החיסרון – בעיית דלילות, ומכאן צריך בקורפוס מתויג גדול. לא קיים כזה בעברית. יתר-על-כן, נדרש קורפוס כזה עבור כל תחום (מדע, עיתונות, שפת יומיום וכו')

  15. SW SETS SW = SIMILAR WORDS קבוצה של מלים הדומות אחת לשנייה. לכל המלים יהיה אותו השורש ומשקל. אנו מצפים שתדירות ההופעה של כל מלה בקבוצת SW תהיה דומה למלים אחרות בקבוצה. - לדוגמא, צורת הזכר וצורת הנקבה של פועל יופיעו בתדירות דומה.

  16. בניית קבוצות SW נקבעו מספר חוקים היוריסטיים, שמבוססים על אינטואיציה של דובר השפה. ניתן לשנות / להוסיף / לגרוע חוקים. לנו הספיקו 10 כללים לבניית הקבוצות.

  17. הכללים לבניית קבוצות ה- SW • הוספת/הורדת ה' הידיעה לש"ע • ש"ע עם כינוי קניין – אותו ש"ע אם כינויי קניין אחרים (שולחני, שולחנו, שולחננו...) • תואר – אותו תואר בשינוי מין ומספר (גדול, גדולה, גדולים...) • פועל בלי כינוי מושא – אותו פועל בשינוי מין ומספר (הולך, הולכת, הולכים...) • פועל עם כינוי מושא – אותו פועל עם כינוי מושא אחר (שברתיו, שברתיה...)

  18. הכללים לבניית קבוצות ה- SW(המשך) • כינוי גוף – כינויי גוף אחרים באותו גוף (אני, אתה, הוא...) • מספרים ממין זכר/מספרים ממין נקבה • ש"ע פרטי, אותיות השימוש – קבוצת SW ריקה.

  19. דוגמא - הקפה • הקפה- ‘Encirclement’ }=SW1 ההקפה- ‘The encirclement’} • ה+קפה- ‘The coffee’ }=SW2 קפה { ‘Coffee’ - • הקף+ה ‘Her perimeter’ - }=SW3 הקפו- ‘His perimeter’, הקפם- Masculine ‘Their perimeter’ הקפן ‘Feminine ‘Their perimeter’ –}

  20. הכללים הם תלויי שפה אך לא תלויי נושא המלה 'מצביע': • הפועל הצביע (vote, indicate) • ש"ע מצביע (pointer)

  21. הערות השימוש בקבוצותSW נותן הערכה בלבד של ההסתברויות המורפו-לקסיקליות, כי: • נצפה מהמלים בקבוצות ה-SW להופיע בערך כמספר הפעמים, שהניתוח המורפו-לקסיקלי המתאים מופיע. • אמינות החישוב תלויה במספר הפעמים שהמלה הרב-משמעית מופיעה בקורפוס - בעיית דלילות המידע. • ההנחה שלכל המילים באותו SW הן שוות הסתברות אינה מדויקת.

  22. האלגוריתם • אתחול: לכל הניתוחים יש הסתברות שווה • לכל ניתוח מחשבים את מספר המופעים הממוצע – גם המלה הרב-משמעית מופיעה בקבוצות ה-SW • אם מלה מסוימת מופיעה במספר קבוצות, מחשבים את התרומה של המלה לקבוצה באופן יחסי (ע"פ איטרציות קודמות) • מחשבים את היחסים בין הניתוחים השונים ע"י חישוב היחסים בין מספר המופעים הממוצע של כל ניתוח • חוזרים על הפעולה, עד אשר המספרים מתייצבים

  23. The algorithm

  24. מקרים בעייתיים • חלק מהמלים בקבוצת ה- SW יכולות בעצמן להיות רב-משמעיות. כל זמן שניתוחי המלה האחרים אינם תדירים, המצב טוב. אם לא, ניתן בטעות, לספור את המלה יותר מדי פעמים, וכך לפגוע בנכונות האלגוריתם. מכאן, כדאי להגדיל את הקבוצות, וכך לאתר מלים "מטעות" כאלה. • לעתים לשתי אפשרויות ניתוח שונות יש אותה קבוצת SW. במקרה זה האלגוריתם לא עובד.

  25. דוגמאות לפעולת האלגוריתם 1SW = {הקפה = 200, ההקפה = 18 } 2SW = {הקפה = 200, קפה = 180 } 3SW = {הקפה = 200, הקפו = 2, הקפם = 2, הקפן = 2} 0.001 = ε התכנסות לאחר 10 איטרציות.

  26. הערה מסיבות טכניות, לא ניתן היה לזהות מלים רב-משמעיות בתוך קבוצות ה- SW (המנתח המורפולוגי היה על מכונה נפרדת מהמכונה עליה היה הקורפוס ותוכנת הכנת קבוצות ה- SW). למרות שתיאורטית יכלה להיווצר בעיה, למעשה התופעה לא הפריעה לנכונות האלגוריתם.

  27. דוגמאות (המשך) • {חודש = 2079, החודש = 970} • {חודש = 2079, חודשה = 41, חודשו = 57} 2 המלים בקבוצה 2 הן רב-משמעיות. אך מכיוון שהן מופיעות מעט, אין זה משפיע כמעט, על תוצאות האלגוריתם, שנותן: 0.961 = 1P 0.039 = 2P

  28. דוגמאות (המשך) הבעיה שתוארה לעיל - רב-משמעיות של מלים נוספות בקבוצה – לעתים בכל זאת מזיקה. פתרון של בעיה זו הוא זיהוי מלים כאלה כמלים מטעות. מכאן, ניתן להוסיף זיהוי כזה כשיפור לאלגוריתם. הזיהוי מותנה בהגדרת מלה מטעה. מילה הוגדרה כמטעה אם המונה שלה היה גדול לפחות פי 5 מכל מילה אחרת בקבוצה.

  29. דוגמאות (המשך) הצורך בהכנסת המלה הרב-משמעית לקבוצות ה- SW מומחשת בדוגמא הבאה: • {את = 197,501} • {את = 197,501 , אתה = 1689 , אתם = 891 , אתן = 105} • {את = 197,501 , האת = 0} תוצאות האלגוריתם: 0.0001 = 3P, 0.0045 = 2P, 0.9954 = 1P • למרות ש"האת" מופיעה 0 פעמים, ההסתברות שלה שונה מ – 0.

  30. מציאת הניתוח הנכון בקונטקסט • מבוסס על עבודת המגיסטר של אריאל סגל • מנתח מורפולוגי לעברית נכתב במסגרת פרויקט לתואר ראשון.http://www.cs.technion.ac.il/~erelsgl/bxi/hmntx/teud.html

  31. מציאת הניתוח הנכון בקונטקסט • אראל שילב מספר אלגוריתמים והצליח לקבל דיוק של 96%. • השלביםשלב המילה: שיטת המילים הדומות,שלב הזוג: תיקון ע"פ כללי תיקון שנלמדו,שלב המשפט: תיקון ע"ס ניתוח תחבירי חלקי.

  32. שלב המילה • הבסיס הוא הערכת ההסתברות לכל ניתוח ע"פ שיטת המילים הדומות. • בהבדל:במקום להעריך כל הטיה בנפרד, הנחנו שההסתברות של ההטיה והבסיס בלתי-תלויות, הערכנו ההסתברות אלו בנפרד, וחישבנו את ההסתברות לניתוח כמכפלה. • דוגמא P(הלך) = p1; P(הסתפר) = p2; P(1sg,past) = qP(הלכתי) = p1q; P(הסתפרתי) = p2q

  33. שלב המילה (המשך) • אלון אלטמן ערך ניסוי ולפיו ההערכות אלו אינן מדויקות • אך, הדירוג ההסתברויות של המילים נשמר.

  34. שלב הזוג • נלמדו כללי תיקון בדומה לשיטת Brill • כללי תיקון נבחרו מתוך מספר תבניות.התבניות בחנו מילים סמוכות.הרצנו את כל הכללים על טכסט לימוד, ושמרנו את הכלל ששיפר את הביצוע במידה המרבית.חזרנו על התהליך עד שלא השתפרנו עוד. • בניגוד ל-Brill הכלל לא היה מוחלט, לכל ניתוח היה ציון, והכללים יכולים להגדיל או להקטין את הציון של כל ניתוח.בחרנו את הניתוח עם הציון המכסימלי.

  35. דוגמא לכלל • if the current analysis of w1 is a proper-noun and the current analysis of w2 is a nounand w2 has an analysis as a verb that matches w1 by gender and number, then add 0.5 to its morphological score, and normalize the scores .

  36. שיפור הניתוח בעזרת כלל • יוסף עדרעדר היא דו-משמעית: פועל בעבר ו- עֶדֶר (כבשים). • score(עֶדֶר) = 0.7; score(עָדַר) = 0.3 • שימוש בכלל הקודם יגדיל את • score(עָדַר) = 0.8 • אחרי נורמליזציה • score(עֶדֶר) = 0.7/1.5; score(עָדַר) = 0.8/1.5 • והניתוח יוסף עָדַר עדיף!

  37. לימוד הכללים • (Initialization): Assign each word its most probable analysis. • (Transformation rule generation): loop over all incorrectly tagged words in the corpus. Generate all transformation rules that correct the error. • (Transformation rule evaluation): loop over the candidate transformation rules and retain the rule that corrects the maximum number of errors, while causing the least damage. • Repeat the entire process until the net gain of all rules is negative.

  38. שלב המשפט • כתבנו מנתח תחבירי פשטני (ולא מדוייק) שמנסה לצמצם את המשפט. • דוגמא: שם-עצם תואר (שמסכימים במין ומספר)  שם עצם מספר המילים שנשארו מהוות ציון (שלילי).

  39. אלגוריתם הניתוח • הפעלנו אלגוריתם של תכנות דינמי • קלט: משפט בו לכל מילה הציון המורפולוגי שהתקבל מהשלב הקודם. • פלט: הניתוח הסביר ביותר של המשפט. • זמן O(n3)

  40. Evaluation • An analyzed corpus of 5361 word tokens • Article A with 469 word tokens (which leaves 4892 word tokens in the training corpus), • Article B with 764 word tokens (which leaves 4597 word tokens in the training corpus), • We performed 6-fold cross validation

  41. השפעת כל רכיב

  42. Word Phase Sentence Phase Pair Phase באופן גרפי 14 7 3.8 5.3 21 36 14 20

  43. שגיאות הבעיה הפיתרון • לפעמים המנתח התחבירי הורס ניתוח נכון. • לא מכיר ביטוייםמִקְפיאת דםשׂר הפָנים • שמות פרטיים יש לבנות מנתח טוב יותר (Abney) לבנות לקסיקון של ביטויים לבנות תכנה לזיהוי שמות פרטיים

  44. מסקנות • בעיית בחירת הניתוח המורפולוגי הנכון בעברית היא לא פשוטה. • ניתן, באמצעים סטטיסטיים, לפתור את רב המשמעות של רוב המילים. • היוריסטיקות נוספות: one discourse – one analysis • יש מקום לשיפורים.

More Related