1 / 74

סמינר בבלשנות חישובית

סמינר בבלשנות חישובית. מבנה מרכיבי המשפט הפקולטה למדעי המחשב - הטכניון חורף תשע"ג. הדר אורן וברק בנגד - בהנחיית פרופ' עוזי אורנן. מבנה מרכיבי המשפט - תוכן עניינים. בהרצאה זו נדבר על הנושאים הבאים: ניתוח תחבירי של המשפט - מרכיבים. ניתוח תחבירי של המשפט - קטגוריות וצירופים. דקדוקים.

adila
Download Presentation

סמינר בבלשנות חישובית

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. סמינר בבלשנות חישובית מבנה מרכיבי המשפט הפקולטה למדעי המחשב - הטכניון חורף תשע"ג הדר אורן וברק בנגד - בהנחיית פרופ' עוזי אורנן

  2. מבנה מרכיבי המשפט - תוכן עניינים • בהרצאה זו נדבר על הנושאים הבאים: • ניתוח תחבירי של המשפט - מרכיבים. • ניתוח תחבירי של המשפט - קטגוריות וצירופים. • דקדוקים. • מהצרוף ועד המשפט. • מיון חלקי הדיבר.

  3. הקדמה • מהו ניתוח של משפט? • ניתוח המבנה של המשפט: נושא, נשוא, מושא, וכיוב'. • זה • הסטודנטים נהנים מאד • ז • ניתוח לפי קטגוריות וצירופים במשפט: שם-עצם, פועל, תואר, צירוף-שמני וכיוב'. לוואי נשוא נושא

  4. דו-משמעות / עמימות (Ambiguity) המונח כפל משמעות / דו-משמעות / עמימות, מתאר מצב שבו ניתן לפרש את אותה מחרוזת של מילים ביותר מדרך אחת. נבחין בין שני סוגים של דו-משמעות: • דו-משמעות לקסיקלית • דו-משמעות מבנית

  5. דו-משמעותלקסיקלית (Lexical Amb.) משפטים הם בעלי דו-משמעות לקסיקלית משום שהם מכילים מילים דו-משמעיות. "הדר ביקרה את ברק" "אברהם נשא את שרה" ובלעז: “Bill claimed that he saw her duck”

  6. דו-משמעות מבנית 1 (Structural Amb.) הפרושים השונים במשפט בעל דו-משמעות מבנית נובעים מכך, שאנו יכולים לייחס לאותה המחרוזת מבנים דקדוקיים שונים. ברק חיפש את הדר במכונית. הדר התרשמה מסיסמות הבחירות המוצלחות. the tall bishop’s hat.

  7. דו-משמעות מבנית 2 (Structural Amb. the [tall bishop]’s hat the tall [bishop’s hat] דוגמאות אלו ממחישות ,שמילים מתקבצות לקבוצות בתור צרוף (phrase) או פסוקית, וזיהוי הקיבוץ לעיתים הכרחי בקביעת המשמעות.

  8. דו-משמעות מבנית 3 (Structural Amb.) איך נגדיר את הסביבה שבה המילים מתקבצות ליצירת משמעות יחידה? • האם זו מסגרת הצרוף שהמילה נתונה בו (phrase)? • האם זו היחידה התחבירית המיידית, הפסוקית (clause)? • האם זה המשפט הגדול המכיל את הפסוקית, שהמילה נמצאת בו (sentence)? • או אולי תחום החיים שהטקסט מדבר עליו?

  9. דו-משמעות מבנית 4 (Structural Amb.) הדוגמה הבאה לקוחה מכותרת אמיתית בעיתון: Reagan Wins On Budget, But More Lies Ahead דוגמה מסוג זה מדגימה את חשיבות סביבת המילה ואת חשיבות הקטגוריה התחבירית של המילה. [[But [More [Lies Ahead [But [[More Lies] Ahead

  10. מרכיבים 1 (Constituents) מרכיב - מילה או קבוצת מילים המתפקדות כיחידה אחת במבנה היררכי. דוגמה בלעז (מלזית): Ahmadis eatingrice. This personis eatingfish. That old personis eatingbanana. Ahmadis eatingthat big fish. Ahmad | makan | nasi. Orang ini| makan | ikan. Orang tuaitu | makan | pisang. Ahmad | makan | ikanbesaritu. כל מרכיב מהווה יחידה סמנטית, וטמון בו תפקיד דקדוקי אחד.

  11. מרכיבים 2 ש: האם בכל מצב שבו קבוצת מילים מרכיבה יחידה סמנטית היא גם רציפה מבחינת סדר המילים? למשל בשפת ה-Warlpiri: ת: לא! הנושא‘small child’מורכב משתי מילים: שם-עצם ותואר. הנ"ל מופרדים במשפט,ולא מהווים יחידה רציפה.

  12. מרכיבים 3 ש: האם בכל מצב שבו קבוצת מילים מרכיבה יחידה סמנטית היא גם רציפה מבחינת סדר המילים? ת: לא! דוגמא ברוסית: Vshkolu | umnei | padhol | malchik מילולית: (ל)בית ספר חכםהלךילד גם בדוגמה זו, ילד ו- חכם מופרדים במשפט,ולא מהווים יחידה רציפה.

  13. מרכיבים 4 דוגמא בלטינית: "Castrasunt in Italia contra populumRomanum in Etruriaefaucibusconlocata”Marcus Tullius Cicero יש מחנות באיטליה נגד העם הרומי שממוקמים במעברים הצרים באטרוריה מחנות = Castra ממוקמים (תואר) = conlocata

  14. זיהוי המרכיבים 1 מחרוזות מילים שניתן להחליף אותן במילה בודדת במיקום מסוים במשפט, חייבות להיות ביחידה אחת (כלומר, מרכיב) מאותו הסוג. בדוגמה שראינו - Orang tuaitu| makan | pisang. That old personis eating banana. אנו רואים, שניתן להחליף את צרוף המיליםOrang tuaitu, במילה בודדת, כדוגמת Ahmad או He. כשניתן "להזיז" קבוצה של מילים כיחידה אחת, אנו יכולים להניח שהקבוצה מהווה מרכיב תחבירי. נסענו לתל-אביב לפני שהתחילו כל הפקקים. לפני שהתחילו כל הפקקיםנסענו לתל-אביב.

  15. זיהוי המרכיבים 2 עוד כלי לזיהוי המרכיבים, הוא שניתן להחליפם במילת שאלה. למשל בדוגמה הבאה: אני אוהב שוקולד ועוגות גבינה. מי אוהב שוקולד ועוגות גבינה?

  16. זיהוי המרכיבים 3 באופן דומה, מרכיבים יכולים להוות תשובה לשאלה, בעוד שמחרוזת מילים שאינה מרכיב תחבירי, היא לא תשובה אפשרית. כל הילדים קופצים רוקדים, חוץ מהדר. מי לא קופץ רוקד?  הדר מי לא קופץ רוקד?  חוץ

  17. מרכיבים - סיכום מחרוזות מסוימות מהוות מרכיב תחבירי, משום שמחרוזות אלו: • יכולות להחליף או להיות מוחלפות ע"י מילה בודדת. (ניתן להחליף את המרכיב הילדה הקטנה ב הדר) • יכולות להיות מוזזות כיחידה אחת. (נסענו לתל-אביב לפני שהתחילו כל הפקקים. לפני שהתחילו כל הפקקים נסענו לתל-אביב.) • יכולות להיות מוחלפות ע"י מילת שאלה. (אני אוהב. מי אוהב?) • יכולות לתפקד כתשובה לשאלה. (מי אוהב? אני אוהב.) איסוף נתונים אלו דורש ידע רב בדקדוק בשפה. כאשר מתחילים ללמוד שפה חדשה מאפס, זה הגיוני להניח הנחות לגבי מבנה מרכיבי המשפט, המבוססות על גורמים כגון משמעות ופוטנציאל חלופה.

  18. מבנה מרכיבי המשפט - תוכן עניינים • ניתוח תחבירי של המשפט - מרכיבים. • ניתוח תחבירי של המשפט - קטגוריות וצירופים. • דקדוקים. • מהצרוף ועד המשפט. • מיון חלקי הדיבר.

  19. היררכיה 1 פסוקית (clause) - היחידה התחבירית הקטנה ביותר שיכולה להביע רעיון שלם. הפסוקית תמיד במבנה של משפט (המחנכת הדגולה העבירה הרצאה) צרוף (phrase) - קבוצת מילים, אשר יכולה לתפקד כמרכיב בפסוקית פשוטה(המחנכת הדגולה). • משפט יכול להכיל פסוקית אחת, או מספר פסוקיות. • פסוקית בודדת יכולה להכיל מספר צרופים. • צרוף אחד יכול להכיל מספר מילים. • מילה יחידה יכולה להכיל מספר צורנים או מורפמות (מורפמה - יסוד בעל ערך משמעותי במבנה הדקדוקי).

  20. היררכיה 2 משפט, אשר מהווה יחידה דקדוקית בנויה היטב ושלמה, מורכב ממרכיבים, אשר הם בעצמם יחידות דקדוקיות הבנויות היטב (פסוקיות, צרופים, וכיוב'). קיים מספר קטן (וסופי) של יחידות בסיסיות כאלו (שם-עצם, פועל, צירוף שמני, שם-תואר, וכיוב'). הארגון המבני הזה בנוי מיחידות אלו, אשר יוצרות את היחידה השלמה.

  21. קטגוריות תחביריות על-מנת להבין את תפקיד המילים והצרופים במשפט, עלינו לסווג אותן לקטגוריות תחביריות (פועל, שם-תואר, צירוף שמני, צירוף פעלי וכיוב'). נפתח בקטגוריות מילים, דהיינו, קטגוריות לקסיקליות, שבעקבותיהן נקבעות הקטגוריות של הצרופים.

  22. קטגוריות לקסיקליות / חלקי הדיבר 1 הגדרה מסורתית לחלקי הדיבר מבוססת על תכונות סמנטיות כמובא להלן: • פועל - מילה המכנה פעולה או אירוע. • שם-עצם - מילה המכנה אדם, מקום או דבר. • שם-תואר - מילה המכנה מצב או תכונה.

  23. חלקי הדיבר 2 עם זאת, • סיווג זה נכשל בזיהוי שמות-פעולה כגון: destruction, theft, הליכה, כתיבה. • לא ניתן להבדיל בין הפועל ובין השם - 'שׁוֹמֵר' (שׁוֹמֵר גן החיות / שׁוֹמֵר נַפְשׁוֹ יִרְחַק מֵהֶם (משלי כב ה)). • חכם - שם-עצם? (מלומד ובקי בתורה) תואר? (נבון, פיקח)

  24. חלקי הדיבר 3 ומה לגבי המשפטים הבאים: שתיתי את השלובלוב גצצתי את השולחן, וחשבתי לעצמי כי הדבר מאד משוטב • האם עליי לדעת מהו שלובלוב בשביל לדעת לאיזו קטגוריה הוא שייך? • ומה לגבי גצצתי? ומשוטב?

  25. חלקי הדיבר 4 אנו מבינים שסיווג כזה לא יכול להיות מבוסס על תכונות סמנטיות, משום של"מילים" כאלו אין בכלל משמעות. נשתמש בתכונות של מילים אלו, כגון התכונות המורפולוגיות על מנת לנחש את תפקידו במשפט. נבחין כי העברית שונה בתכונותיה מן האנגלית (באנגלית מיקומה של המילה במשפט יכול לרמוז על תפקידה).

  26. חלקי הדיבר 5 שיוך המילים לקטגוריות כרוך בשתי שאלות מהותיות: • אילו מילים שייכות יחד לאותה הקטגוריה?(למשל - האם אכל, לאכול ואכילה באותה קטגוריה? האם אכל ונשם באותה קטגוריה?) בתשובה לשאלה יינתן ייחוס לתכונות הדקדוקיות השונות שיכולות להיות שונות בכל שפה. • איך ראוי לקבוע את השם הראוי לקטגורית מילים נתונה? תשובה לשאלה זו לרוב מבוססת על התכונות הסמנטיות המקובלות, אשר משותפות לשפות רבות.

  27. חלקי הדיבר 6 נראה שלמילים בקטגוריות שונות תכונות דקדוקיות שונות באמצעות הדוגמאות הבאות. בעברית: שם-הפעולה לעומת פועל באנגלית: עבור שם-העצם fool ושם-התואר foolish.

  28. חלקי הדיבר 7 בעברית: א. הטייה לפי ממ"ג (מין, מספר, גוף) - פועל ניתן להטות לפי ממ"ג ושם פעולה לא:  שָׁתָה / שְׁתִיתֶם / שָׁתִינוּ ב. תווית ידוע - לשם פעולה ניתן להוסיף תווית ידוע ולפועל לא: הַכְּתִיבָה  הַלָגַם / הַלָגְמָה / הַלָגַמְנוּ

  29. חלקי הדיבר 8 באנגלית: א. שינוי ע"י העצמה (intensifiers) - שם-עצם אל מול שם-תואר: They are utter fools. They are very fools.  They are utter foolish.  They are very foolish. ב. ריבוי: fool fools foolish  foolishes

  30. חלקי הדיבר 9 רק לאחר שיוך המילים לקטגוריות, כמוצג לעיל, עבור שפה כלשהי, ניתן לכנות אותן בשמות (שם-עצם, פועל, וכיוב') ע"פ תבניות רעיוניות (סמנטיות) המשותפות להרבה שפות. הגדרה: מילה אשר מבטאת את כל התכונות הדקדוקיות אשר שייכות לקטגוריה מסוימת, נקראת אב-טיפוס של המחלקה. שמות הקטגוריות יקבעו על-פי אבות הטיפוס. למשל, את הקטגוריה, אשר אבות הטיפוס שלה מכילים את רוב המילים המייצגות עצמים מוחשים (שולחן, חלון, מחברת), נכנה "שם-עצם".

  31. צרופים וקטגוריות של צרופים 1 צרוף היא קבוצה של מילים שמהווה מרכיב (constituent). + צרוף הוא נמוך יותר בהיררכית הדקדוק מאשר פסוקית. הגדרה: צרוף הוא קבוצת מילים, אשר יכולה לתפקד כמרכיב בפסוקית. איך נדע איך לחלק את הצרופים לקטגוריות?

  32. צרופים וקטגוריות של צרופים 2 נסתכל על קבוצת הקטגוריות הנפוצות הבאה: N = (Noun) שם עצם ; NP = (Noun Phrase) צרוף שמני V = (Verb) פועל ; VP = (Verb Phrase) צרוף פעלי P = (Preposition) מילת יחס ; PP = (Prepositional Phrase) צרוף יחס A = (Adjective) שם תואר; AP = (Adjectival Phrase) צרוף תארי ADV = (Adverb)תואר הפועל ; ADVP = (Adverbial Phrase) צרוף של תואר הפועל; D = (Determiner) תווית M = (Modal) פועל עזר

  33. צרופים וקטגוריות של צרופים 3 גם כאן, בהגדרת הקטגוריות של הצרופים, אנו נתקלים באותן שתי שאלות מהותיות: • איך אנו יודעים האם שני צרופים שייכים לאותה קטגוריה או לקטגוריות שונות? • איך אנו יודעים איך עלינו לכנות קטגוריה מסוימת של צרופים?

  34. צרופים וקטגוריות של צרופים 4 שני צרופים שייכים לאותה הקטגוריה אם הם חולקים את אותן תכונות דקדוקיות. למשל הצרופים השמניים: הילדה הקטנה חזרה שוב ושוב על בקשתה חברת הסגל חזרה שוב ושוב על בקשתה מבחן שימושי לקביעה האם שני צרופים שייכים לאותה הקטגוריה הוא מבחן החלופה ההדדית (mutual substitutability).

  35. מבחן החלופה ההדדית מבחן החלופה ההדדית כרוך בעקרון ששני צרופים השייכים לאותה הקטגוריה יכולים להיות בעלי אותו תפקיד במשפט. דוגמה: המרצה השנון והגבוה דיבר רבות הסטודנט המחונן דיבר רבות עם-זאת, ייתכן כי החלופה איננה מתאימה בשל סיבות סמנטיות. אכלתי את התפוח הירוק אכלתי את הטלפוןהחדיש

  36. צרופים וקטגוריות של צרופים 1 ואיך נדע איך נכנה קטגוריות אלו? ברוב הצרופים, ניתן לזהות מילה אחת בתור "המילה החשובה ביותר". מילה זאת נקראת "גרעין הצרוף". • גרעין הצרוף קובע הרבה מתוך התכונות הדקדוקיות של הצרוף הכולל. • הגרעין עשוי לקבוע את מספר המרכיבים וסוגם בצרוף. • הגרעין בד"כ יהיה הכרחי, בעוד ששאר הרכיבים בצרוף לא יהיו הכרחיים. ילדת הקומה השניה אכלה ארטיק הקומה השניה אכלה ארטיק the beautiful girl ate ice-cream the beautiful ate ice-cream אך יש יוצאי דופן [זה דבר רגיל, לא יוצא דופן]  הילדה היפה אכלה ארטיק / היפה אכלה ארטיק

  37. צרופים וקטגוריות של צרופים 2 לא כל קטגוריה לקסיקלית (ברמת המילה) יכולה לשמש כגרעינים לצרופים. קטגוריות ראשיות - קטגוריות לקסיקליות שיכולות לשמש כגרעינים לצרופים. שם-עצם - כלב, מים, אדיבות... פועל - רץ, נמס, אהב... שם-תואר - גדול, אדום, משובח... קטגוריות משניות - קטגוריות לקסיקליות שאינן יכולות לשמש כגרעינים לצרופים. מילת איחוי - גם, או, אבל... מילת קריאה - האח! וואי! אבוי!... מיליות אחרות/מספרים - שלושה, חמישה, של...

  38. קטגוריות של מילים וצרופים • האם יש יוצאי דופן בתוך הקטגוריה? • נסתכל על הפועל משכתי: •  משכתי את כל כספי (מהבנק) • משכתי • הפועל משכתי מחייב צרוף שמני אחריו. • המגבלות על פעלים הן תחביריות בלבד. הפעלים מתמיינים לסוגים שונים לפי מספר הארגומנטים שהם מקבלים. • מילים הנמצאות באותה קטגוריה יכולות לקבל טווח [= תכונות ?] שונה של ארגומנטים.

  39. הצגת הצרופים בפסוקית משימה חשובה בניתוח המבנה הדקדוקי של משפט היא לזהות את: א. מרכיבי המשפט ב. סדר הופעתם של מרכיבי המשפט. ראינו כבר את השיטה להפרדת מרכיבי המשפט ע"י קוים אנכיים, למשל: הכלב הזה | אוכל להנאתו | עצם גדולה מאד שיטה זו אינה מספקת עבור מבנים יותר מורכבים.

  40. הצגת הצרופים בפסוקית - דיאגרמת עץ אחת הדרכים הנפוצות ביותר לייצג מידע אודות מרכיבי המשפט והסדר בו המרכיבים מופיעים במשפט היא באמצעות דיאגרמת עץ. A B C עבור הדיאגרמה הנ"ל, נאמר שיחידה מקטגוריה A מורכבת משני מרכיבים מקטגוריות B ו-C, המופיעים בסדר הזה. כאשר דיאגרמות עץ משמשות לייצוג מבנה לשוני, תויות הצמתיםמספקות עבור כל יחידה את המידע הבא: • הקטגוריה התחבירית (שם-עצם, פועל וכיוב') • הרמה שלו בהיררכיה הדקדוקית. בהמשך נתאר היררכיות עצים יותר גדולות.

  41. מבנה מרכיבי המשפט - תוכן עניינים • ניתוח תחבירי של המשפט - מרכיבים. • ניתוח תחבירי של המשפט - קטגוריות וצרופים. • דקדוקים. • מהצרוף ועד המשפט. • מיון חלקי הדיבר.

  42. הגישה המבנית - הקדמה Ferdinand de Saussure (1857-1913) פיתח גישה בה השפה הטבעית בנויה מרכיבים הקשורים יחדיו בקשר דומה או מהופך. בעקבות גישה זו, וגישות נוספות שבאו בעקבותיו, משפטים נותחו ע"י חלוקתם למרכיבים, צרופים ותת-צרופים. שיטה זו של הבניה התחבירית נקראה "גישת המבנה הצרופי" או "גישת הצרוף".

  43. נועם חומסקי (נולד ב-1928) מבין הכלים החשובים המזוהים עמו: • יצירת גרעין מתמטי, הכולל דקדוק יוצר (דקדוק גנרטיבי), המאורגן בהיררכיה דקדוקית. הדקדוקים היוצרים מייצרים שרשרת סימנים (שפה פורמלית). • נסיונות לתאר מספר שפות פורמליות ומלאכותיות הנגזרות מהדקדוקים היוצרים שתוארו לעיל. המבנים הצרופיים הוצרנו (formalized) כדקדוקים חסרי-הקשר (CFG) והפכו לכלי המרכזי בניתוח שפות טבעיות.

  44. דקדוקים חסרי הקשר 1

  45. דקדוקים חסרי הקשר 2

  46. דקדוקים חסרי הקשר 3 כאשר הרחיבו את הגישה היוצרת, רעיון הדקדוק חסר ההקשר התעורר ובעית עיבוד השפות הטבעיות נתפסה כבעיה של קביעת המבנה התחבירי של כל משפט שמרכיב טקסט. המבנה התחבירי של משפט מזוהה ע"י עץ הצרוף - עץ המתאר את גזירת המשפט לפי כללי היצירה.

  47. דקדוקים חסרי הקשר 4

  48. הצגת הצרופים בפסוקית - דיאגרמת עץ 1 נציג אפוא להלן את רשימת הקטגוריות הנפוצות שישמשו אותנו בדיאגרמות העצים: ברמת המילה N (noun) - שם-עצם A (adjective) - שם-תואר V (verb) - פועל P - (preposition) - מלת יחס Adv - (adverb) - תואר הפועל Det - (determiner) - תוית Conj - (Conjunction) - מילת איחוי ברמת הצרוף NP (noun p.) - צרוף שמני A (adjective p.) - צרוף תארי V (verb p.) - צרוף פעלי P - (preposition p.) - צרוף יחס S- (sentence / clause) - משפט / פסוקית

  49. הצגת הצרופים בפסוקית - דיאגרמת עץ 2 לקסיקון של שפה הוא המילים הסופיות. בגזירה הסופית הבסיסית נשתמש בלקסיקון של השפה. למשל בגזירה פשוטה ניתן ליצור את המשפטים: אכלתי את התפוח הירוק אכלתי את הטלפון ניתן למנוע גזירות, אשר יתנו משפטים לא דקדוקיים או לא נכונים סמנטית, ע"י מתן התייחסות למידע הנוסף הסמנטי. לפעמים, גם התכונות הפונולוגיות, המורפולוגיות והתחביריות קובעות.

  50. הצגת הצרופים בפסוקית - דיאגרמת עץ 3 בזיהוי מבנה של משפט, מרכיבי המשפט מזוהים על בסיס המבחנים הבלשניים שהוצגו קודם לכן (שיוך המילים לקטגוריות לקסיקליות, זיהוי גרעין הצרוף וקביעת קטגורית הצרוף). רק לאחר ביצוע סיווג הצרופים, נוכל לבנות עץ צרוף שיתאר נכונה את מבנה המשפט.

More Related