עיבוד שפות טבעיות - שיעור ראשון
This presentation is the property of its rightful owner.
Sponsored Links
1 / 28

עיבוד שפות טבעיות - שיעור ראשון PowerPoint PPT Presentation


  • 75 Views
  • Uploaded on
  • Presentation posted in: General

עיבוד שפות טבעיות - שיעור ראשון. יעל נצר המחלקה למדעי המחשב אוניברסיטת בן גוריון. מבנה הקורס ודרישות. ארבעה או חמישה תרגילים (50%) מבחן (50%) אתר הקורס http://www.cs.bgu.ac.il/~yaeln/nlp011 [email protected] שעות קבלה: יום ב' 14:00-16:00חדר 311. מקורות. Speech and Language Processing

Download Presentation

עיבוד שפות טבעיות - שיעור ראשון

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


5698367

עיבוד שפות טבעיות - שיעור ראשון

יעל נצר

המחלקה למדעי המחשב

אוניברסיטת בן גוריון

עיבוד שפות טבעיות


5698367

מבנה הקורס ודרישות

  • ארבעה או חמישה תרגילים (50%)

  • מבחן (50%)

  • אתר הקורס

    http://www.cs.bgu.ac.il/~yaeln/nlp011

    [email protected]

    שעות קבלה: יום ב' 14:00-16:00חדר 311


5698367

מקורות

Speech and Language Processing

By  Daniel Jurafsky and  James H. Martin

http://www.cs.colorado.edu/~martin/SLP/slp-ch1.pdf

Foundations of Statistical NLP

Christopher D. Manning and Hinrich Schutze

1999, MIT Press.

http://nlp.stanford.edu/fsnlp/promo/

  • למקורות נוספים ינתנו הפניות באתר של הקורס.


5698367

מה זה בכלל עיבוד שפות טבעיות

  • NLP - Natural Language Processing תת תחום באינטליגנציה מלאכותית: "אוטומציה של השפה המדוברת": הבנה, תרגום, שיחה עם מחשב...

    (מדעי המחשב)

  • נקרא גם "בלשנות חישובית" (בדרך כלל מתייחס להיבטים התיאורטיים - שימוש בכלים חישוביים להבנה טובה יותר של השפה האנושית ("הטבעית")) -- בלשנות

  • זיהוי קול ושפהspeech recognition - הנדסת חשמל

  • פסיכולינגוויסטיקה חישובית


5698367

מה למשל נכלל ב-NLP?

  • תרגום אוטומטי (אחד הדברים הראשונים שנעשו בבלשנות חישובית)

  • ממשק עם מחשב (תכף תהיה דוגמא)

  • יצירת דוחות אוטומטים

  • תמצות אוטומטי של טקסט Text Summarization

  • איחזור מידע Information Retrieval וגם Information Extraction

  • זיהוי קול, זיהוי כתב


5698367

היבטים ב-NLP

  • הבנה של שפות טבעיות

  • NLU - Natural Language Understanding

  • (Part of Speech Tagging, Parsing, etc.)

  • הקלט בדרך כלל ברור, אך מהו הפלט? מה יחשב 'הבנה' של שפה?

  • יצירה של שפות טבעיות

  • NLG - Natural Language Generation - מהו הידע הנדרש כדי ליצר משפט או טקסט בשפה טבעית? איך הוא מיוצג? מה משותף לכל השפות ומה תלוי שפה?


5698367

סוגים של אפליקציות

  • אפליקציות 'קטנות' - ניבוי מילים word prediction, תיקון שגיאות כתיב, או טעיויות תחביריות (למשל כמו ב-Word)...

  • אפליקציות 'גדולות' - ממשק אדם/מחשב, תמצות אוטומטי, תרגום אוטומטי

  • אפליקציות כאלה כוללות בדרך כלל גם NLU וגם NLG.


I language vs e language

I-Language vs. E-Language

  • שני אספקטים בשפה (ע"פ נועם חומסקי):

  • I-Language - השפה ה'מופשטת' - Language Competence

    (The knowledge that enables one to produce and comprehend a language).

  • E-Language - השפה כפי שהיא באה לידי ביטוי, הנאמרת, הנכתבת וכולי. Language Performance

  • הגישה האמפיריציסטית מתארת את השימוש האקטואלי בשפה.


5698367

גישות בעיבוד שפות טבעיות

  • הגישה הרציונליסטית - הידע הלשוני הבסיסי אינו נרכש על ידי החושים אלא קיים באדם מלידה. זוהי הגישה המקובלת של נועם חומסקי וממשיכי דרכו.

  • משמעות גישה זו במחקר: יצירת מערכות אינטליגנטיות על ידי קידוד ידני של ידע ומערכות היסק.

  • הגישה אפיריציסטית מניחה קיום יכולות במוח - כמו קישור, זיהוי תבניות והכללה, המיושמים על הקלט מהחושים.

  • משמעות גישה זו במחקר: צפייה באוסף גדול של טקסטים המייצג את ה"עולם".

  • חברת AI והתינוק שלה HAL


5698367

עוד קצת על השפה

  • לשפה טבעית יש מבנה

  • אנחנו יודעים להגיד האם משפט נכון בשפה או לא נכון בשפה

  • אבל בדיבור שלנו משתמשים כל הזמן במבנים לא דקדוקיים!


5698367

מה קשה ב-NLP?

  • השפה המדוברת מלאת רב משמעויות, ברמות שונות:

    מורופלוגיה:

שם עצם

נסמך

הרכבת

שם עצם

והא הידיעה

הא השאלה

פועל ר.כ.ב

בניין פעל

עבר זכר יחיד

פועל ר.כ.ב

בניין הפעיל

עבר נקבה יחיד

פועל ר.כ.ב

בניין הפעיל

עבר זכר יחיד


5698367

רב משמעות - תחביר

Time flies like an arrow

like an arrow

Time

flies

an arrow

like

Time flies


5698367

רב משמעות - לקסיקון

I went to the bank

to deposit my check.

of the river


5698367

דוגמא קלאסית HAL

Dave Bowman: Open the pod bay doors, HAL.

HAL: I’m sorry Dave, I’m afraid I can’t do that.

(Stanely Kubrick and Arthur C. Clarke, screenplay of 2001: A spce Odyssey)


5698367

אז מה נדרש כדי לקיים שיחה כזאת?

  • זיהוי דיבור speech recognition

  • הבנה של שפות טבעיות NLU

  • יצירה של שפה NLG

  • יצירת קול Speech Synthesis

  • איחזור מידע Information Retrieval

  • Information Extraction

  • היסק


5698367

ומבחינה לשונית?

  • ידע בפונטיקה ופונולוגיה -

    • זיהוי אותות קוליים והפיכתם לרצף מדויק של מילים - להבנת הנאמר.

    • HAL צריך גם מערכת ליצירת אותות קוליים

      הידע המתייחס לאופן בו מבוטאות המילים בשפה המדוברת.


5698367

ומה עוד? מורפולוגיה

  • הידע הנצרך לצורתם של מילים והתנהגותם בהקשר.

  • ידע מורפולוגי מאפשר יצירת ביטויים כגון I'm או can't


5698367

תחביר גם

  • תחביר או syntax מתייחס לאופן בו מלים מצורפות יחד ויוצרות מבנה

    למשל, סדר המלים במשפט:

    Sorry I'm dave, I do that can't


5698367

סמנטיקה

  • מבנה נכון של המשפט אינו מספיק כדי להבין את משמעותו.

  • יכולים להיות משפטים נכונים מבחינה תחבירית שאת המשמעות שלהם אין להבין

    (דוגמא קלאסית של חומסקי:)

    Colorless green ideas sleep furiously.

    המילים כולן באנגלית והמשפט נשמע נכון מבחינה תחבירית,

    Compositional semantics - המשמעות מתקבלת מהרכיבים colorless green ideas? - לא הגיוני.


5698367

עוד על משמעות

  • משמעות מתקבלת גם מתוך המילים עצמן - כמובן

    המשפט:

    החרצקים פילפנו את הקרנבים המחולים

    הוא משפט נכון מבחינה תחבירית אבל חסר משמעות באוצר המילים של רוב דוברי העברית.


5698367

ולסיום - פרגמטיקה

  • פרגמטיקה היא התחום העוסק בהקשרים של השפה לעולם ה'אמיתי'.

  • HAL מתבטא בנימוס ואומר

    I'm sorry Dave, I'm afraid I can't do that.

    כלומר - הוא מנומס, הוא מצטער -- אין תוספת מידע רלוונטית ל'מטרה' של הפעולה, פתיחה או סגירה של הדלתות.


5698367

תרגיל קטן בתמצות אוטומטי

נניח שאתם צריכים עד מחר להגיש תמצית של מאמר בבולגרית אחרת.....

  • האם צריך להבין תוכן של מאמר כדי לתמצת אותו?

  • האם ניתן לתמצת מאמר בשפה שאנחנו לא מבינים?

  • מהם הרמזים המצויים בתוך המאמר שיכולים לעזור לנו לתמצת אותו?


5698367

תרגיל קטן בתמצות אוטומטי (המשך)

  • תרגום ותמצות (כלומר קודם הבנה של הטקסט ואחר כך תמצות)

  • שימוש במדדים הסתברותיים (נבחר את המשפטים שבהם המילים הכי נפוצות בטקסט)

  • איזושהי דרך ביניים?

  • ולסיום -- מהו תמצות טוב? איך מחשבים?


5698367

טיורינג

  • Turing Test: is a computer program intelligent? (1954)would a human find out that he speaks with a computer?


Eliza weizenbaum 1966 mit

Eliza - (Weizenbaum 1966, MIT)

Men Are all alike.IN WHAT WAY.They're always bugging us about something or another.CAN YOU BE MORE SPECIFIC.Well, my boyfriend made me come here.YOUR BOYFRIEND MADE YOU COME HERE.He says I'm depressed much of the time.I AM SORRY TO HEAR YOU ARE DEPRESSED.It's true. I'm unhappy.DO YOU THINK COMING HERE WILL HELP YOU NOT TO BE UNHAPPY.I need some help, that much is certain.WHAT WOULD IT MEAN TO YOU IF YOU GOT SOME HELP.Perhaps I could learn to get along with my mother.TELL ME MORE ABOUT YOUR FAMILY.


5698367

"שמונה שיחות אותנטיות עם מחשב" - דוד אבידן

אבידן:הלו.

אלייזה: מה שלומך. נא הצג את בעייתך.

אבידן : אולי תואיל אתה להציג את עצמך?

אלייזה : דיברנו עליך, לא עלי.

אבידן : מוטב שנדבר עליך ולא עליי, אם מדובר באפשרות שנדבר עליי ולא עליך.

אלייזה : אולי בהזיותיך נדבר זה על זה.

  • Amazingly:

    practicing psychiatrists believed ELIZA could be an automatic form of psychotherapy.

  • people became emotionally involved with the computer.


5698367

האמת על אליזה

  • שימוש ב-pattern matching

    <x> hello <y>

    How do you do. Please state your problem.

    <x> want <y>

    What would it mean to you if you got <y> |

    Why do you want <y> |

    Suppose you got <y> soon?

  • אם אף תבנית לא מתאימה, משתמשים במחרוזת ברירת מחדל כגון:

    Please go on| Very Interesting.


5698367

המגבלות של אלייזה

  • השיחות חוזרות על עצמן

  • טעויות כתיב נשמרות וחוזרות למשתמש

  • התשובות יכולות להיות בלתי-דקדוקיות בעליל

  • למרות שאנשים מוצאים בשיחה כזו יותר ממה שיש בה, אין בה עניין לאורך זמן.

  • מה קורה בעברית?


  • Login