1 / 17

حضرت علی علیه السلام: هرگاه خداوند بنده ای را پست و ذلیل فرماید علم را برای او ممنوع می‏سازد

حضرت علی علیه السلام: هرگاه خداوند بنده ای را پست و ذلیل فرماید علم را برای او ممنوع می‏سازد 92/5/9. ساختار ارائه. معرفی برچسب گذار کاربردها روشها شرح مراحل انجام پروژه پیاده سازی برچسب گذار زبان فارسی ایجاد دیکشنری ایجاد و ارزیابی قواعد کلمات ناشناخته شناسایی فعل ارزیابی.

vinaya
Download Presentation

حضرت علی علیه السلام: هرگاه خداوند بنده ای را پست و ذلیل فرماید علم را برای او ممنوع می‏سازد

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. حضرت علی علیه السلام: هرگاه خداوند بنده ای را پست و ذلیل فرماید علم را برای او ممنوع می‏سازد 92/5/9

  2. ساختار ارائه • معرفی برچسب گذار • کاربردها • روشها • شرح مراحل انجام پروژه پیاده سازی برچسب گذار زبان فارسی • ایجاد دیکشنری • ایجاد و ارزیابی قواعد • کلمات ناشناخته • شناسایی فعل • ارزیابی

  3. نمونه ابزار انگلیسی • ورودی: • خروجی

  4. نمونه ابزار انگلیسی(ادامه)

  5. کاربردها • مدل سازی زبانی (در بازشناسی گفتار و ...): مقوله نحوی یک کلمه می تواند در پیش بینی کلمه بعدی کمک کند. • مثال: انگلیسی: ضمایر ملکی+ اسم • فارسی: حرف اضافه (اسم یا ضمیر) • سنتز گفتار: مقوله نحوی یک کلمه می تواند اطلاعاتی در مورد نحوه تلفظ صحیح یک کلمه به ما بدهد. • مثال: تلفظ OBject (noun) و obJECT (verb) • تلفظ”مَرد“ (اسم)، ”مُرد“ (فعل) • بازیابی اطلاعات: دانستن مقوله نحوی کلمات می تواند به استخراج کلمات مهم در متن کمک کند. • رفع ابهام معنایی: دانستن مقوله نحوی کلمات می تواند به رفع ابهام معنایی کلمه کمک کند. • مثال: کلمه watch در انگلیسی و کلمه ”در“ در فارسی • تجزیه نحوی (parsing): برای parsing پایین به بالا در ابتدا نیاز به تعیین مقوله نحوی کلمات داریم.

  6. روشها • روش های کلی POS tagging: • روش های مبتنی بر قاعده (rule based POS tagging) • دیکشنری ----> tags • قواعد +مجاور ----> tag • روش های آماری (probabilistic/stochastic POS tagging) • روش های ترکیبی (transformation-based POS tagging)

  7. ارزیابی • پيكره متني به دو بخش تقسيم مي شود: • 80-90% از پيكره براي آموزش (train) • 10-20% از پيكره براي آزمون (test) • با استفاده از داده آموزش آمارهاي لازم استخراج مي گردد و سپس POS tagging برروي داده آزمون تست مي شود. • تكنيك اعتبارسنجي متقابل 5 قسمتي: • پيكره متني به K قسمت مساوي تقسيم مي شود. • در هر مرحله از ارزيابي، يك بخش براي آزمون و K-1 بخش ديگر براي آموزش به كار مي رود. • اين روند K بار تكرار مي گردد و درنهايت از نتايج ارزيابي K مرحله ميانگين گرفته مي شود. • دقت POS tagging:

  8. بخش دوم پیاده سازی برچسب گذار زبان فارسی

  9. ایجاد دیکشنری • ترکیب هر سه پیکره (آموزش ، تست و ارزیابی) • نرمالسازی متن • شمارش تگهای هر کلمه • 167وارد ADJ • 12 وارد N • پر تکرار ترین برچسب به عنوان تگ پیشفرض

  10. قواعد • انواع قوانین TAG-1TAG-2TAG-3 TAG-3  TAG-X when TAG-2@ (-1) TAG-1@ (-2) TAG-1 TAG-X when TAG-2@ (+1) TAG-3 @ (+2) TAG-2 TAG-X when TAG-3 @ (+1) • استفاده از قواعد قبلی • ساخت قواعد جدید

  11. ایجاد قواعد جدید PREP N N N N N N N PREP N PREP N PREP N PUNC N PUNC PREP PUNC PREP N PREP N N N N ADJ N ADJ N ADJ N PREP ... • استخراج سه گانه های داخل متن • محاسبه مجموع دفعات ظهور هر سه گانه

  12. ایجاد قواعد جدید (ادامه) • دسته بندی و محاسبه درصد وقوع در هر دسته • DJ ADV N 32.75% • DJ ADV PREP 26.95% • DJ ADV V 15.37% • DJ ADV DJ 10.33% • DJ ADV PRENUM 4.03% • DJ ADV ADV 3.27% • DJ ADV PUNC 2.27% • DJ ADV SUBR 2.02% • DJ ADV PREM 1.76% • DJ ADV PR 1.26% • تبدیل سه گانه های کم تکرار به سه گانه های پر تکرار PR  N when ADV @ (-1) DJ @ (-2) PR  PREP when ADV @ (-1) DJ @ (-2) • تست قواعد سه گانه های بیشتر از 20 درصد سه گانه های کمتر از 10 درصد

  13. دسته بندی قواعد دو PRENUM N POSNUM PREM دوم POSNUM N ADJ PRENUM را POSTP PART N PREP سر N PREP IDEN ADJ سراسر N ADJ PREM ADV علامه N IDEN ADJ N علمیه ADJ N ADJ N • کلمه «سراسر» کلاس تبدیل N به PREM کلاس تبدیل N به ADV N -> ADJ if POSNUM @ [-1] PR @ [-2] N -> ADJif PSUS @ [-1] PREM @ [-2] N -> ADJ if POSTP @ [-1] PRENUM @ [-2] . . . کلاس تبدیل N به ADJ

  14. بهبود عملکرد • افعال چند بخشی • شناسایی فعل کمکی و ترکیب با فعل اصلی • شناسایی کلمات ناشناخته= توجه به وندها • وندهای سازنده صفات نظیر: انگیز، گیر ، مند و ... • وندهای صرف افعال: اند ، اید ، ایم و ... • وندهای اسامی جمع: ان ، گان، ها • ... • تگ پیشفرض = اسم مفرد

  15. ارزیابی

  16. کارهای آتی • تست قواعد و بهبود آنها • توسعه برچسب گذار در لایه دوم • ایجاد پارسر زبان فارسی

  17. با سپاس از توجهتان

More Related