1 / 59

تجزیۀ وابستگی

تجزیۀ وابستگی. محمدصادق رسولی rasooli.ms{# a#t #}gmail.com. منابع مطالعاتی مفید. Sandra Kübler , Ryan McDonald, and Joakim Nivre, “ Dependency Parsing,” Synthesis Lectures on Human Language Technologies, 1 (1), Morgan and Claypool Publishers, 2009. منابع مطالعاتی مفید.

linaeve
Download Presentation

تجزیۀ وابستگی

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. تجزیۀ وابستگی محمدصادق رسولی rasooli.ms{#a#t#}gmail.com پیش‌بینی ساخت‌های زبانی

  2. منابع مطالعاتی مفید • Sandra Kübler, Ryan McDonald, and Joakim Nivre, “Dependency Parsing,” Synthesis Lectures on Human Language Technologies, 1 (1), Morgan and Claypool Publishers, 2009.

  3. منابع مطالعاتی مفید • منابع مطالعاتی دیگر: • محمدصادق رسولی، «تجزیۀ نحوی با استفاده از دستور وابستگی»، مرکز تحقیقات کامپیوتری علوم اسلامی، 1389. • Joakim Nivre, “Inductive Dependency Parsing,” Springer Verlag, 2006. • Jinho D. Choi, “Dependency Parsing,” Tech. Report, University of Colorado at Boulder, 2009. • Ryan McDonald and Joakim Nivre, “Introduction to Data-Driven Dependency Parsing,” European Summer School in Logic Language and Information 2007, 2007.

  4. منابع مطالعاتی مفید در حین ارائۀ مطالب نیز منابع مرتبط معرفی خواهند شد.

  5. دستور وابستگی چیست؟ دستور وابستگی نخستین بار توسط تنی‌یر مطرح شد. این دستور بر مبنای نظریۀ ظرفیت واژگانی شکل گرفته است.

  6. مفهوم ظرفیت واژگانی در زبان • واژه‌ها نیز مانند عناصر دارای ظرفیت هستند. • هر واژه‌ای دارای ظرفیت ترکیب نحوی/معنایی خاصی است. 6

  7. مفهوم ظرفیت واژگانی در زبان پرسیدن ظرفیت واژگانی ظرفیت واژگانی از کَسی.. چیزیرا...

  8. کاربرد زبانی ظرفیت واژگانی امید طبیب‌زاده، «ظرفیت فعل در زبان فارسی»، نشر مرکز، 1385. • با دانستن ظرفیت واژه‌ها می‌توان تولید زبان انجام داد. • ترجمۀ خودکار (Machine Translation) • تحلیل نحوی (Syntactic Analysis) • تولید زبان (Language Generation) • ...

  9. دستور وابستگی در دستور وابستگی مبنا روابط نحوی/معنایی بین واژه‌های درون جمله است. در این دستور مفهوم گروه معنا ندارد. واژه‌ها بر اساس ظرفیتشان و نوع قرار گرفتن در جمله وابسته‌هایی می‌گیرند.

  10. ارتباط واژه‌ها در دستور وابستگی وابستۀ پیشین مفعول فعل مرکزی وابستۀ پسین حرف اضافۀ اسم فعل‌یار صحبت او با دارم دوست را Richard Hudson, “An introduction to word grammar,” Cambridge University Press, 2010.

  11. مقایسۀ اجمالی با دستور زایشی • در دستور زایشی (Generative)، با گروه‌ها سر و کار داریم. • دستور مستقل از متن (CFG) • دستور مبتنی بر عبارات • امکان وجود بی‌ترتیبی در جملات وجود ندارد • در دستور وابستگی با واژه‌ها سر و کار داریم. • امکان بی‌ترتیبی در جملات وجود دارد.

  12. مقایسۀ دستور زایشی و وابستگی

  13. درخت‌های وابستگی • فرض‌های زبانی متفاوتی در مورد درخت‌های وابستگی می‌شود. • فرض‌های ما (ر.ک. فصل 2 کتاب مرجع) • درخت وابستگی بدون دور است. • هر جمله دارای یک واژۀ فرضی به عنوان ریشۀ جمله است. • هر واژه (غیر از ریشۀ جمله) تنها یک هسته دارد.

  14. درخت‌های وابستگی • درخت‌های وابستگی دو نوع هستند • افکنشی (Projective) • هیچ کمانی دیگری را در صورت رسم کمان‌ها از یک سمت بر روی کاغذ قطع نمی‌کند. • غیرافکنشی (Non-projective) • ممکن است کمانی باشد که برخی دیگر از کمان‌ها را قطع کرده باشد. • در جملات بی‌ترتیب زبانی دیده می‌شود.

  15. درخت‌های وابستگی افکنشی هستم آمدنت از ریشه آگاه غیرافکنشی می‌آیی که هستم ریشه آگاه

  16. تجزیۀ وابستگی • روش‌های تجزیۀ وابستگی • مبتنی بر داده • باناظر (Supervised) • مبتنی بر گراف (Graph based) • مبتنی بر گذار (Transition based) • بی‌ناظر (Unsupervised) • نیمه‌ناظر (Semi-supervised) • مبتنی بر دستور زبان

  17. تجزیۀ وابستگی در این درس تنها به روش‌های تجزیۀ باناظر مبتنی بر داده پرداخته می‌شود.

  18. مطالعۀ بیشتر • تجزیۀ بی‌ناظر • مقالۀ اصلی: • D. Klein and C. D. Manning, "Corpus-based induction of syntactic structure: Models of dependency and constituency," ACL 2004. • پایان‌نامه‌های مرتبط • Dan Klein, "The Unsupervised Learning of Natural Language Structure," Phd Thesis, Stanford University, 2005. • Noah Smith, "Novel estimation methods for unsupervised discovery of latent structure in natural language text," PhD Thesis, Johns Hopkins University, 2006. • Shay B. Cohen, "Computational Learning of Probabilistic Grammars in the Unsupervised Setting.," PhD Thesis, Carnegie Mellon University, 2011. • و... • Mohammad Sadegh Rasooli and Heshaam Faili, "Fast Unsupervised Dependency Parsing with Arc-Standard Transitions," in EACL Workshop on ROBUS-UNSUP, 2012.

  19. مطالعۀ بیشتر • تجزیۀ نیمه‌ناظر • T. Koo, X. Carrecas and M. Collins, "Simple Semi-supervised Dependency Parsing," in ACL-HLT 2008. • G. Druck, G. Mann and A. McCallum, "Semi-supervised Learning of Dependency Parsers using Generalized Expectation Criteria," in ACL 2009. • تجزیۀ مبتنی بر دستور • فصل چهارم کتاب مرجع

  20. روش‌های باناظر • در مجموع در نوع روش مطرح در تجزیۀ وابستگی وجود دارد: • مبتنی بر گراف • مبتنی بر گذار

  21. تجزیۀ مبتنی بر گراف • هدف پیدا کردن بهترین درخت وابستگی با استفاده از الگوریتم‌های گرافی است. • این روش به طور کلی به دو نوع روش تقسیم می‌شود: • تجزیۀ افکنشی • تجزیۀ غیرافکنشی • مطالعۀ بیشتر • R. McDonald, "Discriminative Training and Spanning Tree Algorithms for Dependency Parsing," PhD Thesis, University of Pennsylvania, 2006.

  22. تجزیۀ مبتنی بر گراف • الگوی تجزیه • مجموعه‌ای از محدودیت‌ها روی ساختارهای قابل قبول • مجموعه‌ای از مؤلفه‌ها • الگوریتم ثابت تجزیه • در نتیجه امتیاز یک گراف G به صورت زیر می‌شود

  23. تجزیۀ مبتنی بر گراف • برای زیرگراف‌های و مجموعۀ زیرگراف‌های مربوط به گراف تابع تعریف می‌شود • معمولاً فرض می‌شود که این تابع برابر با جمع مؤلفه‌‌های زیرگراف‌هاست:

  24. تجزیۀ مبتنی بر گراف • تعریف چهار مسأله الزامی به نظر می‌رسد: 1- برای گراف . 2- . 3- تابع برای یادگیری از روی داده‌های برچسب‌دار. 4- الگوریتم تجزیۀ .

  25. یک الگوریتم نمونه • این الگوریتم با عامل در نظر گرفتن وزن یال‌ها سعی در پیدا کردن بهترین درخت را دارد (Arc-factored). • بر این اساس الگوریتم‌های تجزیۀ افکنشی و غیرافکنشی نیز تعریف می‌شود.

  26. تجزیۀ غیرافکنشی • هدف پیدا کردن درخت جهت‌دار پوشای بهینه است • Chu-Liu-Edmonds • در این الگوریتم به صورت حریصانه بهترین یال‌های واردشده به هر گره انتخاب می‌شود. • در صورت وجود دور، یکی از دورها را با پیدا کردن بهترین یال واردشده به یکی از یال‌های آن دور رفع می‌کند. • الگوریتم به صورت بازگشتی اجرا می‌شود. • در بدترین حالت با حل می‌شود.

  27. Chu-Liu-Edmonds

  28. Chu-Liu-Edmonds

  29. Chu-Liu-Edmonds

  30. Chu-Liu-Edmonds

  31. Chu-Liu-Edmonds

  32. تجزیۀ افکنشی • الگوریتم CKY برای تجزیۀ بهینه با استفاده از برنامه‌نویسی پویا مناسب است. • پیچیدگی محاسباتی الگوریتم است.

  33. تجزیۀ افکنشی نحوۀ ترکیب و تجزیۀ زیردرخت‌ها با برنامه‌نویسی پویا

  34. تجزیۀ افکنشی نحوۀ کار الگوریتم CYK

  35. تجزیۀ افکنشی Jason M. Eisner, "Three new probabilistic models for dependency parsing: An exploration," in COLING 1996. • الگوریتم آیزنر

  36. تجزیۀ افکنشی

  37. تجزیۀ افکنشی • در این الگوریتم با در نظر داشتن وابسته‌ها چپ و راست به صورت جداگانه و مستقل از هم سرعت الگوریتم بالا می‌رود (). • این الگوریتم در عمدۀ روش‌های بی‌ناظر تجزیۀ وابستگی به کار رفته است. • D. Klein and C. D. Manning, "Corpus-based induction of syntactic structure: Models of dependency and constituency," ACL 2004.

  38. روش یادگیری • f نشان‌دهندۀ تابع ویژگی است: • برچسب اجزای سخن (POS) • واژه • ... • w وزن مورد نظر برای هر نوع ویژگی است • این وزن‌ها با الگوریتم‌هایی مانند شبکۀ عصبی پرسپترون یاد گرفته می‌شود.

  39. روش یادگیری

  40. تجزیۀ با مراتب بالاتر • چیزی که تاکنون گفته شد، مربوط به وابستگی مرتبۀ 1 بوده است. • یال‌ها از هم مستقل تشکیل می‌شوند. • وابسته بودن یال‌ها باعث پیچیدگی الگوریتم می‌شود. • تجزیۀ مرتبۀ دوم • تجزیۀ مرتبۀ سوم • T. Koo and M. Collins, "Efficient third-order dependency parsers," in ACL 2010.

  41. تجزیۀ با مراتب بالاتر

  42. نرم‌افزارهای موجود • مرتبۀ 1 و 2 • http://www.ryanmcd.com/MSTParser/MSTParser.html • https://github.com/rasoolims/MSTParserCSharp/ • مرتبۀ 3 • http://groups.csail.mit.edu/nlp/dpo3/

  43. تجزیۀ مبتنی بر گذار سامانۀ گذار یک دستگاه انتزاعی ، شامل تعدادی پیکربندی (حالت ) و گذار (انتقال) بین این پیکربندی‌هاست. یکی از راه‌های مرسوم برای نمایش پیکربندی استفاده از پشته و حافظۀ ورودی است.

  44. تجزیۀ یال‌-معیار روش‌های مختلفی برای تجزیۀ مبتنی بر گذار وجود دارد. تجزیۀ یال‌-معیار (arc-standard) برای درخت‌های افکنشی است. در این الگوریتم تضمینی بر درست شدن درخت وجود ندارد و جنگلی از درخت‌ها ممکن است تشکیل شود. Joakim Nivre. 2004. Incrementality in deterministic dependency parsing. In Workshop on Incremental Parsing: Bringing Engineering and Cognition Together, pages 50–57.

  45. تجزیۀ یال‌-معیار • S: Stack of processed words • I: Buffer of unprocessed words • A: Set of arcs created until now • : : An empty arcset

  46. تجزیۀ یال‌-معیار Stack Buffer You are very good Arc-sets You are very good Fast Unsupervised Dependency Parsing with Arc-Standard Transitions

  47. تجزیۀ یال‌-معیار Stack Buffer You are very good Arc-sets Action Shift You are very good Fast Unsupervised Dependency Parsing with Arc-Standard Transitions

  48. تجزیۀ یال‌-معیار Stack Buffer You are very good Arc-sets Action Shift You are very good Fast Unsupervised Dependency Parsing with Arc-Standard Transitions

  49. تجزیۀ یال‌-معیار Stack Buffer You are very good Arc-sets Action Left-Reduce Rel(are, You) You are very good Fast Unsupervised Dependency Parsing with Arc-Standard Transitions

  50. تجزیۀ یال‌-معیار Stack Buffer are very good Arc-sets Action Shift Rel(are, You) You are very good Fast Unsupervised Dependency Parsing with Arc-Standard Transitions

More Related