1 / 48

ارائه روشي ترکيبي براي بهبود خلاصه ‌ سازي متن

دانشكده مهندسي كامپيوتر و فناوري اطلاعات. عنوان پايان‌نامه:. Hybrid method to improve text summarization. ارائه روشي ترکيبي براي بهبود خلاصه ‌ سازي متن. دانشجو: علي سبطي استاد راهنما: دکتر احمد عبدالله‌زاده. سه‌شنبه 9 تیر 1388.

zorana
Download Presentation

ارائه روشي ترکيبي براي بهبود خلاصه ‌ سازي متن

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. دانشكده مهندسي كامپيوتر و فناوري اطلاعات عنوان پايان‌نامه: Hybrid method to improve text summarization ارائه روشي ترکيبي براي بهبود خلاصه‌سازي متن دانشجو:علي سبطياستاد راهنما: دکتر احمد عبدالله‌زاده سه‌شنبه 9 تیر 1388 Amirkabir University of Technology, Computer Engineering Faculty

  2. به نام خداوند بخشنده و مهربان 2 Amirkabir University of TechnologyComputer Engineering Faculty

  3. عناوين مورد بحث • تعريف خلاصه‌سازی • کاربردهای خلاصه‌سازی • انواع خلاصه‌سازی • ديدگاه های موجود در خلاصه‌سازی • شماي کلي يک سيستم خلاصه‌سازی • شباهت لغوی در WordNet (استفاده شده در خلاصه‌سازی برپايه محوريت جمله) • استفاده از WordNet در خلاصه سازی متن برپايه محوريت جمله • روشی جديد برای امتيازدهی جمله در خلاصه سازی متن • مقايسه روش های انجام شده • نتيجه گيری • مراجع 3 Amirkabir University of TechnologyComputer Engineering Faculty

  4. تعريف خلاصه‌سازی • خلاصه‌سازي متن عبارت است از فرايند توليد عصاره‌اي از اطلاعات مهم يک منبع يا منابع به منظور توليد نسخه خلاصه شده براي يک کاربر يا کاربرانخاص و وظيفه يا وظايفي خاص (Mani 99) • بخش با اهميت متن • منبع يا منابع • کاربر يا کاربر خاص • وظيفه يا وظايفي خاص 4 Amirkabir University of TechnologyComputer Engineering Faculty

  5. کاربردهای خلاصه‌سازی متن • توليد عناوين و سرمطلب ها • توليد سرفصل مطالب براي دانش آموزان • تهيه صورت جلسه • مرور بر روي کتاب، سي دي و فيلم و ... • راهنماي برنامه‌هاي تلويزيوني براي ارائه توضيح مختصري از برنامه ها • نوشتن زندگي نامه‌ها و رزومه و.... • بريدن بخش کوتاهي از سخنراني براي پخش در برنامه‌هاي خبري تلويزيوني • شرح وقايع تاريخي به ترتيب زماني و مختصر 5 Amirkabir University of TechnologyComputer Engineering Faculty

  6. تقسيم بندی خلاصه سازي خلاصه‌سازی Abstraction استخراجی انتزاعي Extraction خلاصه اخباریخلاصه آگاهی‌بخش خلاصه پرسش‌گراخلاصه عمومی اطلاعات پس‌زمينه اطلاعات و اخبار جديد Indicative Informative Generic Query-based Background Just-the-news 6 Amirkabir University of TechnologyComputer Engineering Faculty

  7. تقسيم بندی خلاصه سازي (مثال برای آگاهی بخش و اخباری) آگاهی‌بخش اخباری 7 Amirkabir University of TechnologyComputer Engineering Faculty

  8. ديدگاه‌هاي موجود در خلاصه‌سازی • ديدگاه‌ها • زبانشناسی ذهن (Psycholinguistics) • زبانشناسی محاسباتی (Computational linguistic) • الگوها:متودولوژي مورد استفاده مانند آماري، بر پايه قانون، بازيابي اطلاعات، روش‌هاي مختلف هوش مصنوعي و غيره ... • متدها و تکنيک‌ها: بسامد واژگاني، موقعيت جمله، عموميت محتوا و ... 8 Amirkabir University of TechnologyComputer Engineering Faculty

  9. ديدگاه‌هاي محاسباتی • بالا به پايين: • نياز کاربران: اطلاعات خاص • نياز سيستم: يک معيار خاص جهت جستجو • (استخراج اطلاعات، دريافت يک درخواست و پيدا کردن بهترين الگو و پرکردن الگوي يافت شده و در نهايت توليد محتواي خلاصه با استفاده از اطلاعات الگو) • پايين به بالا: • نياز کاربران: هر نوع اطلاعات مهم • نياز سيستم: يک معيار عمومي براي اولويت‌دهي به قسمت‌هاي مختلف متن • (استفاده از متدهای بازيابی اطلاعات، پيدا کردن عبارت يا عبارات مرتبط از يک يا چندسند) 9 Amirkabir University of TechnologyComputer Engineering Faculty

  10. ديدگاه‌هاي محاسباتی (ادامه) 10 Amirkabir University of TechnologyComputer Engineering Faculty

  11. شماي کلي يک سيستم خلاصه‌سازی 11 Amirkabir University of TechnologyComputer Engineering Faculty

  12. شباهت لغوی در WordNet (استفاده شده در خلاصه‌سازی برپايه محوريت جمله) 12 Amirkabir University of TechnologyComputer Engineering Faculty

  13. شباهت لغوي در WordNet(2) • محتوای اطلاعاتی (Information Content) • میزان خاص بودن یک مفهوم را در دامنه موضوعی خود نشان می دهد • يک مفهوم با محتواي اطلاعاتي بالا، بسيار خاص مي‌باشد • مفاهيمي با محتواي اطلاعاتي پايين داراي معاني عمومي و کلي و درجه خاص بودن کمتري برخوردارند • مفهومcarving fork به معني کندن محل انشعاب داراي محتواي اطلاعاتي بالا • مفهوم entity داراي محتواي اطلاعاتي پاييني است. 13 Amirkabir University of TechnologyComputer Engineering Faculty

  14. شباهت لغوي در WordNet (3) • محتوای اطلاعاتی (Information Content) • مثال: در یک پیکره کلمه bank 20 بار ظاهر شده • دو معنی: river bank و financial bank • مسئله شمارش Sense های مختلف • تقسیم بر تعداد sense ها 14 Amirkabir University of TechnologyComputer Engineering Faculty

  15. شباهت لغوي در WordNet (4) • محتوای اطلاعاتی (Information Content) • مثال از محاسبه IC • فرض کنید بخواهیم محتوای اطلاعاتی vehicle را محاسبه کنیم • شمارش به چه معناست؟ • تعداد کلمات پیکره 10000 IC(vehicle) = -log(75/10000) = 2.12 IC(caboose) = -log(10/10000) = 3 IC(freight car) = -log(1/10000) = 4 IC(coupe) = -log(14/10000) = 2.85 IC(sedan) = -log(16/10000) = 2.82 IC(taxi) = -log(34/10000) = 2.46 15 Amirkabir University of TechnologyComputer Engineering Faculty

  16. شباهت لغوي در WordNet (5) • Resnik: ميزان شباهت دو مفهوم عبارتست از مقدار اطلاعات يا محتواي اطلاعاتي که آن دو مفهوم به اشتراک گذاشته‌اند • محتواي اطلاعاتي نزديکترين مفهومي در ساختار سلسله مراتبي که دو مفهوم، در زير آن قرار گرفته باشند. • نزديکترين رده بند مشترک • Lowest Common Subsumer (LCS) Simres(c1, c2)=IC(lcs(c1, c2)) 16 Amirkabir University of TechnologyComputer Engineering Faculty

  17. شباهت لغوي در WordNet (6) • Jiang-Conrath : • distjcn(c1, c2)= IC(c1)+ IC(c2)-2*IC(lcs(c1, c2)) • Lin: 17 Amirkabir University of TechnologyComputer Engineering Faculty

  18. شباهت لغوي در WordNet (7) • Hirst-St.Onge : • چهار نوع ارتباط • فوق قوی ، قوی ، نسبتا قوی ، ضعیف • روابط موجود در WordNet • افقي، روبه بالا و رو به پايين 18 Amirkabir University of TechnologyComputer Engineering Faculty

  19. شباهت لغوي در WordNet (8) • معیار جدید برای محاسبه IC • مفاهيمي که در اين ساختار سلسله مراتبی در عمق بيشتر و داراي مفاهيم هم‌والد بيشتري هستند داراي محتواي اطلاعاتي بيشتر و در نتيجه داراي مقدار IC بيشتري هستند 19 Amirkabir University of TechnologyComputer Engineering Faculty

  20. شباهت لغوي در WordNet(9) 20 Amirkabir University of TechnologyComputer Engineering Faculty

  21. شباهت لغوي در WordNet (10) 21 Amirkabir University of TechnologyComputer Engineering Faculty

  22. شباهت لغوي در WordNet (11) 22 Amirkabir University of TechnologyComputer Engineering Faculty

  23. شباهت لغوي در WordNet (12) 23 Amirkabir University of TechnologyComputer Engineering Faculty

  24. شباهت لغوي در WordNet (13) 24 Amirkabir University of TechnologyComputer Engineering Faculty

  25. شباهت لغوي در WordNet (14) 25 Amirkabir University of TechnologyComputer Engineering Faculty

  26. شباهت لغوي در WordNet (15) مقايسه با معيارهای ديگر 26 Amirkabir University of TechnologyComputer Engineering Faculty

  27. استفاده از WordNet در خلاصه سازی متن برپايه گراف شباهت (محوريت جمله) • در خلاصه سازی متن بر پایه نظریه گراف ها، ابتدا برای جملات موجود در متن یک گراف شباهت تشکیل می شود. • در این گراف رئوس نشان دهنده جملات هستند. • وزن یال ها میزان شباهت دو جمله را نشان می دهند. 27 Amirkabir University of TechnologyComputer Engineering Faculty

  28. استفاده از WordNet در خلاصه سازی متن برپايه گراف شباهت (2) • بنابراین اولین و مهمترین مسئله در این روش تعیین معیار شباهت می‌باشد. • تعریف idf: • مقدار idf برای یک کلمه در مجموعه ای از متون برابر است با: idf(term)= -log(n/N) که در آن n برابر است با تعداد متن هایی که term مورد نظر در آنها تکرار شده و N تعداد کل متون را تشکیل می دهد (برای مثال کلمه the که در کلیه متون آمده است دارای مقدار idf صفر می باشد که میزان اهمیتی برای term مورد نظر تلقی می شد) 28 Amirkabir University of TechnologyComputer Engineering Faculty

  29. استفاده از WordNet در خلاصه سازی متن برپايه گراف شباهت (3) • برای نشان دادن شباهت دو جمله ما با استفاده مدل کردن جمله در فضایبرداری، برای هر جمله یک بردار در نظر می گیریم • برداری که هر یک از مولفه های آن معادل یک کلمه از کل متون ما می باشد. که طبعا ابعاد بردار بسیار زیاد می باشد. • بردار مربوط به هر جمله برابر است با برداری با ابعاد بردار پیشین و مولفه های آن برابر است با تعداد وقوع کلمه متناظر با آن مولفه در جمله مورد نظر ضرب در مقدار idf آن کلمه. • مثال: (ac,ad,fg,de,yy,…) جمله فرضی: (ac fg yy ac) بردار متناظر: (2*10 , 0 , 1*7 , 0 , 1*4) 29 Amirkabir University of TechnologyComputer Engineering Faculty

  30. استفاده از WordNet در خلاصه سازی متن برپايه گراف شباهت (4) • بعد از اینکه یک جمله بصورت بردار مدل شد می توان شباهت دو جمله را از شباهت کسینوسی دو بردار بدست آورد که بصورت اصلاح شده زیر ارائه گردیده است: • که در آن طول بردار یک جمله را به اندازه طول کلمات همان جمله در نظر گرفته (چون مولفه های دیگر صفر بوده که در فرمول اثرگذار نمی باشد) • مثال (نقطه ضعف) ……. Information ….. ….. data …………… WNsim(information,data)=0.95 30 Amirkabir University of TechnologyComputer Engineering Faculty

  31. استفاده از WordNet در خلاصه سازی متن برپايه گراف شباهت (5) • اصلاحی که در فرمول پیشین برای محاسبه شباهت دو جمله صورت گرفته با استفاده از شباهت دو کلمه در WordNet می باشد • متن های ورودی با استفاده از WordNet ، Stem می شوند. • برداری با طول مجموع طول دو جمله تشکیل و بجای محاسبه تعداد تکرار یک کلمه در جمله، میزان شباهت بر پایه WordNet آن کلمه با کلیه کلمات دیگر محاسبه و مجموع به عنوان تعداد تکرار قرار داده می شود. • برای سادگی تنها از اسامی و کلماتی که دارای میزان idf بالاتری از یک حد آستانه است استفاده شده است. 31 Amirkabir University of TechnologyComputer Engineering Faculty

  32. استفاده از WordNet در خلاصه سازی متن برپايه گراف شباهت (6) 32 Amirkabir University of TechnologyComputer Engineering Faculty

  33. روشی جديد برای امتيازدهی جمله در خلاصه سازی متن • در روش Centroid-base ابتدا idf کل کلمات محاسبه و سپس برای تعیین امتیاز یک جمله از مجموع idf کلمات آن جمله به عنوان میزان اهمیت جمله استفاده می شود. • همانطور که قبلا گفتیم اگر n/N را احتمال وقوع یک کلمه بنامیم، کلمه با احتمال وقوع کمتر از اهمیت بیشتری برخوردار است • در روش پیشنهادی ما سعی کردیم از تعمیم این ایده استفاده کنیم: • جمله ای با احتمال وقوع کمتر از اهمیت بیشتری برخوردار است • در حالت عادی اگر تعداد وقوع یک جمله را شمارش کنیم طبعا در کلیه موارد هر جمله فقط در یک متن وقوع می یابد. که مقدار n/N آن برابر 1/N می شود 33 Amirkabir University of TechnologyComputer Engineering Faculty

  34. روشی جديد برای امتيازدهی جمله در خلاصه سازی متن (2) • اگر بی نهایت متن در دامنه مذکور در دسترس بود این روش خوب بود چون حتما وقوع عینا یک جمله ممکن می شد. • بنابراین با استفاده از یک قانون معروف ریاضات این روش را اصلاح می کنیم 34 Amirkabir University of TechnologyComputer Engineering Faculty

  35. روشی جديد برای امتيازدهی جمله در خلاصه سازی متن (3) • تعریف ویژگی • هم وقوعی دوتایی • هم وقوعی سه تایی • هم وقوعی چهارتایی مثال: Systematic recovery of data from the memory bank of a computer. هم وقوعی 2 تایی • (Systematic, recovery) • (Recovery, computer) • (Data, bank) • هم‌وقوعي دوتايي کلمات یک جمله عبارتست از انتخاب‌هاي دوتايي از جمله و بررسي اينکه در چند متن دو کلمه مذکور با هم‌واقع شده‎اند. هم وقوعی 3 تایی • (systematic, data, computer) هم وقوعی 4 تایی • (recovery, memory, bank, computer) 35 Amirkabir University of TechnologyComputer Engineering Faculty

  36. روشی جديد برای امتيازدهی جمله در خلاصه سازی متن (4) • اصل شمول و عدم شمول: • در حالت دوتایی • حالت تعمیم یافته 36 Amirkabir University of TechnologyComputer Engineering Faculty

  37. روشی جديد برای امتيازدهی جمله در خلاصه سازی متن (5) • مثال: فرض کنید در جمله ای سه کلمه memory و data و computer وجود داشته باشد و توزیع آنها در متن ها در نمودار ون زیر آمده باشد 37 Amirkabir University of TechnologyComputer Engineering Faculty

  38. هم‌وقوعي يکيي هم‌وقوعي دوتايي هم‌وقوعي سه‌تايي روشی جديد برای امتيازدهی جمله در خلاصه سازی متن (6) • با جابجایی دو طرف رابطه داریم: • بنابراین احتمال وقوع یک جمله، بوسیله رابطه بالا قابل محاسبه می باشد. نکته این است که اگر رابطه را تا انتها ادامه دهیم به احمتمال 1/N خواهیم رسید که مطلوب ما نیست. در نتیجه این فرمول را تا نقطه ای محاسبه و متوقف می کنیم که در واقع گویی بی نهایت جمله در دسترس داریم که در آن جمله مورد نظر ما بصورت قابل ملاحظه ای عینا تکرار گردیده 38 Amirkabir University of TechnologyComputer Engineering Faculty

  39. روشی جديد برای امتيازدهی جمله در خلاصه سازی متن (7) • ساختمان داده استفاده شده با استفاده از یک hashtable می باشد • سرعت بالای دستیابی • هم وقوعی با استفاده از لیست روبری هر کلمه بدست می‌آید 39 Amirkabir University of TechnologyComputer Engineering Faculty

  40. روشی جديد برای امتيازدهی جمله در خلاصه سازی متن (8) • نقطه اتمام محاسبات با انجام آزمایشات و بررسی کارایی خلاصه سازی هم وقوعی 4 تایی انتخاب گردیده که از لحاظ محاسباتی نیز معقول می باشد. نمودار دقت خلاصه سازی به جهت انتخاب این نقطه بصورت زیر است: 40 Amirkabir University of TechnologyComputer Engineering Faculty

  41. مقايسه روش های انجام شده • داده های SUMMAC که شامل 187 مقاله در زمینه زبانشناسی • برای ارزیابی از بسته نرم افزاری ROUGE استفاده شده است 41 Amirkabir University of TechnologyComputer Engineering Faculty

  42. نتيجه‌گيری • تعاریفي در خصوص خلاصه سازی • شباهت لغوی در WordNet • تعریف شباهت لغوی جدید • استفاده از شباهت لغوی تعریف شده در خلاصه سازی برپایه محوریت جمله با استفاده از بازنمایی گرافی • تعریف ویژگی های هم وقوعی از مراتب مختلف • ترکیب این ویژگی ها با استفاده از اصل شمول و عدم شمول • تعریف معیار idf برای جمله • مقایسه روش های ارائه شده و روش های پیشین 42 Amirkabir University of TechnologyComputer Engineering Faculty

  43. مراجع • Mani, I. and M. Maybury.1999. Advances in Automatic Text Summarization. The MIT Press. • Luhn, H.P. 1958. The Automatic Creation of Literature Abstracts. IBM Journal of Research and Development, 159–165. • Edmundson, H.P. 1968. New Methods in Automatic Extraction. Journal of the ACM 16(2), 264–285. • Kupiec, J., J. Pedersen, and F. Chen. 1995. A Trainable Document Summarizer. In Proceedings of the Eighteentha Annual International ACM Conference on Research and Development in Information Retrieval (SIGIR), 68–73. Seattle, WA. • Mani, I., E. Bloedorn, and B. Gates. 1998. Using Cohesion and Coherence Models for Text Summarization. In Working Notes of the AAAI’98 Spring Symposium on Intelligent Text Summarization, 69–76. Stanford, CA. • Hovy, E. and D. Marcu. 1998. Automated Text summarization Tutorial, COLING/ACL, Institute University of Southern California, CA 90292. • Fellbaum, C. 1998. “WordNet: An Electronic Lexical Database”. MIT Press, Cambridge, USA. • Sebti, A. and A.A. Barfroush. 2008. A new word sense similarity measure in wordnet, International Multiconference on Computer Science and Information Technology, IEEE , Poland.369-373. • Garside, R. 1987. The CLAWS Tagging System. The Computational Analysis of English: A Corpus-based Approch, London: Longman. • DeRose, S. 1988. Grammatical category disambiguation by statistical optimization. Computational Linguistics, 14:31-39. • Lovins, J.B. 1968. Development of a stemming algorithm. Mechanical Translation and Computational Linguistics 11:22–31. • Porter, M.F. 1980. An algorithm for suffix stripping, Program, Vol. 14 No.3, pp. 130-137. • Baxendale, P.B. 1958. Machine-Made Index for Technical Literature—An Experiment. IBM Journal (October) 354–361. • Kupiec, J., J. Pedersen, and F. Chen. 1995. A Trainable Document Summarizer. In Proceedings of the Eighteenth Annual International ACM Conference on Research and Development in Information Retrieval (SIGIR), 68–73. Seattle, WA. • Teufel, S. and M. Moens. 1997. Sentence Extraction as a Classification Task. In Proceedings of the Workshop on Intelligent Scalable Summarization. ACL/EACL Conference, 58–65. Madrid, Spain. • Lin, C-Y. and E.H. Hovy. 1997. Identifying Topics by Position. In Proceedings of the Applied Natural Language Processing Conference (ANLP-97), 283–290. Washington. • Luhn, H.P. 1958. The Automatic Creation of Literature Abstracts. IBM Journal of Research and Development, 159–165. • Benbrahim, M. and K. Ahmad. 1994. Computer-aided lexical cohesion analysis and text abridgement. Technical Report CS-94-11, School of ECM, University of Surrey. 43 Amirkabir University of TechnologyComputer Engineering Faculty

  44. مراجع • Mitra M., A. Singhal, and C. Buckley. 1997. Automatic Text Summarization by Paragraph Extraction. In Proceedings of the Workshop on Intelligent Scalable Summarizationat theACL/EACL Conference, 39–46. Madrid, Spain. • Barzilay, R. and M. Elhadad. 1997. Using Lexical Chains for Text Summarization. In Proceedings of the Workshop on Intelligent Scalable Text Summarizationat theACL/EACL Conference, 10–17. Madrid, Spain. • Kruengkrai, C., C. Jaruskulchai. 2003. Generic Text Summarization Using Local and Global Properties of Sentences. Web Intelligence. 201-206. • Marcu, D. 1997. The Rhetorical Parsing, Summarization, and Generation of Natural Language Texts. Ph.D. diss. University of Toronto. • Paice, C. 1990. Constructing literature abstracts by computer: techniques and prospects. Information Processing and Management, 26 (1), 171-186. • Arun Kumar, P. , K. Praveen Kumar. T. Someswara Rao, P. Krishna Reddy. 2005. An Improved Approach to Extract Document Summaries Based on Popularity. DNIS 2005: 310-318. • Kiani, A., M.R. Akbarzadeh. 2006. Intelligent Extractive Text Summarization Using Fuzzy Inference Systems, Proceeding of the Second IEEE Conference on Intelligent Engineering, pp.149-153, April 15. • Kiani-B, A. M.R. Akbarzadeh-T. 2006. Automatic Text Summarization Using: Hybrid Fuzzy GA-GP. In Gary G. Yen and Lipo Wang and Piero Bonissone and Simon M. Lucaseditors, Proceedings of the 2006 IEEE Congress on Evolutionary Computation, pages 5465-5471, Vancouver. • Lin, CY. 1999. Training a Selection Function for Extraction. In the 8th International Conference on Information and Knowledge Management (CIKM 99), Kansa City, Missouri. • Saggion H., D. Radev, S. Teufel, and W. Lam. 2002. Meta-Evaluation of Summaries in a Cross-Lingual Environment Using Content-Based Metrics. In Proceedings of COLING-2002, Taipei,Taiwan. • Papineni, K., S. Roukos, T. Ward, and W.-J. Zhu. 2001. BLEU: a Method for Automatic Evaluation of Machine Translation. IBM Research Report RC22176 (W0109-022). • Lin, C.Y. and E.H. Hovy. 2003. Automatic Evaluation of Summaries Using N-gram Co-occurrence Statistics. In Proceedings of 2003 Language Technology Conference (HLT-NAACL 2003), Edmonton. • Radev, D.R., H. Jing, and M. Budzikowska. 2000. Centroid-based summarization of multiple documents: sentence extraction, utility-based evaluation, and user studies. In ANLP/NAACL Workshop on Summarization Seattle, WA. • Page, L., S. Brin, R. Motwani, and T. Winograd. 1998. The pagerank citation ranking: Bringing order to the web. Technical report, Stanford University, Stanford, CA. 44 Amirkabir University of TechnologyComputer Engineering Faculty

  45. مراجع • Brin, S., L. Page. 1998. The anatomy of a large-scale hypertextual Web search engine. Computer Networks and ISDN Systems, 30(1–7), 107–117. • Erkan, G., D.R. Radev. 2004. LexRank: Graph-based Centrality as Salience in Text Summarization, Journal of Artificial Intelligence Research 22. • Resnik, P. 1999. Semantic Similarity in a Taxonomy: An Information-Based Measure and Its Application to Problems of Ambiguity in Natural Language. J. Artificial Intelligence Research, vol. 11, pp. 95-130. • Buckley, C., J. Salton, J. Allen and A. Singhal. 1995. Automatic query expansion using Smart: TREC 3. In The third Text Retrieval Conference, Gaithersburg, MD. • Vechtomova, O. and S. Robertson. 2000. Integration of collocation statistics into the probabilistic retrieval model. In 22nd Annual Colloquium on Information Retrieval Research, Cambridge, England. • Xu, J., and B. Croft. 2000. Improving the effectiveness of information retrieval. ACM Transactions on Information Systems, 18(1):79-112. • Budanitsky, A. and G. Hirst. 2001. Semantic Distance in WordNet: An Experimental, Application-Oriented Evaluation of Five Measures. Proc. Workshop WordNet and Other Lexical Resources, Second Meeting North Am. Chapter Assoc. for Computational Linguistics. • Kozima, H. 1994. Computing Lexical Cohesion as a Tool for Text Analysis. doctoral thesis, Computer Science and Information Math, Graduate School of Electro-Comm., Univ. of Electro-Comm. • Srihari, R.K., Z.F. Zhang, and A.B. Rao. 2000. Intelligent Indexing and Semantic Retrieval of Multimodal Documents. Information Retrieval, vol. 2, pp. 245-275. • Hindle, D. 1990. Noun Classification from Predicate-Argument Structures. Proceedings of the 28th Annual Meeting of the Association for Computational Linguistics, ACL28’90, 268-275. • Grefenstette, G. 1992. Use of Syntactic Context to Produce Term Association Lists for Text Retrieval. Proceedings of the 15th Annual International Conference on Research and Development in Information Retrieval, SIGIR’92. • Lesk, M. 1986. Automatic sense disambiguation using machine readable dictionaries: How to tell a pine cone from an ice cream cone. In Proceedings of the SIGDOC Conference, Toronto, 1986. • Banerjee, S. and T. Pedersen. 2003. Extended gloss overlaps as a measure of semantic relatedness. In Proceedings of the Eighteenth International Joint Conference on Artificial Intelligence, pages 805–810, Acapulco, Mexico. • Quilian, M.R. 1968 Semantic memory. Semantic Information Processing. pages 216–270. • Wu, Z. and M. Palmer. 1994. Verb semantics and lexical selection. In 32nd. Annual Meeting of the Association for Computational Linguistics. pages 133 –138, New Mexico State University, Las Cruces, New Mexico. 45 Amirkabir University of TechnologyComputer Engineering Faculty

  46. مراجع • Leacock, C. and M. Chodorow. 1998. Combining local context and WordNet similarity for word sense identification. In Fellbaum, pp. 265–283. • Resnik, P. 1995. Using information content to evaluate semantic similarity. In Proceedings of the 14th International Joint Conference on Artificial Intelligence, pages 448–453, Montreal. • Jiang, J. and D. Conrath. 1997. Semantic similarity based on corpus statistics and lexical taxonomy. In Proceedings of International Conference on Research in Computational Linguistics, Taiwan. • Lin, D. 1998. An information-theoretic definition of similarity. In Proceedings of the 15th International Conference on Machine Learning,Madison, WI. • Hirst, G. and D. St-Onge. 1998. Lexical chains as representations of context for the detection and correction of malapropisms. In Fellbaum, pp. 305–332. • Resnik P. 1998. WordNet and class-based probabilities. In C. Fellbaum, editor, Word-Net: An electronic lexical database, pages 239-263. MIT Press. • Miller, G. and W. Charles. 1991. Contextual correlates of semantic Similarity. Language and Cognitive Processes, 1–28. • wn-similarity.sourceforge.net • www.nltk.org • opennlp.sourceforge.net 46 Amirkabir University of TechnologyComputer Engineering Faculty

  47. با تشکر از خداوند که قدرت انديشيدن را در ذهن‌هايمان نهاد و هر چه داريم از اوست با تشکر از استاد دلسوزم با تشکر از همه دوستانی که اینجانب را تحمل نمودند و تشریف آوردند 47 Amirkabir University of TechnologyComputer Engineering Faculty

  48. ؟ 48 Amirkabir University of TechnologyComputer Engineering Faculty

More Related