1 / 37

داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees. استاد راهنما : دکتر رهگذر سبحان موسوی نژاد تابستان 89. مراجع. Proceedings of 3rd IEEE International Conference on Data Mining (ICDM), pages 379{386, 2003. فهرست مطالب. مقدمه مفاهیم اولیه

Download Presentation

داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. داده کاوی کارا برای زیر درخت های مکرر بیشینهEfficient Data Mining for Maximal Frequent Subtrees استاد راهنما : دکتر رهگذر سبحان موسوی نژاد تابستان89

  2. مراجع Proceedings of 3rd IEEE International Conference on Data Mining (ICDM), pages 379{386, 2003.

  3. فهرست مطالب • مقدمه • مفاهیم اولیه • بیان مسئله • الگوریتم Path Join • نتایج تجربی • نتیجه گیری • مراجع

  4. مقدمه • کاوش Association Rules و رشته ها (Sequence) :مسائل یک بعدی • کاوش زیر درخت و گراف : مسائل دو بعدی

  5. کاربرد درخت کاوی Web Usage Mining Bio informatics

  6. نقطه آغاز این کار • بررسی Log های Websites و یافتن الگوهای Usage و Traversal • مسائل : • تحقیقات قبلی کثرا به دنبال رشته ها و Sequence ها برای Usage بوده اند. • Web را به صورت تکبعدی نگریسته اند! • Web ذاتا ساختار سلسله مراتبی Hierarchal و یا گرافی دارد. • کار ما : یافتن الگوها با استفاده از Access Session ها. • ساختار Access Session ها Tree Structure • درخت ها در اینجا نامرتب و زیر درخت ها Induced و Maximal هستند.

  7. مفاهیم اولیه • مسیر ریشه ای Root Path • نمایش هر مسیر ریشه ای توسط برچسب آخرین نود در مسیر • زیر درخت ریشه ای Root Subtree (F,B,D,E)

  8. مفاهیم اولیه (ادامه) Embedded(درونی) Induced(منتج)

  9. Item Set Representation For Root Subtree نمایش هر زیر درخت به عنوان یک Itemset اگر الگو ها Induced باشند : نمایش یکتا <A,C,E> :

  10. Maximal Subtree • یک زیر درخت مکرر، بیشینه است اگر زیر درختی از یک زیر درخت مکرر دیگری نباشد

  11. بیان مسئله • Unweighted Support • freqD(s) = ∑TєD freq T (S) ( freqT(s) =0,1) • supD(s)= freqD(s) / |D| • Weighted Support • SUPD(s) = ∑ FREQT(S) / ∑ TєD |T| FREQT(S) = 0 , n (n : if accurse n time )

  12. The Frequent Subtree mining Problem • در یک پایگاه داده از درختان همچون D، با تعریف آستانه ای همچون smin یا Smin، هدف یافتن تمام زیر درخت های مکرر بیشینه. • فرضیات : • درخت ها نامرتب • برچسب ها : قابل تکرار • برچسب فرزندان یک نود : یکتا • مقدار Sup می تواند Weighted و یا Unweighted باشد.

  13. یک نکته ! چرا ما به دنبال درخت های نامرتب هستیم ؟ وقتی در حال بررسی و تحلیل رفتار کاربر در یک Web Page هستید، مسئله مورد نظر یافتن صفحاتی است که کاربر از آنها بازدید نموده؛ نه ترتیب آنها!

  14. ایده آغازین • یافتن تمامی Maximal Frequent Path ها • حذف تمامی نودهای Infrequent • ادغام آنها جهت دستیابی به Maximal Frequent Subtree ها • Maximal Frequent Path1- Freq Itemset • ادغام K تا از 1- Freq Itemset ها K- Freq Itemset

  15. الگوریتم Path Join Outline • اسکن اولیه پایگاه داده برای شناسایی Freq 1-Itemset • اسکن ثانویه جهت Prune کردن نودهای غیر مکرر و ساختن ساختار داده FST-Forest • یافتن تمام Maximal Frequent Root Path • ادغام این Root Path ها و ساختن Maximal Freq Root Subtrees

  16. FST - Forest Basic Node Structure Forest trees

  17. FST – Forest (cont) • برای هر درخت، ایندکس بر اساس ریشه آن درخت می باشد. • شباهت این ساختار با FP-Growth • ذخیره Tree Ids تنها در برگ ها : صرفه جویی در حافظه • ذخیره درخت ها به صورت رشته • بازسازی سریعتر درخت ها در حافظه

  18. گام اول : حذف نودهای غیر مکررInfrequent Nodes Elimination • After Pruning

  19. ادغام درخت های با ریشه مشترک

  20. برخی نکات • توجه : پس از فرآیند Pruning، ممکن است درختانی با ریشه جدید حاصل گردند. • پس از اتمام این مرحله، Tree ids List ها به صورت مرتب خواهند بود : ساختار FST Forest. • برای هر رشته ی درختی در پایگاه داده، زمان ساختن درخت متناظر در حافظه : به صورت خطی و متناسب با طول رشته. • مشخص کردن نودهای مکرر : الگوریتم DFS، زمان O(n). • زمان مورد نیاز برای ادغام : الگوریتم DFS، زمان O(n). • زمان کلی لازم جهت ساختن کل جنگل : خطی متناسب با تعداد درختان. • استفاده بهینه از حافظه اصلی : ذخیره Tree Ids تنها در برگ ها.

  21. یافتن مسیرهای ریشه ایRoot Paths • مسیر های مکرر ریشه ای: مسیرهای مکرر بیشینه • هدف: شمردن تمام مسیر های ریشه ای، چه مکرر و چه غیر مکرر. • ادغام: مسیری که ریشه ای نیست؛ برچسب شروع آن ریشه یک درخت دیگر است؛ ادغام این مسیر با آن درخت. • درج کردن: برای مسیر بیشینه غیر ریشه ای، درختی جدید اضافه می شود.

  22. یافتن مسیرهای ریشه ای (ادامه)

  23. گام Pruning پس از مرحله Merge • حذف نودهای غیر مکرر، اجرای الگوریتم DFS • ادغام Tree Ids نودهای حذف شده با اولین جد حذف نشده آنها. After Pruning

  24. گام آخر • حالا تمام مسیر ها Maximal Frequent Root Path هستند. • حالا با توجه به الگوریتم Apriori • به صورت Level Wise • پیدا کردن K-Itemset های مکرر از روی (K-1)-Itemset های مکرر. • شروع از 2-Itemset ها.

  25. بحث بر سر Itemset ها و الگوریتم Apriori • برای دو تا ( k-1)آیتم ست : و kآیتم ست تولید خواهد شد اگر : و تمامی زیر مجموعه های آن مکرر باشند.

  26. گام Maximizing • تا اینجا تمامی زیر درخت های مکرر یافته شده اند • حالا باید به دنبال زیر درخت های مکرر بیشینه بود. • بیشینه سازی محلی Local Maximizing • برای هر درخت، زیر درخت های آن میباید بیشینه باشند. • بیشینه سازی کلی Global Maximizing • در حالت کلی، در بین تمام درخت های جنگل، زیر درخت های کاوش شده میباید بیشینه باشند.

  27. چرا Maximizing؟ در اختیار داشتن یک دید کلی از کل وب سایت.

  28. نتایج تجربی

  29. زمان اجرا

  30. زمان اجرا

  31. تعداد زیر درخت های کاندید

  32. استفاده از حافظه

  33. نتیجه گیری • نوعی جدید از درخت کاوی در این مقاله معرفی شد • الگوریتم Path Join برای یافتن Maximal Frequent Subtree ها ارائه شد. • استفاده الگوریتم از ساختمان داده فشرده FST Forest • استفاده از روش تولید زیر درخت های کاندید به صورت محلی • کاهش تعداد زیر درخت های کاندید.

  34. مراجع • Y. Xiao and J.F. Yao. Efficient data mining for maximal frequent subtrees. Proceedings of 3rd IEEE International Conference on Data Mining (ICDM) , 2003. • M. J. Zaki. Efficiently mining frequent trees in a forest.In Proceedings of the 8th ACM SIGKDD Int’l Conference on Knowledge Discovery and Data Mining, Edmonton, Canada, jul2002.

  35. مراجع (ادامه) • J. Han, J. Pei, and Y. Yin. Mining frequent patterns without candidate generation. In Proceedings of the ACM SIGMOD Conference, 2000. • R. Agrawal and R. Srikant. Fast algorithms for mining association rules in large databases. In Proceedings of the Twentieth International Conference on Very Large Databases, pages 487–499, Santiago, Chile, 1994.

  36. سوالی که نیست؟!؟!

  37. با تشکر از توجه شما سبحان موسوی نژاد تابستان89

More Related