داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

داده کاوی کارا برای زیر درخت های مکرر بیشینهEfficient Data Mining for Maximal Frequent Subtrees استاد راهنما : دکتر رهگذر سبحان موسوی نژاد تابستان89

مراجع Proceedings of 3rd IEEE International Conference on Data Mining (ICDM), pages 379{386, 2003.

فهرست مطالب • مقدمه • مفاهیم اولیه • بیان مسئله • الگوریتم Path Join • نتایج تجربی • نتیجه گیری • مراجع

مقدمه • کاوش Association Rules و رشته ها (Sequence) :مسائل یک بعدی • کاوش زیر درخت و گراف : مسائل دو بعدی

کاربرد درخت کاوی Web Usage Mining Bio informatics

نقطه آغاز این کار • بررسی Log های Websites و یافتن الگوهای Usage و Traversal • مسائل : • تحقیقات قبلی کثرا به دنبال رشته ها و Sequence ها برای Usage بوده اند. • Web را به صورت تکبعدی نگریسته اند! • Web ذاتا ساختار سلسله مراتبی Hierarchal و یا گرافی دارد. • کار ما : یافتن الگوها با استفاده از Access Session ها. • ساختار Access Session ها Tree Structure • درخت ها در اینجا نامرتب و زیر درخت ها Induced و Maximal هستند.

مفاهیم اولیه • مسیر ریشه ای Root Path • نمایش هر مسیر ریشه ای توسط برچسب آخرین نود در مسیر • زیر درخت ریشه ای Root Subtree (F,B,D,E)

مفاهیم اولیه (ادامه) Embedded(درونی) Induced(منتج)

Item Set Representation For Root Subtree نمایش هر زیر درخت به عنوان یک Itemset اگر الگو ها Induced باشند : نمایش یکتا <A,C,E> :

Maximal Subtree • یک زیر درخت مکرر، بیشینه است اگر زیر درختی از یک زیر درخت مکرر دیگری نباشد

بیان مسئله • Unweighted Support • freqD(s) = ∑TєD freq T (S) ( freqT(s) =0,1) • supD(s)= freqD(s) / |D| • Weighted Support • SUPD(s) = ∑ FREQT(S) / ∑ TєD |T| FREQT(S) = 0 , n (n : if accurse n time )

The Frequent Subtree mining Problem • در یک پایگاه داده از درختان همچون D، با تعریف آستانه ای همچون smin یا Smin، هدف یافتن تمام زیر درخت های مکرر بیشینه. • فرضیات : • درخت ها نامرتب • برچسب ها : قابل تکرار • برچسب فرزندان یک نود : یکتا • مقدار Sup می تواند Weighted و یا Unweighted باشد.

یک نکته ! چرا ما به دنبال درخت های نامرتب هستیم ؟ وقتی در حال بررسی و تحلیل رفتار کاربر در یک Web Page هستید، مسئله مورد نظر یافتن صفحاتی است که کاربر از آنها بازدید نموده؛ نه ترتیب آنها!

ایده آغازین • یافتن تمامی Maximal Frequent Path ها • حذف تمامی نودهای Infrequent • ادغام آنها جهت دستیابی به Maximal Frequent Subtree ها • Maximal Frequent Path1- Freq Itemset • ادغام K تا از 1- Freq Itemset ها K- Freq Itemset

الگوریتم Path Join Outline • اسکن اولیه پایگاه داده برای شناسایی Freq 1-Itemset • اسکن ثانویه جهت Prune کردن نودهای غیر مکرر و ساختن ساختار داده FST-Forest • یافتن تمام Maximal Frequent Root Path • ادغام این Root Path ها و ساختن Maximal Freq Root Subtrees

FST - Forest Basic Node Structure Forest trees

FST – Forest (cont) • برای هر درخت، ایندکس بر اساس ریشه آن درخت می باشد. • شباهت این ساختار با FP-Growth • ذخیره Tree Ids تنها در برگ ها : صرفه جویی در حافظه • ذخیره درخت ها به صورت رشته • بازسازی سریعتر درخت ها در حافظه

گام اول : حذف نودهای غیر مکررInfrequent Nodes Elimination • After Pruning

ادغام درخت های با ریشه مشترک

برخی نکات • توجه : پس از فرآیند Pruning، ممکن است درختانی با ریشه جدید حاصل گردند. • پس از اتمام این مرحله، Tree ids List ها به صورت مرتب خواهند بود : ساختار FST Forest. • برای هر رشته ی درختی در پایگاه داده، زمان ساختن درخت متناظر در حافظه : به صورت خطی و متناسب با طول رشته. • مشخص کردن نودهای مکرر : الگوریتم DFS، زمان O(n). • زمان مورد نیاز برای ادغام : الگوریتم DFS، زمان O(n). • زمان کلی لازم جهت ساختن کل جنگل : خطی متناسب با تعداد درختان. • استفاده بهینه از حافظه اصلی : ذخیره Tree Ids تنها در برگ ها.

یافتن مسیرهای ریشه ایRoot Paths • مسیر های مکرر ریشه ای: مسیرهای مکرر بیشینه • هدف: شمردن تمام مسیر های ریشه ای، چه مکرر و چه غیر مکرر. • ادغام: مسیری که ریشه ای نیست؛ برچسب شروع آن ریشه یک درخت دیگر است؛ ادغام این مسیر با آن درخت. • درج کردن: برای مسیر بیشینه غیر ریشه ای، درختی جدید اضافه می شود.

یافتن مسیرهای ریشه ای (ادامه)

گام Pruning پس از مرحله Merge • حذف نودهای غیر مکرر، اجرای الگوریتم DFS • ادغام Tree Ids نودهای حذف شده با اولین جد حذف نشده آنها. After Pruning

گام آخر • حالا تمام مسیر ها Maximal Frequent Root Path هستند. • حالا با توجه به الگوریتم Apriori • به صورت Level Wise • پیدا کردن K-Itemset های مکرر از روی (K-1)-Itemset های مکرر. • شروع از 2-Itemset ها.

بحث بر سر Itemset ها و الگوریتم Apriori • برای دو تا ( k-1)آیتم ست : و kآیتم ست تولید خواهد شد اگر : و تمامی زیر مجموعه های آن مکرر باشند.

گام Maximizing • تا اینجا تمامی زیر درخت های مکرر یافته شده اند • حالا باید به دنبال زیر درخت های مکرر بیشینه بود. • بیشینه سازی محلی Local Maximizing • برای هر درخت، زیر درخت های آن میباید بیشینه باشند. • بیشینه سازی کلی Global Maximizing • در حالت کلی، در بین تمام درخت های جنگل، زیر درخت های کاوش شده میباید بیشینه باشند.

چرا Maximizing؟ در اختیار داشتن یک دید کلی از کل وب سایت.

نتایج تجربی

زمان اجرا

تعداد زیر درخت های کاندید

استفاده از حافظه

نتیجه گیری • نوعی جدید از درخت کاوی در این مقاله معرفی شد • الگوریتم Path Join برای یافتن Maximal Frequent Subtree ها ارائه شد. • استفاده الگوریتم از ساختمان داده فشرده FST Forest • استفاده از روش تولید زیر درخت های کاندید به صورت محلی • کاهش تعداد زیر درخت های کاندید.

مراجع • Y. Xiao and J.F. Yao. Efficient data mining for maximal frequent subtrees. Proceedings of 3rd IEEE International Conference on Data Mining (ICDM) , 2003. • M. J. Zaki. Efficiently mining frequent trees in a forest.In Proceedings of the 8th ACM SIGKDD Int’l Conference on Knowledge Discovery and Data Mining, Edmonton, Canada, jul2002.

مراجع (ادامه) • J. Han, J. Pei, and Y. Yin. Mining frequent patterns without candidate generation. In Proceedings of the ACM SIGMOD Conference, 2000. • R. Agrawal and R. Srikant. Fast algorithms for mining association rules in large databases. In Proceedings of the Twentieth International Conference on Very Large Databases, pages 487–499, Santiago, Chile, 1994.

سوالی که نیست؟!؟!

با تشکر از توجه شما سبحان موسوی نژاد تابستان89

داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

داده کاوی کارا برای زیر درخت های مکرر بیشینه Efficient Data Mining for Maximal Frequent Subtrees

Presentation Transcript

Mining Frequent Patterns without Candidate Generation

Frequent Item Mining

Data Mining

Ch5 Mining Frequent Patterns, Associations, and Correlations

Data Mining

Data Mining

Algorithms for Mining Maximal Frequent Itemsets -- A Survey

LCM ver.2: Efficient Mining Algorithms for Frequent/Closed/Maximal Itemsets

Frequent Structure Mining

On Frequent Chatters Mining

Mining Frequent Closed Cubes in 3D Datasets

Efficient Data Mining for Path Traversal Patterns

Frequent Subgraph Mining

SPIN: Mining Maximal Frequent Subgraphs from Graph Databases

Efficient Mining of XML Query Patterns for Caching

Lecture 11: Graph Data Mining

Efficient Algorithms for Mining Semi-structured Data

Data Mining with DB

SECURED OUTSOURCING OF FREQUENT ITEMSET MINING

CSCE822 Data Mining and Warehousing

Association Rule Mining