درخت کاوی

درخت کاوی سبحان موسوی نژاد بهار 89

مراجع

فهرست مطالب تعریف مفاهیم اولیه درخت کاوی کاربردها انواع درخت کاوی برخی از کارهای شاخص انجام گرفته تا کنون کارهای آینده مراجع

مفاهیم اولیه درخت کاوی گره (Node) درخت(Tree) الگو (Pattern) انطباق (Matching) فراوانی الگو (Pattern Frequency)

تعریف کاوش ساختار درختی ( درخت کاوی / Tree Mining): جستجوی ساختارهای درختی در پایگاه های داده ای خاص با استفاده از الگوهای ارائه شده.

تعریف (ادامه) Tree Mining Process

انواع الگو Embedded(درونی) Induced(منتج)

انواع درخت • مرتب Ordered • نامرتب Unordered • آزاد Free

تعریف دقیق مساله فرض کنید که T یک درخت ریشه دار با برچسب های معین برای هر گره باشد؛ و همچنین S یک الگو در T باشد. هر انطباق (Match) از S در T عبارتست از مکان هایی که S بر آنها منطبق است. فراوانی این انطباق ها با نمایش داده می شود. کاوش زیردرخت ها(الگوها)ی مکرر(Frequent) : در یک پایگاه داده از درخت ها جستجو برای یافتن زیردرخت هایی که تعداد تکرارشان در میان کل درخت ها از یک مقدار کمینه (Threshold) ی تعریف شده بیشتر باشد.

کاربرد های درخت کاوی • کاوش استفاده از وب (Web Usage Mining) • خوشه بندی و رده بندی اسناد (Clustering & Classification Of Documents) • پارسر های زبانی خودکار احتمالاتی (Automatic Probabilistic Language Parsers) • داده شناسی زیستی (Bioinformatics) • یکپارچه سازی منابع ناهمگون داده ( Aggregation Of Multiple Heterogeneous source of data) • ارتقا کارایی سیستم های مدیریت داده(Improving performance of data management systems)

کاوش استفاده از وبWeb Usage Mining به کار گیری تکنیک های داده کاوی جهت استخراج داده از سطح داده های وب متشکل از سه مرحله: • پیش پردازش • استخراج الگو ها • تحلیل الگوها

کاوش استفاده از وبWeb Usage Mining(ادامه) • مدل کردن صفحات وب به صورت سلسله مراتبی (Hierarchical) • مدل کردن تاریخچه بازدید هر کابر به صورت درخت با استفاده از Log File های موجود • کابردها • چیدمان و ارائه وب به صورت دلخواه کابر • سازماندهی بهتر ساختار وب سایت • تجارت هوشمند Business Intelligence • ساخت (ارائه) نظریه Making Recommendations

خوشه بندی و رده بندی اسنادClustering & Classification Of Documents ساختن یک درخت ریشه دار و مرتب از روی متن ورودی تبدیل مساله به مساله ی رده بندی درخت ها Tree Classification Problem حل مساله رده بندی درخت ها با روش های موجود رده بندی دودویی Binary Classification

پارسر های زبانی خودکار احتمالاتی Automatic Probabilistic Language Parsers • نمایش جملات و عبارات با استفاده از ساختار درختی • استخراج الگوها با استفاده از داده های اولیه • نمایش ساختار نحوی این الگوها با استفاده از Treebanks • نحوه ساخت Treebanks : • دستی • نیمه خودکار • به دست آوردن ساختار های مکرر از Treebanks • برآورد احتمال اینکه یک Nonterminal خاص در گرامر زبان بر اساس یک قاعده داده شده ساخته شده است یا که خیر • ساختن گرامر های مستقل از متن احتمالاتی برای زبان ها

داده شناسی زیستی Bioinformatics

داده شناسی زیستی Bioinformatics استفاده از درخت های مورد استفاده جهت داده شناسی زیستی برای نمایش سطح گسترده ای از ساختارهای زیست شناسی همچون • Glycans • RNA • Phylogenies

داده شناسی زیستی BioinformaticsGlycans • زنجیره های کربوهیدرات قندی متصل به چربی یا پروتئین • دارای حجم عظیمی از ساختار • نقش عظیمی را در پردازش سلولی عهده دارند همچون • ارتباط بین سلولی • سیستم دفاعی • تعامل پروتئینی • پیشرفت تومور • نمایش با استفاده از درخت های ریشه دار مرتب • رده بندی ساختارهای Glycan بر اساس اشکال ساختاری با استفاده الگوهای رایج بدست آمده • استنتاج کارکردهای Glaycans با استفاده از رده بندی آنها

داده شناسی زیستی BioinformaticsRNA • اهمیت مولکول های RNA در بسیاری از کارکاردهای Biochemical از قبیل : • ترجمه Translation • استقرار بافت سلولیCellular Localization • غالبا ساختار ثانویه RNA به صورت یک درخت ریشه دار مرتب مدل می گردد • بزرگترین چالش : یافت الگوهای مشترک برای شرح مشابهت کارکردی در بین مولکول های تحت بررسی • تکرار الگوهای یافت شده در یک رشته RNA جدید وجود کارکردهای مشابه • بخش عظیمی از کارکردهای RNA توسط ساختار ثانویه آن معلوم می گردد.

یکپارچه سازی منابع ناهمگون داده Aggregation Of Multiple Heterogeneous source of data • ساختن یک Schema میانی • یکپارچه سازی بخش های چندگانه و ناهمگون داده • اعمال پرس و جو به Schema میانی به جای کل پایگاه داده ها • افزایش سرعت پرس و جوها

ارتقا کارایی سیستم های مدیریت دادهImproving performance of data management systems • حفظ (Cashing) نتایج پرس و جوهای شاخص (Hot) • استفاده از تکنیک هایی همچون الگوهای مکرر پرس و جو (Frequent Query Pattern) برای طراحی سیاست های Caching • استفاده از الگوهای درختی جهت اطمینان از ویژگی های خوب اندیس گذاری

انواع درخت کاوی • بر اساس روند مقالات • انواع زیر درخت ها • مرتب و منتج Ordered & Induced • مرتب و درونی Ordered & Embedded • نامرتب و منتج Unordered & Induced • نامرتب و درونی Unordered & Embedded • درخت آزاد Free Tree • بسته و بیشینه Closed & Maximal • درخت کاوی فازی

برخی از کارهای شاخص انجام گرفته تا کنون

Ordered and Induced T. Asai, K. Abe, S. Kawasoe, H. Arimura, H. Satamoto, and S. Arikawa. Efficient Substructure Discovery from Large Semi-structured Data. Proceedings of the SIAM International Conference on Data Mining , 2002. S. Hido and H. Kawano. AMIOT: Induced Ordered Tree Mining in Tree-Structured Databases. Proceedings of the 5th IEEE International Conference on Data Mining (ICDM), 2005.

Ordered and Embedded S. Tatikonda, S. Parthasarathy, and T. Kurc. TRIPS and TIDES: new algorithms for tree mining. Proceedings of 15th ACM International Conference on Information and Knowledge Management (CIKM), 2006. C.Wang, M. Hong, J. Pei, H. Zhou, W. Wang, and B. Shi. Efficient Pattern-Growth Methods for Frequent Tree Pattern Mining. Proceedings of the Pacific Asia Conference on Knowledge Discovery and Data Mining (PAKDD), 2004. M.J. Zaki. Efficiently Mining Frequent Trees in a Forest. ACM Press, 2002. L. Zou, Y. Lu, H. Zhang, and R. Hu. PreffixTreeESpan: A Pattern Growth Algorithm for Mining Embedded Subtrees. Proceedings of 7th International Conference on Web Information Systems Engineering (WISE), 2006.

TRIPS and TIDES: new algorithms for tree mining • ایده ای بر مبنای رشد الگو Pattern Growth • گام اول : تبدیل کل درخت ها به رشته Sequence • پیمایش تمامی رشته هایی که در آن ها زیر درختی همچون S وجود دارد، جهت پیدا کردن یال جدیدی برای افزودن به SCandidate Generation • چک کردن مقادیر کمینه Threshold • همزمانی دو مرحله اخیر

Unordered and Induced T. Asai, H. Arimura, T. Uno, and S. Nakano. Discovering frequent substructures in large unordered trees. 6th International Conference on Discovery Science, 2003. Y. Chi, Y. Yang, and R. Muntz. HybridTreeMiner: An Efficient Algorithm for Mining Frequent Rooted Trees and Free Trees Using Canonical Form. Proceedings of 16th International Conference on Scientific and Statistical Database Management (SSDBM), 2004. Y. Chi, Y. Yang, Y. Xia, and R.R. Muntz. CMTreeMiner: Mining Both Closed and Maximal Frequent Subtrees. Proceedings of 8th Pacific Asia Conference on Knowledge Discovery and Data Mining (PAKDD) , 2004. Y. Xiao and J.F. Yao. Efficient data mining for maximal frequent subtrees. Proceedings of 3rd IEEE International Conference on Data Mining (ICDM), 2003.

Discovering frequent substructures in large unordered trees • نخستین چالش : آیا بایستی تمام جایگشت ها بررسی گردند؟ • اختصاص درخت مرتب یکتا برای هر درخت نامرتب با استفاده از نمایش معیار(Canonical Representation) با بهره گیری از Depth Label Representation

Unordered and Embedded Z. Feng, W. Hsu, and M.L. Lee. Efficient Pattern Discovery for Semi structured Data. Proceedings of the 17th IEEE International Conference on Tools with Artificial Intelligence (ICTAI), 2005. A. Termier, M.C. Rousset, and M. Sebag. TreeFinder: a First Step towards XML Data Mining. Proceedings of the 2nd IEEE International Conference on Data Mining (ICDM), 2002. M.J. Zaki. Efficiently Mining Frequent Embedded Unordered Trees. Fundamental Informaticae, 2005.

Efficiently Mining Frequent Embedded Unordered Trees • تبدیل درخت ها به رشته • استفاده از روش های Prefix Extension و Canonical Extension و Equivalence Class-based Extension جهت پیدا کردن زیر رشته (زیر درخت ) های کاندید • استفاده از scope-list join جهت بدست آوردن فراوانی زیر رشته های کاندید

Free Trees Y. Chi, Y. Yang, and R. Muntz. HybridTreeMiner: An Efficient Algorithm for Mining Frequent Rooted Trees and Free Trees Using Canonical Form. Proceedings of 16th International Conference on Scienti_c and Statistical Database Management (SSDBM), 2004. Y. Chi, Y. Yang, and R.R. Muntz. Canonical forms for labelled trees and their applications in frequent subtree mining. Knowledge and Information Systems, 2005. S. Nijssen and J.N. Kok. A quickstart in frequent structure mining can make a difference. Proceedings of the 2004 ACM SIGKDD international conference on Knowledge discovery and data mining, 2004. U. Ruckert and S. Kramer. Frequent free tree discovery in graph data. Proceedings of the 2004 ACM symposium on Applied computing, 2004. P. Zhao and J.X. Yu. Mining closed frequent free trees in graph databases , 2007.

Frequent free tree discovery in graph data • درخت آزاد : گراف همبند بدون دور • گام اول : پیدا کردن صورتی متعارف برای درخت Canonical Form • پیدا کردن یک Canonical Center • ساخت یک درخت ریشه دار نامرتب از روی درخت آزاد • ادامه راه همچون روش های قبلی(Unordered Trees)

Closed and Maximal Y. Chi, Y. Yang, and R.R. Muntz. Canonical forms for labelled trees and their applications in frequent subtree mining. Knowledge and Information Systems, 2005. A. Termier, M. Rousset, M. Sebag, K. Ohara, T. Washio, and H. Motoda. Efficient Mining of High Branching Factor Attribute Trees. Proceedings of the 5th IEEE International Conference on Data Mining, 2005. A. Termier, M.C. Rousset, and M. Sebag. TreeFinder: a First Step towards XML Data Mining.Proceedings of the 2nd IEEE International Conference on Data Mining (ICDM), 2002. [118] A. Termier, MC Rousset, and M. Sebag. Dryade: a new approach for discovering closed frequent trees in heterogeneous tree databases. Data Mining, 2004. ICDM 2004. Proceedings. Fourth IEEE International Conference , 2004. Y. Xiao and J.F. Yao. Efficient data mining for maximal frequent subtrees. Proceedings of 3rd IEEE International Conference on Data Mining (ICDM) , 2003. P. Zhao and J.X. Yu. Mining closed frequent free trees in graph databases. 2007.

Efficient data mining for maximal frequent sub trees • Closed Subtree • Maximal Subtree • استفاده از الگوریتمی شبیه Level Wise • بدست آوردن Maximal Paths • ادغام Maximal Paths

درخت کاوی فازی Fuzzy Tree mining • درجه پدر و فرزندی ancestor-descendant degree • درجه ترتیب فرزندان sibling ordering degree • شمول نسبی partial inclusion • شباهت گره ها Node similarity

درخت کاوی فازی (ادامه) 1. S. Sanchez, A. Laurent, P. Poncelet, and M. Teisseire. Fuzbt: a binary approach for fuzzy tree mining. In Proceedings of the 11th IPMU International Conference on Information Processing and Management of Uncertainty in Knowledge-Based Systems (IPMU 2006), 2006. 2. F.D.R. López, A. Laurent, P. Poncelet, M. Teisseire, Fuzzy tree mining: go soft on your nodes, in: Proc. Internat. Fuzzy Systems Association World Congress (IFSA 07), Lecture Notes in Computer Science, Vol. 4529, Springer, Berlin, Heidelberg, 2007, pp. 145–154. 3. F. DelRazoLopez, A .Laurent, P .Poncelet, M .Teisseire. FTMnodes: Fuzzy tree mining based on partial inclusion. Fuzzy Sets and Systems 160(15): 2224-2240 (2009)

کارهای آینده

Proceedings of 3rd IEEE International Conference on Data Mining (ICDM), pages 379{386, 2003.

Fuzzy Sets and Systems 160(15): 2224-2240 (2009)

مراجع • Shirish Tatikonda. Efficient Semi-Structured Data Analysis and Management. A CANDIDACY PROPOSAL. The Ohio State University 2007 • S. Tatikonda, S. Parthasarathy, and T. Kurc. TRIPS and TIDES: new algorithms for tree mining. Proceedings of 15th ACM International Conference on Information and Knowledge Management (CIKM), 2006. • T. Asai, H. Arimura, T. Uno, and S. Nakano. Discovering frequent substructures in large unordered trees. 6th International Conference on Discovery Science, 2003. • M.J. Zaki. Efficiently Mining Frequent Embedded Unordered Trees. Fundamental Informaticae, 2005.

مراجع(ادامه) • U. Ruckert and S. Kramer. Frequent free tree discovery in graph data. Proceedings of the 2004 ACM symposium on Applied computing, 2004. • Y. Xiao and J.F. Yao. Efficient data mining for maximal frequent subtrees. Proceedings of 3rd IEEE International Conference on Data Mining (ICDM) , 2003. • F. DelRazoLopez, A .Laurent, P .Poncelet, M .Teisseire. FTMnodes: Fuzzy tree mining based on partial inclusion. Fuzzy Sets and Systems 160(15): 2224-2240 (2009) • T. Kudo and Y. Matsumoto. A boosting algorithm for classification of semi-structured text. Proceedings of Empirical Methods on Natural Language Processing (EMNLP), pages 301{308, 2004. • www.cs.rpi.edu/~youssefi/research/VWM • www.nature.com/.../v5/n3/fig_tab/nrn1349_F7.html

درخت کاوی

درخت کاوی

Presentation Transcript