1 / 55

پیدا کردن قوانین همبستگی در داده‌های پیوندی

یَرفعُ اللهَ الذینَ آمَنوُا مِنکُم وَ الذینَ اوُتوالعِلم دَرَجَات. دانشکده مهندسی برق و کامپیوتر. پیدا کردن قوانین همبستگی در داده‌های پیوندی. Finding Association Rules in Linked Data. دفاعیه پایان نامه کارشناسی‌ارشد. اساتید راهنما: دکتر محمدحسین سرایی دکتر محمدعلی نعمت‌بخش.

Download Presentation

پیدا کردن قوانین همبستگی در داده‌های پیوندی

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. یَرفعُاللهَالذینَآمَنوُامِنکُموَالذینَاوُتوالعِلمدَرَجَاتیَرفعُاللهَالذینَآمَنوُامِنکُموَالذینَاوُتوالعِلمدَرَجَات دانشکده مهندسی برق و کامپیوتر پیدا کردن قوانین همبستگی در داده‌هایپیوندی Finding Association Rules in Linked Data دفاعیه پایان نامه کارشناسی‌ارشد اساتید راهنما:دکترمحمدحسین سرایی دکتر محمدعلی نعمت‌بخش رضا رمضانی 20/شهریور/1391

  2. سرفصل مطالب • ضرورت انجام پژوهش • هدف از انجام پروژه • مفاهیم اولیه • روش‌هایموجود • مشکلات و چالش‌ها • ساختمان داده‌هایمورد استفاده • روش پیشنهادی در کاوش داده‌هایوب معنایی • روش پیشنهادی در کاوش داده‌هایپیوندی • داده‌هایمورد استفاده • نتایج ارزیابی • جمع بندی • کارهای آینده

  3. ضرورت انجام پژوهش حجم زیاد داده‌هایموجود نیاز به استخراج دانش از داده‌ها منابع داده ای مورد استفاده تکنیک‌هایداده کاوی فایل‌هایمسطح وب پایگاه داده‌ها خوشه بندی قوانین همبستگی ... طبقه بندی وب معنایی (وب داده) وب سنتی (وب اسناد) کاوش قوانین همبستگی از داده‌هایوب معنایی مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  4. هدف انجام پژوهش داده‌هایوب معنایی نمایش داده‌هایوب معنایی صفحات HTML، مرورگر‌هایوب معنایی، عامل‌هایکاربردی ذخیره داده‌هایوب معنایی بانک‌هایاطلاعاتی رابطه ای منابع داده مسطح ... اتصال چندین منبع داده وب معنایی به یکدیگر (داده‌هایپیوندی) تک منبع داده کاوش قوانین همبستگی از داده‌هایپیوندی مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  5. قوانین همبستگی • تعیین احتمال رخداد یک حالت، بعد از رخ دادن یک یا چند حالت دیگر • ساده ترین حالت: آنالیز سبد خرید • کسانی که نان و پنیر می خرند  کره نیز می خرند (78%) • مبنای کار • تراکنش: چند حالت (عنصر) که با یکدیگر رخ می دهند. • شماره تراکنش • عناصر تراکنش • پارامتر‌ها • درجه پشتیبانی • درجه اطمینان • بخش‌هایقانون • مقدم - نتیجه • الگوریتم Apriori • مبنایی ترین روش کاوش قوانین همبستگی • دو فاز: تولید مجموعه عناصر بزرگ و تولید قوانین همبستگی • شناسایی عناصر بزرگ بر اساس تراکنش‌ها مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  6. مثال از الگوریتم Apriori Database D L1 C1 Scan D C2 C2 L2 Scan D L3 C3 Scan D

  7. وب معنایی • ذخیره داده به همراه توصیف داده‌ها • داده‌ها: ذخیره داده در گرامر‌هایمختلف و به صورت سه تایی • توصیف داده‌ها: آنتولوژی • داده‌هایوب معنایی • سه تایی (فاعل، گزاره، مفعول) • علی احمد را می شناسد. • علی: فاعل • شناختن: گزاره • احمد: مفعول • زبان استخراج داده‌ها • SPARQL • قابلیت نمایش داده‌ها در قالب گراف rdf:type foaf:Person pd:cygri foaf:name Richard Cyganiak foaf:based_near dbpedia:Berlin pd:cygri = http://richard.cyganiak.de/foaf.rdf#cygri dbpedia:Berlin= http://dbpedia.org/resource/Berlin مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  8. داده‌هایپیوندی • اتصالات صفحات وب سنتی • لینک‌هایبدون نوع • اتصالات صفحات وب معنایی • داده‌هایپیوندی • لینک‌های نوع دار • فاعل – گزاره - مفعول مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  9. مثال از داده‌هایوب معنایی چالش اصلی: عدم وجود تراکنش در داده‌هایوب معنایی کسانی که در دانشگاه صنعتی اصفهاندرس می خواننددکتر نعمت‌بخش را می شناسند. مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  10. 1) Victoria Nebot و Rafael Berlanga • Finding association rules in semantic web data • توصیف • نگاه به داده‌ها در قالب گراف • ایجاد تراکنش به کمک یک الگوی کاوش که کاربر وارد می کند. • استفاده از الگوریتم‌هایداده کاوی سنتی • Q = (Target Concept,Context Concept,Features) • Target Concept: بیان می کند که اطلاعات مرتبط به چه چیزی باید استخراج شود؟ (بیمار - پزشک) • Context Concept: بیانگر معیار ساخت تراکنش است (TID) • Features: بیانگر عناصری است که در یک تراکنش قرار می گیرند. • تمرکز اصلی روش • ساخت تراکنش از روی داده‌ها و سپس استفاده از یک روش سنتی مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  11. 1) Victoria Nebot و Rafael Berlanga (ادامه) مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  12. 1) Victoria Nebot و Rafael Berlanga (ادامه) • CREATE MINING MODEL <Dataset Path> • { • ?patient RESOURCE TARGET • ?drug RESOURCE • ?jadi LITERAL • ?disease RESOURCE PREDICT • ?report RESOURCE CONTEXT • } • WHERE • { • ?patient rdf:type Patient. • ?drug rdf:type Drug. • ?disease rdf:type Disease. • ?report rdf:type Report. • ?report damageIndex ?jadi. • } مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  13. 1) Victoria Nebot و Rafael Berlanga (ادامه) داده‌هایاستخراجی به همراه مسیرهای تجمعی داده‌هایاستخراجی به همراه مسیرهای تجمعی اصلاح شده تراکنش‌هایاستخراج شده مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  14. 2) Ziawasch Abedjan و Felix Naumann • Context and Target Configurations for Mining RDF Data • توصیف • سه تایی: فاعل، گزاره و مفعول • استفاده از یکی از این مقادیر به عنوان شماره شناسایی تراکنش (محتوی) • استفاده از یکی دیگر از مقادیر به عنوان عناصر تراکنش (هدف) • حذف مقدار باقیمانده سوم • ساخت تراکنش بر اساس دو مقدار از سه مقدار ممکن • استفاده از الگوریتم‌هایسنتی مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  15. 3) VenkataNarasimha et al • LiDDM: A Data Mining System for Linked Data • کاوش داده‌هایپیوندی • استخراج داده از چندین منبع داده • استخراج به کمک زبان SPARQL • شناسایی نقطه پایانی و ساختار منابع داده • ادغام داده‌هایاستخراج شده • استفاده از الگوریتم‌هایسنتی • طبقه بندی • خوشه بندی • کاوش قوانین همبستگی مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  16. 4) کاوش گراف مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  17. 5) کاوش درخت مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  18. مشکلات و چالش‌ها در برخورد با داده‌هایوب معنایی • عدم وجود تعریف دقیق از تراکنش • تعریف تراکنش بر اساس الگو‌هاییخاص • کاوش قوانین همبستگی بدون در نظر گرفتن تراکنش • وجود روابط نوع دار بین موجودیت‌ها • هر عنصر، متشکل از یک موجودیت به همراه یک رابطه است. • ساختار ناهمگنداده‌ها • وجود صفات مختلف به ازاء موجودیت‌هاییکسان • استفاده از ساختار لیست پیوندی • دخالت شدید کاربر در فرآیند کاوش • آگاهی کاربر از ساختار منابع داده و زبان‌هایاستخراج داده مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  19. جریان کاری الگوریتم ارائه شده • مراحل اصلی • فراهم سازی داده‌هایمورد نیاز به صورت سه تایی • پیش پردازش • پردازش و تولید قانون • استفاده از قوانین تولیدی پیش پردازش MinConf, MinSup منبع داده کامل حذف موجودیت‌هاینامکرر گسسته سازیداده‌ها تبدیل داده‌ها بهمقادیر عددی بخشی از یک منبع داده (SPARQL) پردازش سه تایی استخراج مجموعه عنصر بزرگ با طول 2 ساخت تمام مجموعه عناصر بزرگ تولید قوانین همبستگی اتصال چندین منبع داده (Linked Data) قوانین همبستگی مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  20. مثال از داده‌هایوب معنایی کسانی که در دانشگاه صنعتی اصفهاندرس می خواننددکتر نعمت‌بخش را می شناسند. مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  21. ساختمان داده‌ها کسانی که در دانشگاه صنعتی اصفهاندرس می خواننددکتر نعمت‌بخش را می شناسند. اطلاعات موجودیت‌ها (مفعول) :NodeInfo Entity ID Source Entities List Is Large Source Entities List عنصر :Item Node ID Relation ID دانشگاه صنعتی اصفهان کسانی که با رابطه درس خواندن با دانشگاه صنعتی اصفهان در ارتباط اند. درس خواندن مجموعه عنصر :Itemset … Item 2 Item 1 Item n قانون :Rule Support Item Confidence … Item 2 Item 1 Item n , , بخش نتیجه بخش مقدم مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  22. مراحل کار الگوریتم SWApriori • پیش پردازش • خواندن سه تایی‌ها (فاعل، گزاره، مفعول) • گسسته سازی مقادیر مفعول • پر کردن ساختمان داده NodeInfo • حذف موجودیت‌هاینامکرر • تبدیل مقادیر ثابت به کد‌هایعددی • پردازش • مقایسه دو به دوینمونه‌هایNodeInfo • مقایسه این دو نمونه به ازاء روابط ورودی مختلف • اشتراک گیری از دو لیست موجودیت‌هایمبدا (Source Entities List) • تولید مجموعه عناصر با طول دو • تولید مجموعه عناصر بزرگتر • تولید قوانین همبستگی با یک عنصر در بخش نتیجه مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  23. می شناسد روند کاری الگوریتم می شناسد استاد راهنما می شناسد گروه بندی بر اساس فاعل رضا نعمت بخش نوید نیما گروه بندی بر اساس مفعول مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  24. روند کاری الگوریتم (ادامه) فاعل‌ها مفعول گزاره سرایی استاد راهنما رضا، ایوب دوست با نعمت بخش نعمت بخش استاد راهنما رضا می شناسد رضا، نوید، نیما رضا، نوید، ایوب دانشجو در دانشگاه صنعتی اصفهان تدریس در سرایی، پالهنگ رضا، نوید، نیما نعمت بخش می شناسد عنصر اول رضا، نوید اشتراک گیری رضا، نوید، ایوب دانشگاه صنعتی اصفهان دانشجو در عنصر دوم 2-Itemset , نعمت بخش شناختن دانشگاه صنعتی اصفهان دانشجو در مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  25. روند کاری الگوریتم (ادامه) 2-Itemset , نعمت بخش شناختن دانشگاه صنعتی اصفهان دانشجو در رضا، نوید رضا، نوید اشتراک گیری , نعمت بخش شناختن سرایی استاد راهنما رضا، نوید، ایوب 3-Itemset , , نعمت بخش شناختن سرایی استاد راهنما دانشگاه صنعتی اصفهان دانشجو در رضا، نوید Association Rules دانشگاه صنعتی اصفهان دانشجو در , نعمت بخش شناختن سرایی استاد راهنما سرایی استاد راهنما , نعمت بخش شناختن دانشگاه صنعتی اصفهان دانشجو در نعمت بخش شناختن , سرایی استاد راهنما دانشگاه صنعتی اصفهان دانشجو در مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  26. شبه کد الگوریتم SWApriori 1. Algorithm 1. Mining association rules from semantic web data 2. SWApriori(DS, MinSup, MinConf) 3. Input: 4. DS: Dataset that consists triples (Subject, Predicate, and Object) 5. MinSup: Minimum support 6. MinConf: Minimum confidence 7. Output: 8. AllFIs: Large itemsets 9. Rules: Association rules 10. Variables: 11. FIs, Candidates: List of Itemsets 12. IS, IS1, IS2, IS3: Itemset (multiple items) 13. NodeInfoList: List of NodeInfo 14. Begin 15. Traverse triples and discretize objects 16. Delete triples which their subject, predicate or object has frequency less than MinSup 17. Convert input dataset's data to numerical values 18. Store converted data into NodeInfo instances 19. NodeInfoList = NodeInfo instances ورودی‌ها و خروجی‌ها متغیر‌هایمورد استفاده پیش پردازش

  27. شبه کد الگوریتم SWApriori (ادامه) 20. FIs = AllFIs = Generate2LargeItemSets(NodeInfoList, MinSup) 21. L = 1 22. Do 23. L = L + 1 24. Candidates = null; 25. FIs = null; 26. For eachIS1, IS2 in FIs 27. IfIS1[1..L-1].EntityID = IS2[1..L-1].EntityIDand 28. IS1[1..L-1].RelationID = IS2[1..L-1].RelationIDThen 29. IS3 = CombineAndSort(IS1,IS2) 30. Candidates = CandidatesIS3 31. End If 32. End For 33. For eachIS in Candidates 34. If Support(IS)MinSupAND all subsets of IS are large Then 35. FIs = FIsIS 36. AllFIs = AllFIsFIs 37. While (FIs.Lenght 0) 38. Rules = GenerateRules(AllFIs, MinConf) 39. ReturnAllFIs, Rules 40. End تولید مجموعه عناصر مکرر با طول 2 تولید مجموعه عناصر بزرگتر تولید قوانین همبستگی

  28. شبه کد الگوریتم Generate2LargeItemset 1. Algorithm 2. Generating 2-Large itemsets from NodeInfo instances 2. Generate2LargeItemSets(NodeInfoList, MinSup) 3. Input: 4. NodeInfoList: List of NodeInfo instances 5. MinSup: Minimum support 6. Output: 7. LIS: List of Itemsets with two in length 8. Variables: 9. Node1, Node2: NodeInfo 10. IS1, IS2: Itemset //entities that refer to an entity by special relation 11. R1, R2: Value corresponds to RelationID//refers to predicates 12. Item1, Item2: Item 13. Begin 14. For eachNode1, Node2 in NodeInfoList 15. For eachR1 in Node1.Relations 16. For eachR2 in Node2.Relations 17. IS1 = R1.SourceEntitiesList 18. IS2 = R2.SourceEntitiesList 19. IntersectionCount = IntersectCount(IS1, IS2) 20. IfIntersectionCountMinSupThen 21. LIS = LIS{(Node1.EntityID + R1), (Node2.EntityID + R2)} 22. End If 23. End For 24. End For 25. End For 26. ReturnIS 27.End

  29. شبه کد الگوریتم GenerateRules 1. Algorithm 3. Generating association rules based on large itemsets 2.GenerateRules(AllFIs, MinConf) 3. Input: 4. AllFIs: All frequent itemsets 5. MinConf: Minimum confidence 6. Output: 7. Rules: Association rules 8. Variables: 9. IS: Itemset 10. Itm: Item 11. Consequent: Item that appears in rule consequent part 12. Antecedent: List of Items that appears in rule antecedent part 13. Begin 14. For eachIS in AllFIs 15. For eachItm in IS 16. Consequent = Itm 17. Antecedent = IS – Consequent 18. Confidence = Support(IS) Support(Antecedent) 19. IfConfidenceMinConfThen 20. Rules = Rules (Antecedent, Consequent) 21. End If 22. End For 23. End For 24. ReturnRules 25.End

  30. LOD Project Linked Data

  31. اتصال منابع داده ای وب معنایی DS2 DS1 S, P, O S, P, O S, P, O S, P, O S, P, O S, P, O S, P, O S, P, O S, P, O S, P, O S, P, O S, P, O ont:West owl:sameAs owl:sameAs DS3 DS1/Iran owl:Populationxsd:int 75,000,000 S, P, O S, P, O S, P, O S, P, O S, P, O S, P, O DS1/Iran ont:Border DS1/Afghanistan DS1/Iran ont:West DS2/Iraq DS1/Iran owl:sameAs DS2/Iran DS1/Iran owl:sameAs DS3/Xr.36O77z روش پیشنهادی: اتصال منابع داده ای پیوندی به یکدیگر و ساخت یک منبع داده واحد جدید مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  32. چالش‌هایکار با داده‌هایپیوندی • زیاد بودن حجم داده‌هایپیوندی • کدام منابع داده؟ • کدام بخش از منابع داده؟ • کلی بودن محتویات منابع داده ای • تعیین یک دامنه خاص • آنتولوژی‌هایمتفاوت • نگاشت آنتولوژی • داده‌هایتکراری • اعتبارسنجیداده‌ها • عدم دسترسی به داده‌هاییک منبع داده • نام گذاری نامفهوم • عدم وجود نقطه پایانی • عدم دسترسی به اصل منبع داده مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  33. روش‌هایاستخراج داده و اتصال چندین منبع داده • اتصال کامل چندین منبع داده • داده‌هایبه درد نخور • استخراج داده با دستورات SPARQL • نیاز به آشنایی با ساختار منبع داده و آنتولوژی • پیمایشگرخودکار HTML • در نظر نگرفتن آنتولوژی • پیمایشگرخودکار منابع داده • عدم دسترسی به برخی منابع داده • نقطه شروع جمع آوری اطلاعات؟ • منبع داده با بیشترین اتصال به خارج • نحوه اتصال منابع داده • استفاده از گزاره owl:sameAs مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  34. داده‌هایمورد استفاده • دامنه مورد استفاده • کشور‌ها • منابع داده مورد استفاده • DBPedia • منبع داده کلی • بسیار معروف • معنایی شده Wikipedia • Factbook • مختص اطلاعات کشور‌ها • Freebase • منبع داده کلی • معروفیت کمتر مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  35. منبع داده DBPedia • قبل از گسسته سازی اطلاعات • تعداد سه تایی: 47969 • تعداد فاعل متمایز: 241 • تعداد گزاره متمایز: 697 • تعداد مفعول متمایز: 25071 • تعداد گزاره به ازاء هر فاعل به طور میانگین: 199.04 • تعداد گزاره به ازاء هر مفعول به طور میانگین: 1.91 • بعد از گسسته سازی اطلاعات و حذف اطلاعات نامکرر • تعداد سه تایی: 18480 • تعداد فاعل متمایز: 238 • تعداد گزاره متمایز: 205 • تعداد مفعول متمایز: 1330 • تعداد گزاره به ازاء هر فاعل به طور میانگین: 77.64 • تعداد گزاره به ازاء هر مفعول به طور میانگین: 13.89 مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  36. منبع داده Factbook • قبل از گسسته سازی اطلاعات • تعداد سه تایی: 71984 • تعداد فاعل متمایز: 1510 • تعداد گزاره متمایز: 193 • تعداد مفعول متمایز: 24527 • تعداد گزاره به ازاء هر فاعل به طور میانگین: 47.67 • تعداد گزاره به ازاء هر مفعول به طور میانگین: 2.93 • بعد از گسسته سازی اطلاعات و حذف اطلاعات نامکرر • تعداد سه تایی: 24427 • تعداد فاعل متمایز: 252 • تعداد گزاره متمایز: 131 • تعداد مفعول متمایز: 856 • تعداد گزاره به ازاء هر فاعل به طور میانگین: 96.93 • تعداد گزاره به ازاء هر مفعول به طور میانگین: 28.53 مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  37. منبع داده Freebase • قبل از گسسته سازی اطلاعات • تعداد سه تایی: 55224 • تعداد فاعل متمایز: 234 • تعداد گزاره متمایز: 215 • تعداد مفعول متمایز: 44864 • تعداد گزاره به ازاء هر فاعل به طور میانگین: 236 • تعداد گزاره به ازاء هر مفعول به طور میانگین: 1.23 • بعد از گسسته سازی اطلاعات و حذف اطلاعات نامکرر • تعداد سه تایی: 6640 • تعداد فاعل متمایز: 234 • تعداد گزاره متمایز: 67 • تعداد مفعول متمایز: 1002 • تعداد گزاره به ازاء هر فاعل به طور میانگین: 28.37 • تعداد گزاره به ازاء هر مفعول به طور میانگین: 6.62 مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  38. نحوه استخراج و ادغام داده‌هایپیوندی • نقطه شروع عملیات استخراج • DBPedia • استخراج از DBPedia • دستورات SPARQL • ورود آدرس مستقیم موجودیت • استخراج از Factbook • استخراج تمام داده‌هایمنبع داده • استخراج از Freebase • ورود آدرس غیر مستقیم موجودیت SELECT * { ?Subject rdf:type <http://dbpedia.org/ontology/Country> . ?Subject ?Predicate ?Object } ORDER BY ?Subject http://dbpedia.org/resource/[CountryName] SELECT ?Subject ?Predicate ?Object WHERE { ?Subject ?Predicate ?Object } ORDER BY ?Subject http://rdf.freebase.com/ns/m.03shp  http://rdf.freebase.com/rdf/en/[CountryName] مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  39. ادغام سه منبع داده • اولویت اعتبار سنجی • Factbook • DBPedia • Freebase • اطلاعات آماری بعد از گسسته سازی اطلاعات و حذف اطلاعات نامکرر • تعداد سه تایی: 40275 • تعداد فاعل متمایز: 256 • تعداد گزاره متمایز: 402 • تعداد مفعول متمایز: 3145 • تعداد گزاره به ازاء هر فاعل به طور میانگین: 157.32 • تعداد گزاره به ازاء هر مفعول به طور میانگین: 12.80 مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  40. ارزیابی منبع داده وب معنایی (Factbook) مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  41. برخی قوانین استخراج شده (Factbook) مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  42. ارزیابی منبع داده‌هایپیوندی مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  43. میزان استفاده از پیوند بین منابع • استفاده از تک منبع • 57% • استفاده از پیوند بین منابع • 43% مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  44. برخی قوانین تولید شده • DBPedia • "کاهش راحتی زندگی مردم"، "کاهش بارندگی" و "افزایش راحتی زندگی مردم" • Factbook • "افزایش جمعیت باسواد"، "کاهش تولید برق" و "افزایش تبادلات اقتصادی" • Freebase • "کاهش تعداد مبتلایان به ایدز"، "کاهش تولیدات داخلی" و "افزایش تولیدات داخلی" مفاهيم اوليه تست و نتايج کاوش از داده‌هايپيوندي کاوش از داده‌هایوب معنایي کارهاي مشابه

  45. جمع بندی • چالش‌ها در داده‌هایوب معنایی • ساختار داده ناهمگن • عدم وجود تعریف دقیق از تراکنش • وجود رابطه بین موجودیت‌ها • دخالت کاربر در فرآیند کاوش • گام‌هایاستخراج قانون از داده‌هایوب معنایی • فراهم نمودن منبع داده • گسسته سازی اطلاعات • حذف داده‌هاینامکرر و پرت • تبدیل مقادیر رشته ای به مقادیر عددی • استخراج مجموعه عناصر بزرگ با طول 2 • استخراج مجموعه عناصر بزرگتر • استخراج قوانین همبستگی از مجموعه عناصر بزرگتر • تبدیل مقادیر عددی به مقادیر شته ای معادل

  46. جمع بندی (ادامه) • چالش‌ها در داده‌هایپیوندی • زیاد بودن حجم داده‌هایپیوندی • کلی بودن محتویات منابع داده ای • آنتولوژی‌هایمتفاوت • داده‌هایتکراری • عدم دسترسی به داده‌هاییک منبع داده • گام‌هایاستخراج قانون از داده‌هایپیوندی • تعیین دامنه مورد بحث • شناسایی منبع داده‌هاییکه در مورد آن دامنه اطلاعات دارند. • استخراج داده‌ها از منابع داده • نگاشت و انطباق آنتولوژی • حذف داده‌هایتکراری • ادغام داده‌ها در یک منبع داده واحد • استفاده از الگوریتم معرفی شده در کاوش قوانین همبستگی از داده‌هایوب معنایی

  47. کارهای آینده • توسعه واسط‌هاییکپارچه برای منابع داده ای وب معنایی به منظور دسترسی راحت به داده‌ها • توسعه الگوریتمی که پس از تعیین دامنه خاص، خودش اقدام به پیمایش منابع داده ای نموده و داده‌هایمرتبط را استخراج نماید. • در نظر گرفتن شرایط و معیار‌هاییکه الگوریتم بر اساس آن بتواند قوانین مفید را از قوانین بدیهی جدا نماید. • دریافت الگو از کاربر و نمایش قوانینی که با آن الگو مطابقت کنند. • در قوانینی که تولید شد، هر عنصر از قانون، یک رابطه و یک موجودیت دارد. می توان الگوریتمی ارائه داد که قوانینی بسازد که در هر عنصر چندین رابطه موجود باشد. مثلا قانون زیر را در نظر بگیرید: • افرادی که زندگی می کنند در شهری که نزدیک به روستایی خوش آب و هوا است  سلامت جسمانی خوبی دارند. • می توان از دانش‌هایموجود در آنتولوژی به منظور فیلتر نمودن قوانین همبستگی استفاده نمود. • می توان به کمک مجموعه عناصر تولید شده، به خوشه بندی موجودیت‌ها پرداخت. • می توان با کمک اطلاعات آنتولوژی، ارتباط سلسله مراتبی بین موجودیت‌ها را پیدا کرد و در داده‌ها، به جای موجودیت‌هایفرزند، موجودیت پدر را گذاشت تا بدین وسیله درجه پشتیبانی موجودیت‌ها افزایش یافته و در نتیجه تعداد قوانین تولیدی کاهش یابد.

  48. مراجع • [1] T. C. Corporation, Introduction to Data Mining and Knowledge Discovery • [2] T. I. R.Agrawal, A.N.Swami, "Mining association rules between sets of items in large databases," SIGMOD, pp. 207-216, 1993. • [3] R. B. V.Nebot, "Finding association rules in semantic web data.," Knowledge-Based Systems, pp. 51-62, 2012. • [4] J. W. Seifert, Data Mining: An Overview, December 2004. • [5] D. J. HAND, Data Mining: Statistics and More?, December 2002. • [6] S. L. Eamonn Keogh, Chotirat Ann Ratanamahatana Towards Parameter-Free Data Mining, September 2005. • [7] R. S. R.Agrawal, "Fast algorithms for mining association rules," presented at the In Proceeding of 20th international conference in large databases, 1994. • [8] A. Ale-Ahmad. (2006). Introduction to Semantic Web. • [9] F. V. H. Grigoris Antoniou, A Semantic Web Primer, 2004. • [10] T. Gruber, "Toward principles for the design of ontologies used for knowledge sharing," Human–Computer Studies, pp. 907-928, 1995. • [11] W. K. N. Zehua Liu, Ee-Peng Lim, Feifei Li, "Towards Building Logical Views of Websites," Data & Knowledge Engineering, vol. 49, pp. 197-222, 2004. • [12] K. H. Veltman, "Challenges for a Semantic Web," presented at the Proceedings of the International Workshop on the Semantic Web 2002, 2002. • [13] T. M. Haibo Yu, Makoto Amamiya, "An architecture for personal semantic web information retrieval system," presented at the WWW '05 Special interest tracks and posters of the 14th international conference on World Wide Web, 2005.

  49. مراجع • [14] F. V. H. D.Fensel, I.Horrocks, D.L.McGuinness, P.F.Patel-Schneider, "OIL: An Ontology Infrastructure for the Semantic Web," IEEE Intelligent Systems, vol. 18, 2001. • [15] W3C. (2009-10-27). OWL 2 Web Ontology Language Document Overview, http://www.w3.org/TR/owl2-overview/. • [16] J. Rapoza. (2006). SPARQL Will Make the Web Shine, http://www.eweek.com/c/a/Application-Development/SPARQL-Will-Make-the-Web-Shine. • [17] J. L. C.Bizer, G.Kobilarov, S.Auer, C.Becker, R.Cyganiak, S.Hellmann, "DBpedia - A crystallization point for theWeb of Data," Web Semantics, pp. 154-165, 2009. • [18] T. H. C.Bizer, T.Berners-Lee, "Linked data - the story so far," International Journal on Semantic Web and Information Systems, pp. 1-22, 2009. • [19] Linked Open Data Project, http://linkeddata.org/. • [20] N. G.-P. J.M.Benitez, F.Herrera, "Special issue on "New Trends in Data Mining" NTDM," Knowledge-Based Systems, pp. 1-2, 2012. • [21] H. W. J.Zhang, Y.Sun, "Discovering Associations among Semantic Links.IEEE," presented at the International Conference on Web Information Systems and Mining, 2009. • [22] Y. S. S.Bloehdorn, "Kernel methods for mining instance data in ontologies," ISWC/ASWC, LNCS, pp. 58-71, 2007. • [23] C. d. A. N.Fanizzi, F.Esposito, "Metric-based stochastic conceptual," Information Systems, pp. 792-806, 2009. • [24] L.Getoor, "Link mining: a new data mining challenge," presented at the SIGKDD Explorations, 2003. • [25] A. H. G.Stumme, B.Berendt, "Semantic web mining: state of the art and future directions," Sci. Services Agents World Wide Web 4, pp. 124-143, 2006.

More Related