550 likes | 705 Views
یَرفعُ اللهَ الذینَ آمَنوُا مِنکُم وَ الذینَ اوُتوالعِلم دَرَجَات. دانشکده مهندسی برق و کامپیوتر. پیدا کردن قوانین همبستگی در دادههای پیوندی. Finding Association Rules in Linked Data. دفاعیه پایان نامه کارشناسیارشد. اساتید راهنما: دکتر محمدحسین سرایی دکتر محمدعلی نعمتبخش.
E N D
یَرفعُاللهَالذینَآمَنوُامِنکُموَالذینَاوُتوالعِلمدَرَجَاتیَرفعُاللهَالذینَآمَنوُامِنکُموَالذینَاوُتوالعِلمدَرَجَات دانشکده مهندسی برق و کامپیوتر پیدا کردن قوانین همبستگی در دادههایپیوندی Finding Association Rules in Linked Data دفاعیه پایان نامه کارشناسیارشد اساتید راهنما:دکترمحمدحسین سرایی دکتر محمدعلی نعمتبخش رضا رمضانی 20/شهریور/1391
سرفصل مطالب • ضرورت انجام پژوهش • هدف از انجام پروژه • مفاهیم اولیه • روشهایموجود • مشکلات و چالشها • ساختمان دادههایمورد استفاده • روش پیشنهادی در کاوش دادههایوب معنایی • روش پیشنهادی در کاوش دادههایپیوندی • دادههایمورد استفاده • نتایج ارزیابی • جمع بندی • کارهای آینده
ضرورت انجام پژوهش حجم زیاد دادههایموجود نیاز به استخراج دانش از دادهها منابع داده ای مورد استفاده تکنیکهایداده کاوی فایلهایمسطح وب پایگاه دادهها خوشه بندی قوانین همبستگی ... طبقه بندی وب معنایی (وب داده) وب سنتی (وب اسناد) کاوش قوانین همبستگی از دادههایوب معنایی مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
هدف انجام پژوهش دادههایوب معنایی نمایش دادههایوب معنایی صفحات HTML، مرورگرهایوب معنایی، عاملهایکاربردی ذخیره دادههایوب معنایی بانکهایاطلاعاتی رابطه ای منابع داده مسطح ... اتصال چندین منبع داده وب معنایی به یکدیگر (دادههایپیوندی) تک منبع داده کاوش قوانین همبستگی از دادههایپیوندی مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
قوانین همبستگی • تعیین احتمال رخداد یک حالت، بعد از رخ دادن یک یا چند حالت دیگر • ساده ترین حالت: آنالیز سبد خرید • کسانی که نان و پنیر می خرند کره نیز می خرند (78%) • مبنای کار • تراکنش: چند حالت (عنصر) که با یکدیگر رخ می دهند. • شماره تراکنش • عناصر تراکنش • پارامترها • درجه پشتیبانی • درجه اطمینان • بخشهایقانون • مقدم - نتیجه • الگوریتم Apriori • مبنایی ترین روش کاوش قوانین همبستگی • دو فاز: تولید مجموعه عناصر بزرگ و تولید قوانین همبستگی • شناسایی عناصر بزرگ بر اساس تراکنشها مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
مثال از الگوریتم Apriori Database D L1 C1 Scan D C2 C2 L2 Scan D L3 C3 Scan D
وب معنایی • ذخیره داده به همراه توصیف دادهها • دادهها: ذخیره داده در گرامرهایمختلف و به صورت سه تایی • توصیف دادهها: آنتولوژی • دادههایوب معنایی • سه تایی (فاعل، گزاره، مفعول) • علی احمد را می شناسد. • علی: فاعل • شناختن: گزاره • احمد: مفعول • زبان استخراج دادهها • SPARQL • قابلیت نمایش دادهها در قالب گراف rdf:type foaf:Person pd:cygri foaf:name Richard Cyganiak foaf:based_near dbpedia:Berlin pd:cygri = http://richard.cyganiak.de/foaf.rdf#cygri dbpedia:Berlin= http://dbpedia.org/resource/Berlin مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
دادههایپیوندی • اتصالات صفحات وب سنتی • لینکهایبدون نوع • اتصالات صفحات وب معنایی • دادههایپیوندی • لینکهای نوع دار • فاعل – گزاره - مفعول مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
مثال از دادههایوب معنایی چالش اصلی: عدم وجود تراکنش در دادههایوب معنایی کسانی که در دانشگاه صنعتی اصفهاندرس می خواننددکتر نعمتبخش را می شناسند. مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
1) Victoria Nebot و Rafael Berlanga • Finding association rules in semantic web data • توصیف • نگاه به دادهها در قالب گراف • ایجاد تراکنش به کمک یک الگوی کاوش که کاربر وارد می کند. • استفاده از الگوریتمهایداده کاوی سنتی • Q = (Target Concept,Context Concept,Features) • Target Concept: بیان می کند که اطلاعات مرتبط به چه چیزی باید استخراج شود؟ (بیمار - پزشک) • Context Concept: بیانگر معیار ساخت تراکنش است (TID) • Features: بیانگر عناصری است که در یک تراکنش قرار می گیرند. • تمرکز اصلی روش • ساخت تراکنش از روی دادهها و سپس استفاده از یک روش سنتی مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
1) Victoria Nebot و Rafael Berlanga (ادامه) مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
1) Victoria Nebot و Rafael Berlanga (ادامه) • CREATE MINING MODEL <Dataset Path> • { • ?patient RESOURCE TARGET • ?drug RESOURCE • ?jadi LITERAL • ?disease RESOURCE PREDICT • ?report RESOURCE CONTEXT • } • WHERE • { • ?patient rdf:type Patient. • ?drug rdf:type Drug. • ?disease rdf:type Disease. • ?report rdf:type Report. • ?report damageIndex ?jadi. • } مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
1) Victoria Nebot و Rafael Berlanga (ادامه) دادههایاستخراجی به همراه مسیرهای تجمعی دادههایاستخراجی به همراه مسیرهای تجمعی اصلاح شده تراکنشهایاستخراج شده مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
2) Ziawasch Abedjan و Felix Naumann • Context and Target Configurations for Mining RDF Data • توصیف • سه تایی: فاعل، گزاره و مفعول • استفاده از یکی از این مقادیر به عنوان شماره شناسایی تراکنش (محتوی) • استفاده از یکی دیگر از مقادیر به عنوان عناصر تراکنش (هدف) • حذف مقدار باقیمانده سوم • ساخت تراکنش بر اساس دو مقدار از سه مقدار ممکن • استفاده از الگوریتمهایسنتی مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
3) VenkataNarasimha et al • LiDDM: A Data Mining System for Linked Data • کاوش دادههایپیوندی • استخراج داده از چندین منبع داده • استخراج به کمک زبان SPARQL • شناسایی نقطه پایانی و ساختار منابع داده • ادغام دادههایاستخراج شده • استفاده از الگوریتمهایسنتی • طبقه بندی • خوشه بندی • کاوش قوانین همبستگی مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
4) کاوش گراف مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
5) کاوش درخت مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
مشکلات و چالشها در برخورد با دادههایوب معنایی • عدم وجود تعریف دقیق از تراکنش • تعریف تراکنش بر اساس الگوهاییخاص • کاوش قوانین همبستگی بدون در نظر گرفتن تراکنش • وجود روابط نوع دار بین موجودیتها • هر عنصر، متشکل از یک موجودیت به همراه یک رابطه است. • ساختار ناهمگندادهها • وجود صفات مختلف به ازاء موجودیتهاییکسان • استفاده از ساختار لیست پیوندی • دخالت شدید کاربر در فرآیند کاوش • آگاهی کاربر از ساختار منابع داده و زبانهایاستخراج داده مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
جریان کاری الگوریتم ارائه شده • مراحل اصلی • فراهم سازی دادههایمورد نیاز به صورت سه تایی • پیش پردازش • پردازش و تولید قانون • استفاده از قوانین تولیدی پیش پردازش MinConf, MinSup منبع داده کامل حذف موجودیتهاینامکرر گسسته سازیدادهها تبدیل دادهها بهمقادیر عددی بخشی از یک منبع داده (SPARQL) پردازش سه تایی استخراج مجموعه عنصر بزرگ با طول 2 ساخت تمام مجموعه عناصر بزرگ تولید قوانین همبستگی اتصال چندین منبع داده (Linked Data) قوانین همبستگی مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
مثال از دادههایوب معنایی کسانی که در دانشگاه صنعتی اصفهاندرس می خواننددکتر نعمتبخش را می شناسند. مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
ساختمان دادهها کسانی که در دانشگاه صنعتی اصفهاندرس می خواننددکتر نعمتبخش را می شناسند. اطلاعات موجودیتها (مفعول) :NodeInfo Entity ID Source Entities List Is Large Source Entities List عنصر :Item Node ID Relation ID دانشگاه صنعتی اصفهان کسانی که با رابطه درس خواندن با دانشگاه صنعتی اصفهان در ارتباط اند. درس خواندن مجموعه عنصر :Itemset … Item 2 Item 1 Item n قانون :Rule Support Item Confidence … Item 2 Item 1 Item n , , بخش نتیجه بخش مقدم مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
مراحل کار الگوریتم SWApriori • پیش پردازش • خواندن سه تاییها (فاعل، گزاره، مفعول) • گسسته سازی مقادیر مفعول • پر کردن ساختمان داده NodeInfo • حذف موجودیتهاینامکرر • تبدیل مقادیر ثابت به کدهایعددی • پردازش • مقایسه دو به دوینمونههایNodeInfo • مقایسه این دو نمونه به ازاء روابط ورودی مختلف • اشتراک گیری از دو لیست موجودیتهایمبدا (Source Entities List) • تولید مجموعه عناصر با طول دو • تولید مجموعه عناصر بزرگتر • تولید قوانین همبستگی با یک عنصر در بخش نتیجه مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
می شناسد روند کاری الگوریتم می شناسد استاد راهنما می شناسد گروه بندی بر اساس فاعل رضا نعمت بخش نوید نیما گروه بندی بر اساس مفعول مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
روند کاری الگوریتم (ادامه) فاعلها مفعول گزاره سرایی استاد راهنما رضا، ایوب دوست با نعمت بخش نعمت بخش استاد راهنما رضا می شناسد رضا، نوید، نیما رضا، نوید، ایوب دانشجو در دانشگاه صنعتی اصفهان تدریس در سرایی، پالهنگ رضا، نوید، نیما نعمت بخش می شناسد عنصر اول رضا، نوید اشتراک گیری رضا، نوید، ایوب دانشگاه صنعتی اصفهان دانشجو در عنصر دوم 2-Itemset , نعمت بخش شناختن دانشگاه صنعتی اصفهان دانشجو در مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
روند کاری الگوریتم (ادامه) 2-Itemset , نعمت بخش شناختن دانشگاه صنعتی اصفهان دانشجو در رضا، نوید رضا، نوید اشتراک گیری , نعمت بخش شناختن سرایی استاد راهنما رضا، نوید، ایوب 3-Itemset , , نعمت بخش شناختن سرایی استاد راهنما دانشگاه صنعتی اصفهان دانشجو در رضا، نوید Association Rules دانشگاه صنعتی اصفهان دانشجو در , نعمت بخش شناختن سرایی استاد راهنما سرایی استاد راهنما , نعمت بخش شناختن دانشگاه صنعتی اصفهان دانشجو در نعمت بخش شناختن , سرایی استاد راهنما دانشگاه صنعتی اصفهان دانشجو در مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
شبه کد الگوریتم SWApriori 1. Algorithm 1. Mining association rules from semantic web data 2. SWApriori(DS, MinSup, MinConf) 3. Input: 4. DS: Dataset that consists triples (Subject, Predicate, and Object) 5. MinSup: Minimum support 6. MinConf: Minimum confidence 7. Output: 8. AllFIs: Large itemsets 9. Rules: Association rules 10. Variables: 11. FIs, Candidates: List of Itemsets 12. IS, IS1, IS2, IS3: Itemset (multiple items) 13. NodeInfoList: List of NodeInfo 14. Begin 15. Traverse triples and discretize objects 16. Delete triples which their subject, predicate or object has frequency less than MinSup 17. Convert input dataset's data to numerical values 18. Store converted data into NodeInfo instances 19. NodeInfoList = NodeInfo instances ورودیها و خروجیها متغیرهایمورد استفاده پیش پردازش
شبه کد الگوریتم SWApriori (ادامه) 20. FIs = AllFIs = Generate2LargeItemSets(NodeInfoList, MinSup) 21. L = 1 22. Do 23. L = L + 1 24. Candidates = null; 25. FIs = null; 26. For eachIS1, IS2 in FIs 27. IfIS1[1..L-1].EntityID = IS2[1..L-1].EntityIDand 28. IS1[1..L-1].RelationID = IS2[1..L-1].RelationIDThen 29. IS3 = CombineAndSort(IS1,IS2) 30. Candidates = CandidatesIS3 31. End If 32. End For 33. For eachIS in Candidates 34. If Support(IS)MinSupAND all subsets of IS are large Then 35. FIs = FIsIS 36. AllFIs = AllFIsFIs 37. While (FIs.Lenght 0) 38. Rules = GenerateRules(AllFIs, MinConf) 39. ReturnAllFIs, Rules 40. End تولید مجموعه عناصر مکرر با طول 2 تولید مجموعه عناصر بزرگتر تولید قوانین همبستگی
شبه کد الگوریتم Generate2LargeItemset 1. Algorithm 2. Generating 2-Large itemsets from NodeInfo instances 2. Generate2LargeItemSets(NodeInfoList, MinSup) 3. Input: 4. NodeInfoList: List of NodeInfo instances 5. MinSup: Minimum support 6. Output: 7. LIS: List of Itemsets with two in length 8. Variables: 9. Node1, Node2: NodeInfo 10. IS1, IS2: Itemset //entities that refer to an entity by special relation 11. R1, R2: Value corresponds to RelationID//refers to predicates 12. Item1, Item2: Item 13. Begin 14. For eachNode1, Node2 in NodeInfoList 15. For eachR1 in Node1.Relations 16. For eachR2 in Node2.Relations 17. IS1 = R1.SourceEntitiesList 18. IS2 = R2.SourceEntitiesList 19. IntersectionCount = IntersectCount(IS1, IS2) 20. IfIntersectionCountMinSupThen 21. LIS = LIS{(Node1.EntityID + R1), (Node2.EntityID + R2)} 22. End If 23. End For 24. End For 25. End For 26. ReturnIS 27.End
شبه کد الگوریتم GenerateRules 1. Algorithm 3. Generating association rules based on large itemsets 2.GenerateRules(AllFIs, MinConf) 3. Input: 4. AllFIs: All frequent itemsets 5. MinConf: Minimum confidence 6. Output: 7. Rules: Association rules 8. Variables: 9. IS: Itemset 10. Itm: Item 11. Consequent: Item that appears in rule consequent part 12. Antecedent: List of Items that appears in rule antecedent part 13. Begin 14. For eachIS in AllFIs 15. For eachItm in IS 16. Consequent = Itm 17. Antecedent = IS – Consequent 18. Confidence = Support(IS) Support(Antecedent) 19. IfConfidenceMinConfThen 20. Rules = Rules (Antecedent, Consequent) 21. End If 22. End For 23. End For 24. ReturnRules 25.End
LOD Project Linked Data
اتصال منابع داده ای وب معنایی DS2 DS1 S, P, O S, P, O S, P, O S, P, O S, P, O S, P, O S, P, O S, P, O S, P, O S, P, O S, P, O S, P, O ont:West owl:sameAs owl:sameAs DS3 DS1/Iran owl:Populationxsd:int 75,000,000 S, P, O S, P, O S, P, O S, P, O S, P, O S, P, O DS1/Iran ont:Border DS1/Afghanistan DS1/Iran ont:West DS2/Iraq DS1/Iran owl:sameAs DS2/Iran DS1/Iran owl:sameAs DS3/Xr.36O77z روش پیشنهادی: اتصال منابع داده ای پیوندی به یکدیگر و ساخت یک منبع داده واحد جدید مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
چالشهایکار با دادههایپیوندی • زیاد بودن حجم دادههایپیوندی • کدام منابع داده؟ • کدام بخش از منابع داده؟ • کلی بودن محتویات منابع داده ای • تعیین یک دامنه خاص • آنتولوژیهایمتفاوت • نگاشت آنتولوژی • دادههایتکراری • اعتبارسنجیدادهها • عدم دسترسی به دادههاییک منبع داده • نام گذاری نامفهوم • عدم وجود نقطه پایانی • عدم دسترسی به اصل منبع داده مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
روشهایاستخراج داده و اتصال چندین منبع داده • اتصال کامل چندین منبع داده • دادههایبه درد نخور • استخراج داده با دستورات SPARQL • نیاز به آشنایی با ساختار منبع داده و آنتولوژی • پیمایشگرخودکار HTML • در نظر نگرفتن آنتولوژی • پیمایشگرخودکار منابع داده • عدم دسترسی به برخی منابع داده • نقطه شروع جمع آوری اطلاعات؟ • منبع داده با بیشترین اتصال به خارج • نحوه اتصال منابع داده • استفاده از گزاره owl:sameAs مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
دادههایمورد استفاده • دامنه مورد استفاده • کشورها • منابع داده مورد استفاده • DBPedia • منبع داده کلی • بسیار معروف • معنایی شده Wikipedia • Factbook • مختص اطلاعات کشورها • Freebase • منبع داده کلی • معروفیت کمتر مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
منبع داده DBPedia • قبل از گسسته سازی اطلاعات • تعداد سه تایی: 47969 • تعداد فاعل متمایز: 241 • تعداد گزاره متمایز: 697 • تعداد مفعول متمایز: 25071 • تعداد گزاره به ازاء هر فاعل به طور میانگین: 199.04 • تعداد گزاره به ازاء هر مفعول به طور میانگین: 1.91 • بعد از گسسته سازی اطلاعات و حذف اطلاعات نامکرر • تعداد سه تایی: 18480 • تعداد فاعل متمایز: 238 • تعداد گزاره متمایز: 205 • تعداد مفعول متمایز: 1330 • تعداد گزاره به ازاء هر فاعل به طور میانگین: 77.64 • تعداد گزاره به ازاء هر مفعول به طور میانگین: 13.89 مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
منبع داده Factbook • قبل از گسسته سازی اطلاعات • تعداد سه تایی: 71984 • تعداد فاعل متمایز: 1510 • تعداد گزاره متمایز: 193 • تعداد مفعول متمایز: 24527 • تعداد گزاره به ازاء هر فاعل به طور میانگین: 47.67 • تعداد گزاره به ازاء هر مفعول به طور میانگین: 2.93 • بعد از گسسته سازی اطلاعات و حذف اطلاعات نامکرر • تعداد سه تایی: 24427 • تعداد فاعل متمایز: 252 • تعداد گزاره متمایز: 131 • تعداد مفعول متمایز: 856 • تعداد گزاره به ازاء هر فاعل به طور میانگین: 96.93 • تعداد گزاره به ازاء هر مفعول به طور میانگین: 28.53 مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
منبع داده Freebase • قبل از گسسته سازی اطلاعات • تعداد سه تایی: 55224 • تعداد فاعل متمایز: 234 • تعداد گزاره متمایز: 215 • تعداد مفعول متمایز: 44864 • تعداد گزاره به ازاء هر فاعل به طور میانگین: 236 • تعداد گزاره به ازاء هر مفعول به طور میانگین: 1.23 • بعد از گسسته سازی اطلاعات و حذف اطلاعات نامکرر • تعداد سه تایی: 6640 • تعداد فاعل متمایز: 234 • تعداد گزاره متمایز: 67 • تعداد مفعول متمایز: 1002 • تعداد گزاره به ازاء هر فاعل به طور میانگین: 28.37 • تعداد گزاره به ازاء هر مفعول به طور میانگین: 6.62 مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
نحوه استخراج و ادغام دادههایپیوندی • نقطه شروع عملیات استخراج • DBPedia • استخراج از DBPedia • دستورات SPARQL • ورود آدرس مستقیم موجودیت • استخراج از Factbook • استخراج تمام دادههایمنبع داده • استخراج از Freebase • ورود آدرس غیر مستقیم موجودیت SELECT * { ?Subject rdf:type <http://dbpedia.org/ontology/Country> . ?Subject ?Predicate ?Object } ORDER BY ?Subject http://dbpedia.org/resource/[CountryName] SELECT ?Subject ?Predicate ?Object WHERE { ?Subject ?Predicate ?Object } ORDER BY ?Subject http://rdf.freebase.com/ns/m.03shp http://rdf.freebase.com/rdf/en/[CountryName] مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
ادغام سه منبع داده • اولویت اعتبار سنجی • Factbook • DBPedia • Freebase • اطلاعات آماری بعد از گسسته سازی اطلاعات و حذف اطلاعات نامکرر • تعداد سه تایی: 40275 • تعداد فاعل متمایز: 256 • تعداد گزاره متمایز: 402 • تعداد مفعول متمایز: 3145 • تعداد گزاره به ازاء هر فاعل به طور میانگین: 157.32 • تعداد گزاره به ازاء هر مفعول به طور میانگین: 12.80 مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
ارزیابی منبع داده وب معنایی (Factbook) مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
برخی قوانین استخراج شده (Factbook) مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
ارزیابی منبع دادههایپیوندی مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
میزان استفاده از پیوند بین منابع • استفاده از تک منبع • 57% • استفاده از پیوند بین منابع • 43% مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
برخی قوانین تولید شده • DBPedia • "کاهش راحتی زندگی مردم"، "کاهش بارندگی" و "افزایش راحتی زندگی مردم" • Factbook • "افزایش جمعیت باسواد"، "کاهش تولید برق" و "افزایش تبادلات اقتصادی" • Freebase • "کاهش تعداد مبتلایان به ایدز"، "کاهش تولیدات داخلی" و "افزایش تولیدات داخلی" مفاهيم اوليه تست و نتايج کاوش از دادههايپيوندي کاوش از دادههایوب معنایي کارهاي مشابه
جمع بندی • چالشها در دادههایوب معنایی • ساختار داده ناهمگن • عدم وجود تعریف دقیق از تراکنش • وجود رابطه بین موجودیتها • دخالت کاربر در فرآیند کاوش • گامهایاستخراج قانون از دادههایوب معنایی • فراهم نمودن منبع داده • گسسته سازی اطلاعات • حذف دادههاینامکرر و پرت • تبدیل مقادیر رشته ای به مقادیر عددی • استخراج مجموعه عناصر بزرگ با طول 2 • استخراج مجموعه عناصر بزرگتر • استخراج قوانین همبستگی از مجموعه عناصر بزرگتر • تبدیل مقادیر عددی به مقادیر شته ای معادل
جمع بندی (ادامه) • چالشها در دادههایپیوندی • زیاد بودن حجم دادههایپیوندی • کلی بودن محتویات منابع داده ای • آنتولوژیهایمتفاوت • دادههایتکراری • عدم دسترسی به دادههاییک منبع داده • گامهایاستخراج قانون از دادههایپیوندی • تعیین دامنه مورد بحث • شناسایی منبع دادههاییکه در مورد آن دامنه اطلاعات دارند. • استخراج دادهها از منابع داده • نگاشت و انطباق آنتولوژی • حذف دادههایتکراری • ادغام دادهها در یک منبع داده واحد • استفاده از الگوریتم معرفی شده در کاوش قوانین همبستگی از دادههایوب معنایی
کارهای آینده • توسعه واسطهاییکپارچه برای منابع داده ای وب معنایی به منظور دسترسی راحت به دادهها • توسعه الگوریتمی که پس از تعیین دامنه خاص، خودش اقدام به پیمایش منابع داده ای نموده و دادههایمرتبط را استخراج نماید. • در نظر گرفتن شرایط و معیارهاییکه الگوریتم بر اساس آن بتواند قوانین مفید را از قوانین بدیهی جدا نماید. • دریافت الگو از کاربر و نمایش قوانینی که با آن الگو مطابقت کنند. • در قوانینی که تولید شد، هر عنصر از قانون، یک رابطه و یک موجودیت دارد. می توان الگوریتمی ارائه داد که قوانینی بسازد که در هر عنصر چندین رابطه موجود باشد. مثلا قانون زیر را در نظر بگیرید: • افرادی که زندگی می کنند در شهری که نزدیک به روستایی خوش آب و هوا است سلامت جسمانی خوبی دارند. • می توان از دانشهایموجود در آنتولوژی به منظور فیلتر نمودن قوانین همبستگی استفاده نمود. • می توان به کمک مجموعه عناصر تولید شده، به خوشه بندی موجودیتها پرداخت. • می توان با کمک اطلاعات آنتولوژی، ارتباط سلسله مراتبی بین موجودیتها را پیدا کرد و در دادهها، به جای موجودیتهایفرزند، موجودیت پدر را گذاشت تا بدین وسیله درجه پشتیبانی موجودیتها افزایش یافته و در نتیجه تعداد قوانین تولیدی کاهش یابد.
مراجع • [1] T. C. Corporation, Introduction to Data Mining and Knowledge Discovery • [2] T. I. R.Agrawal, A.N.Swami, "Mining association rules between sets of items in large databases," SIGMOD, pp. 207-216, 1993. • [3] R. B. V.Nebot, "Finding association rules in semantic web data.," Knowledge-Based Systems, pp. 51-62, 2012. • [4] J. W. Seifert, Data Mining: An Overview, December 2004. • [5] D. J. HAND, Data Mining: Statistics and More?, December 2002. • [6] S. L. Eamonn Keogh, Chotirat Ann Ratanamahatana Towards Parameter-Free Data Mining, September 2005. • [7] R. S. R.Agrawal, "Fast algorithms for mining association rules," presented at the In Proceeding of 20th international conference in large databases, 1994. • [8] A. Ale-Ahmad. (2006). Introduction to Semantic Web. • [9] F. V. H. Grigoris Antoniou, A Semantic Web Primer, 2004. • [10] T. Gruber, "Toward principles for the design of ontologies used for knowledge sharing," Human–Computer Studies, pp. 907-928, 1995. • [11] W. K. N. Zehua Liu, Ee-Peng Lim, Feifei Li, "Towards Building Logical Views of Websites," Data & Knowledge Engineering, vol. 49, pp. 197-222, 2004. • [12] K. H. Veltman, "Challenges for a Semantic Web," presented at the Proceedings of the International Workshop on the Semantic Web 2002, 2002. • [13] T. M. Haibo Yu, Makoto Amamiya, "An architecture for personal semantic web information retrieval system," presented at the WWW '05 Special interest tracks and posters of the 14th international conference on World Wide Web, 2005.
مراجع • [14] F. V. H. D.Fensel, I.Horrocks, D.L.McGuinness, P.F.Patel-Schneider, "OIL: An Ontology Infrastructure for the Semantic Web," IEEE Intelligent Systems, vol. 18, 2001. • [15] W3C. (2009-10-27). OWL 2 Web Ontology Language Document Overview, http://www.w3.org/TR/owl2-overview/. • [16] J. Rapoza. (2006). SPARQL Will Make the Web Shine, http://www.eweek.com/c/a/Application-Development/SPARQL-Will-Make-the-Web-Shine. • [17] J. L. C.Bizer, G.Kobilarov, S.Auer, C.Becker, R.Cyganiak, S.Hellmann, "DBpedia - A crystallization point for theWeb of Data," Web Semantics, pp. 154-165, 2009. • [18] T. H. C.Bizer, T.Berners-Lee, "Linked data - the story so far," International Journal on Semantic Web and Information Systems, pp. 1-22, 2009. • [19] Linked Open Data Project, http://linkeddata.org/. • [20] N. G.-P. J.M.Benitez, F.Herrera, "Special issue on "New Trends in Data Mining" NTDM," Knowledge-Based Systems, pp. 1-2, 2012. • [21] H. W. J.Zhang, Y.Sun, "Discovering Associations among Semantic Links.IEEE," presented at the International Conference on Web Information Systems and Mining, 2009. • [22] Y. S. S.Bloehdorn, "Kernel methods for mining instance data in ontologies," ISWC/ASWC, LNCS, pp. 58-71, 2007. • [23] C. d. A. N.Fanizzi, F.Esposito, "Metric-based stochastic conceptual," Information Systems, pp. 792-806, 2009. • [24] L.Getoor, "Link mining: a new data mining challenge," presented at the SIGKDD Explorations, 2003. • [25] A. H. G.Stumme, B.Berendt, "Semantic web mining: state of the art and future directions," Sci. Services Agents World Wide Web 4, pp. 124-143, 2006.