1 / 35

ارزیابی کیفیت داده در حوزه داده های پیوندی

ارزیابی کیفیت داده در حوزه داده های پیوندی. استاد راهنما: دکتر محسن کاهانی ارائه دهنده: نجمه یاقوتی. فهرست مطالب. مقدمه چالش‌های موجود در حوزه داده‌های پیوندی ابعاد مؤثر در کیفیت داده روش‌شناسی ها. مقدمه. کاهش موانع در انتشار و دسترسی به مستندات

kalin
Download Presentation

ارزیابی کیفیت داده در حوزه داده های پیوندی

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ارزیابی کیفیت داده در حوزه داده های پیوندی استاد راهنما: دکتر محسن کاهانی ارائه دهنده: نجمه یاقوتی

  2. فهرست مطالب • مقدمه • چالش‌های موجود در حوزه داده‌های پیوندی • ابعاد مؤثر در کیفیت داده • روش‌شناسی ها

  3. مقدمه • کاهش موانع در انتشار و دسترسی به مستندات • تغییر رویکرد به اشتراک‌گذاری دانش به صورت بنیادی • تغییر وب از فضایی با اسناد به هم پیوند خورده‌، به فضایی با داده‌ها و اسناد به هم پیوند خورده • داده‌های پیوندی • مجموعه‌ای از تلاش‌ها در جهت انتشار و اتصال داده‌های ساخت‌یافته در وب • استفاده از وب، به منظور ایجاد پیوند‌های دارای نوع، میان داده‌های منابع مختلف

  4. پروژه داده های باز پیوندی • واضح‌ترین مثال از اتخاذ و استفاده از اصول داده‌های پیوندی • پروژه LinkedOpenData یک تلاش جمعی‌ مردمی، آغاز شده در ژانویه ۲۰۰۷، پشتیبانی توسط گروه آموزش و توسعه وب معنایی W3C • مفید بودن تنها در صورت داشتن کیفیت مناسب ابر LOD در ماه مه 2007[lod-cloud.net]

  5. ابر LOD در سپتامبر سال 2011 [lod-cloud.net]

  6. چالش‌های تحقیقاتی‌ • واسط‌های کاربر و نمونه‌های تعاملی • نگاشت شِما و تلفیق داده • نگهداری یا حفظ پیوند • جواز • کیفیت • حریم خصوصی

  7. ابعاد کیفیت داده • ساختاری چند بعدی با تعریف "مناسب بودن برای کاربرد" • وابسته به طراحی و ایجاد فرآیند‌های مؤثر در تولید داده • داشتن کیفیت مناسب • درک کیفیت و چگونگی اندازه‌گیری آن • مشکلات کیفیت داده • یک‌پارچه سازی اطلاعات فراهم آورندگان مختلف توسط سیستم‌های اطلاعاتی‌ تحت وب • مقادیر دارای تضاد با یک‌دیگر در منابع داده مختلف، به دلیل تنوع داده • ارائه نادرست موجودیت‌های دنیای واقعی در سیستم اطلاعاتی • خطاها، اختلالات و یا اشتباهات در مسائل مدل سازی • مجموعه‌ای از مسائل دارای پتانسیل تحت تأثیر قرار دادن برنامه‌هایی‌ که از آن داده‌ها استفاده می‌کنند[Wan1996, Zav2012]

  8. ابعاد کیفیت داده • ارزیابی کیفیت داده • اندازه‌گیری ابعاد و ضوابط کیفی داده • سنجه یا مقیاس ارزیابی کیفیت داده • روالی برای اندازه‌گیری بعد کیفی‌ اطلاعات ابعاد کیفیت داده و روابط آن‌ها [Zav2012] 8

  9. ابعاد زمینه‌ای هستان شناسی کامل بودن خصیصه جمعیت بهم ‌پیوستگی مقدار داده‌ها ابعاد زمینه ای مرتبط بودن

  10. ابعاد اطمینان/اعتماد منشأ اثبات‌پذیری ابعاد اطمینان باورپذیری شهرت‌ مجوز

  11. ابعاد ذاتی دقت عینی بودن استفاده معتبر از واژگان زیربنایی اعتبار مستندات نحو معتبر برای اسناد ابعاد ذاتی بهم پیوستگی سازگاری سطح داده ایجاز سطح شِما

  12. ابعاد دسترسی در دسترس بودن عملکرد ابعاد دسترسی امنیت زمان پاسخ

  13. ابعاد نمایشی ایجاز نمایشی سازگاری نمایشی ابعاد نمایشی قابلیت فهم تنوع قابلیت تفسیر

  14. ابعاد پویای مجموعه داده تازگی زمان تحویل زمان فعلی نوسانات ابعاد پویای مجموعه داده زمان ورودی زمان انقضا بهنگام بودن

  15. جنبه‌های مقایسه‌ای برای تحلیل روش‌شناسی ها • فاز‌ها و گام‌های سازنده روش‌شناسی • راهبرد‌‌ها و روش‌‌های اتخاذ شده برای ارزیابی و بهبود سطوح کیفیت داده در هر روش‌شناسی • ابعاد و سنجه‌های انتخاب شده برای ارزیابی سطوح کیفیت داده در روش‌شناسی • انواع هزینه‌های مرتبط با مسائل کیفی‌ داده • انواع داده‌های در نظر گرفته شده در روش‌شناسی • انواع سیستم‌های اطلاعاتی‌ مصرف کننده، تغییر دهنده و مدیریت کننده داده‌ها • سازمان‌های درگیر در فرآیند با قابلیت ایجاد و بروز رسانی داده‌ها با ساختار‌ها و قواعد خود • فرآیند‌های با هدف ایجاد سرویس‌های مورد نیاز کاربران • خدمات ایجاد شده توسط فرآیند • تفاوت روش‌شناسی ‌ها از نقطه نظر چگونگی در بر گرفتن این جنبه‌ها

  16. فازها و گام‌ها • نوسازی یا ساخت مجدد وضعیت(اختیاری) • جمع‌آوری اطلاعات زمینه‌ای در خدمات سازمانی • جمع آوری داده‌ها و روال‌های مدیریتی مختلف • مسائل کیفی‌ و هزینه‌های مرتبط • ارزیابی/ اندازه‌گیری کیفیت مجموعه‌های داده، همراه با ابعاد کیفی‌ مرتبط • اندازه‌گیری یا سنجش • اندازه‌گیری مقدار یک مجموعه از ابعاد کیفی‌ داده • ارزیابی • مقایسه اندازه‌گیری ها با مقادیر مرجع به منظور تشخیص کیفیت • بهبود • انتخاب گام ها، راهبرد‌‌ها و روش‌‌هایی‌ برای دستیابی به اهداف کیفی‌ داده جدید

  17. گام‌های فاز ارزیابی • تحلیل داده • تحلیل نیازمندی‌های کیفی‌ داده • شناسایی نواحی بحرانی • مدل سازی فرآیند • سنجش کیفیت • اندازه‌گیری مستقل از نظر فرد • بر مبنای سنجه‌های کمی‌ • اندازه‌گیری وابسته به تفکر شخص • بر مبنای ارزیابی‌های کیفی‌ توسط مدیران یا کاربران داده‌ها

  18. گام‌های فاز بهبود • ارزیابی هزینه ها • تخصیص مسئولیت‌های فرآیند • تخصیص مسئولیت‌های داده • شناسایی علت خطا‌ها • انتخاب راهبرد‌‌ها و روش‌‌ها • سازگاری راهبرد‌‌ها با دانش زمینه ای، اهداف کیفی‌ و محدودیت‌های بودجه • طراحی راه‌کار‌های بهبود داده • کنترل فرآیند • طراحی مجدد فرآیند • مدیریت بهبود • مانیتورینگ بهبود

  19. راهبرد‌های فاز بهبود • راهبرد‌‌های داده-محور • بهبود کیفیت داده به صورت مستقیم با تغییر مقادیر داده • بروز رسانی پایگاه داده با داده‌هایی از پایگاه داده‌های جدیدتر • راهبرد‌‌های فرآیند-محور • بهبود کیفیت داده‌ها با طراحی مجدد فرآیند‌های ایجاد کننده یا تغییر دهنده داده‌ها • طراحی مجدد یک فرآیند به منظور افزودن فعالیت جدیدی به منظور کنترل قالب داده‌ها قبل از ذخیره سازی

  20. روش‌های بهبود راهبرد‌های داده-محور • روش‌‌های بهبود به کار رفته توسط راهبرد‌‌های داده-محور • اکتساب داده‌های جدید • استاندارد سازی (نرمال سازی) • بهم‌پیوستگی رکورد • محلی‌سازی یا موضعی‌سازی خطا و اصلاح آن[Bat2006, Das2003] • شناسایی منابع قابل اعتماد • بهینه سازی هزینه • یکپارچگی داده و شِما • دسترسی کاربر به داده‌های ذخیره شده توسط منابع داده ناهمگن، توسط یک دید یکتا از این داده‌ها

  21. روش‌های بهبود راهبرد‌های فرآیند-محور • کنترل فرآیند • درج روال‌های کنترلی و بررسی در فرآیند تولید داده • اعمال یک راهبرد‌ واکنشی به رخداد‌های تغییرِ داده • اجتناب از تنزل داده‌ها و انتشار خطا • طراحی مجدد فرآیند • حذف علل کیفیت ضعیف • معرفی فعالیت‌های جدید برای ایجاد داده‌های با کیفیت بالاتر • چشم‌انداز بلند‌مدت • روش‌‌های فرآیند-محور • چشم انداز کوتاه‌مدت • راهبرد‌‌های داده-محور

  22. ابعاد • مجموعه هسته‌ای از ابعاد • دقت • کامل بودن • سازگاری • بهنگام بودن • مشکل LOD • عدم وجود توافق عمومی بر روی مجموعه‌ای از ابعاد کیفیت داده، برای تعریف کیفیت [Zav2012, Bat2009]

  23. هزینه‌ها • هزینه کیفیت داده • مجموع هزینه فعالیت‌های ارزیابی و بهبود کیفیت داده (هزینه‌های مستقیم) • هزینه‌های مرتبط با کیفیت داده ضعیف (هزینه‌های غیر مستقیم) • کاهش هزینه کیفیت ضعیف با پیاده سازی یک برنامه کیفیت داده مؤثرتر و هزینه‌بر تر

  24. انواع داده‌ها • هدف نهایی روش‌شناسی کیفیت داده • تحلیل داده های توصیف کننده اشیاء دنیای واقعی‌ در قالبی قابل ذخیره، بازیابی و پردازش توسط یک روال نرم افزاری • تمایز میان سه نوع داده • داده‌های ساخت‌یافته • تجمع یا تعمیم اقلام تشریح شده توسط مجموعه ای از صفات خاصه • داده‌های غیر ساخت‌یافته • دنباله‌ای عمومی از نماد‌ها، معمولاً کد شده در زبان طبیعی • داده‌های نیمه ساخت‌یافته • داده‌هایی دارای ساختاری با درجه‌ای از انعطاف‌پذیری • کاهش ساختار داده‌ها • پیچیدگی رو به رشد روش‌های کیفیت داده • ابعاد کیفی‌ یکسان • سنجه‌های کیفی‌ متفاوت بسته به نوع داده

  25. انواع سیستم‌های اطلاعاتی‌ • تأثیرپذیری روش‌شناسی ‌های کیفیت داده توسط انواع سیستم‌های اطلاعاتی • تمایز سیستم‌های اطلاعاتی‌ بر مبنای درجه یک‌پارچگی داده، فرآیند و مدیریت • کاهش میزان یکپارچگی داده، فرآیند و مدیریت • پیچیده‌تر شدن روش‌‌های ارزیابی و بهبود داده‌ • چالش برانگیز‌تر شدن ارزیابی و بهبود کیفیت داده • تمایز انواع سیستم‌های اطلاعاتی بر اساس درجه یک‌پارچگی[Zac2006] • سیستم اطلاعاتی‌ یک‌پارچه • انبار داده • سیستم اطلاعاتی‌ توزیع شده • سیستم اطلاعاتی‌ همکارانه • سیستم اطلاعاتی‌ وب • سیستم اطلاعاتی‌ نظیر به نظیر

  26. [Bat2009]مقایسه کلی روش‌شناسی ها

  27. روش‌شناسی ‌ها و ابعاد مختلف کیفیت داده [Bat2009, Zav2012]

  28. روش‌شناسی ‌ها و گام‌های ارزیابی [Bat2009]

  29. روش‌شناسی ها و انواع راهبرد‌های بهبود[Bat2009]

  30. روش‌شناسی ‌ها و انواع داده‌ها [Bat2009]

  31. روش‌شناسی ‌ها و سیستم‌های اطلاعاتی [Bat2009]

  32. مراجع [Abi2000] Abiteboul, Serge, Peter Buneman, and Dan Suciu, "Data on the Web: from relations to semistructured data and XML." Morgan Kaufmann, 2000. [Ant2004] Antoniou, Grigoris. "A semantic web primer." the MIT Press, 2004. [Bat2007] Batini, Carlo, et al. "A Framework And A Methodology For Data Quality Assessment And Monitoring." ICIQ, 2007. [Bat2006] Batini, Carlo, and Monica Scannapieca. "Data quality: concepts, methodologies and techniques." Springer, 2006. [Ber1997] Berners-Lee, Tim. "Cleaning up the user interface." World Wide Web Consortium ,1997. [Bri1998] Brin, Sergey, and Lawrence Page. "The anatomy of a large-scale hypertextual Web search engine." Computer networks and ISDN systems 30.1: 107-117, 1998. [Bri2004] Brickley, Dan, and Ramanathan V. Guha. "{RDF vocabulary description language 1.0: RDF schema}." 2004. [Biz2007] Bizer, Christian. "Quality Driven Information Filtering: In the Context of Web Based Information Systems." VDM Publishing, 2007. [Biz2009] Bizer, Christian, Tom Heath, and Tim Berners-Lee. "Linked data-the story so far." International Journal on Semantic Web and Information Systems IJSWIS)5.3: 1-22, 2009. [Bun1997] BUNEMAN, P. 1997. "Semi-structured data." In Proceedings of the 16th ACM Symposium on Principles of Database Systems (PODS). [Cal1999] Calvanese, Diego, Giuseppe De Giacomo, and Maurizio Lenzerini. "Modeling and querying semi-structured data." Networking and Information Systems Journal 2: 253-273, 1999. [Car2004] Carroll, Jeremy J., and Graham Klyne. "Resource Description Framework ({RDF}): Concepts and Abstract Syntax." 2004.

  33. مراجع [Cyg2009] Cyganiak, Richard, Michele Catasta, and Giovanni Tummarello. "Towards ECSSE: live Web of Data search and integration." Proceedings of the Semantic Search 2009 Workshop, 2009. [Che2010] Chen, Ping, and Walter Garcia. "Hypothesis generation and data quality assessment through association mining." Cognitive Informatics (ICCI), 2010 9th IEEE International Conference on. IEEE, 2010. [Eng1999] Larry, P. "English, Improving data warehouse and business information quality: methods for reducing costs and increasing profits." 1999. [Fle2010] Flemming, A. Quality characteristics of linked data publishing datasources. Diss. Master’s thesis, Humboldt-Universität of Berlin, 2010. [Fur2011] Fürber, Christian, and Martin Hepp. "SWIQA–A Semantic Web information quality assessment framework." , 2011. [Gil2002] Gil, Yolanda, and VarunRatnakar. "Trusting information sources one citizen at a time." The Semantic Web—ISWC 2002. Springer Berlin Heidelberg, 2002. 162-176. [Gil2007] Gil, Yolanda, and Donovan Artz. "Towards content trust of web resources." Web Semantics: Science, Services and Agents on the World Wide Web 5.4 2007): 227-239. [Gol2003] Golbeck, Jennifer, BijanParsia, and James Hendler. "Trust networks on the semantic web." Springer Berlin Heidelberg, 2003. [Gue2012] Guéret, Christophe, et al. "Assessing linked data mappings using network measures." The Semantic Web: Research and Applications. Springer Berlin Heidelberg, 2012. 87-102. [Ham2001] Hammer, Michael, and James Champy. "Reengineering the Corporation: Manifesto for Business Revolution", 2009. [Har2010] Hartig, Olaf, and Jun Zhao. "Publishing and consuming provenance metadata on the web of linked data." Provenance and Annotation of Data and Processes. Springer Berlin Heidelberg, 2010. 78-90.

  34. مراجع [Hau2009] Hausenblas, Michael. "Linked data applications." First Community Draft, DERI(2009). [Hea2011] Heath, Tom, and Christian Bizer. "Linked data: Evolving the web into a global data space." Synthesis lectures on the semantic web: theory and technology1.1: 1-136, 2011. [Hog2010] Hogan, Aidan, et al. "Weaving the pedantic web." , 2010. [Hog2012] Hogan, Aidan, et al. "An empirical survey of Linked Data conformance." Web Semantics: Science, Services and Agents on the World Wide Web 14: 14-44, 2012. [Jac2004] Jacobs, Ian, and Norman Walsh. "Architecture of the world wide web." 2004 [Lei2007] Lei, Yuangui, Victoria Uren, and Enrico Motta. "A framework for evaluating semantic metadata." Proceedings of the 4th international conference on Knowledge capture. ACM, 2007. [Men2012] Mendes, Pablo N., HannesMühleisen, and Christian Bizer. "Sieve: linked data quality assessment and fusion." Proceedings of the 2012 Joint EDBT/ICDT Workshops. ACM, 2012. [Red1996] Redman, Thomas C., and A. Blanton. "Data quality for the information age." Artech House, Inc., 1997. [Sto2003] Stoica, Mihail, NimitChawat, and Namchul Shin. An investigation of the methodologies of business process reengineering. School of Computer Science and Information Systems, Pace University, 2004. [Wan1996] Wand, Yair, and Richard Y. Wang. "Anchoring data quality dimensions in ontological foundations." Communications of the ACM 39.11 : 86-95, 1996. [Zav2012] Zaveri, Amrapali, et al. "Quality Assessment Methodologies for Linked Open Data." Submitted to SWJ.

  35. با تشکر از توجه شما ؟؟؟

More Related