گزارش سمینار کارشناسی ارشد کاوشگر های وب معنایی

گزارش سمینار کارشناسی ارشدکاوشگر های وب معنایی ریحانه امامدادی استاد راهنما: جناب دکتر کاهانی پاییز 1391

فهرست مطالب • کاوشگر وب • وب معنایی • چالش های کاوشگر های سنتی برای وب معنایی • کاوشگر های وب معنایی • کاوشگر های متمرکز برای وب معنایی • نتیجه گیری

کاوشگر وب • برنامه ای است که به صورت خودکار، وب را از طریق دانلود کردن صفحات و دنبال کردن پیوند ها، از صفحه ای به صفحه ای دیگر، پیمایش می کند. • جمع آوری داده • اولین مولفه مورد نیاز برای ایجاد شاخص گذاری و بازیابی اسناد وب • crawler، spider، robot، ... چرخه کاوش [Mae2006]

رفتار کاوشگر • چه صفحاتی باید دانلود شوند؟ (سیاست انتخاب صفحه) • محبوبیت محور • علاقه محور • چگونه صفحات باید به روز شوند؟ (سیاست به روز رسانی) • بررسی به روز بودن صفحه • اولویت به روز رسانی • چگونه باید سربار کاوش را بر روی سایت ها به حداقل رساند؟ (سیاست politeness) • مجوز کاوش سایت: فایل robot.txt • رعایت یک میزان تاخیر، بین ارسال درخواست های متوالی به یک سایت • چگونه باید فرآیند کاوش را موازی کرد؟ (سیاست موازی سازی) • یک صفحه یکسان چندین بار توسط کاوشگر‌های مختلف کاوش نشود.

وب معنایی

روش‌ها‌‌ی پیوند اسناد در وب معنایی • rdfs:seeAlso ، rdfs:isDefinedBy ، owl:sameAs، owl:import • پیوند های موجود در اسناد html که اشاره به یک سند با پسوند .rdf می کنند. • دنبال کردن پیوند ‌های A-BoxوT-Box • استدلال بر روی سه گانه ها (subject, predicate, object) • T-Box: کلاس‌ ها و خصیصه‌ ها (شمای یک سند) • URIهر predicate • URIمربوط به هر obejct، در صورتی که در سه گانه مورد نظر، predicateآن از نوع typeباشد.. • A-Box: نمونه‌های تعریف شده • URI مربوط به هر Subject و یا Object

چالش های کاوشگر های سنتی برای وب معنایی • حجم کمتر وب معنایی نسبت به وب سنتی : عدم نیاز به کاوش جامع و کامل وب • عدم اتصال کافی بین منابع • تفاوت فرمت داده ها: عدم توجه به محتوای معنایی اسناد • شیوه متفاوت پیوند بین منابع • به روز رسانی اسناد

کاوشگر های وب معنایی

کاوش وب معنایی

کاوش وب معنایی • جمع آوری URIهای اولیه • وارد کردن URIتوسط کاربر • استفاده از خروجی موتور های جستجو و بعضی از سایت ها • فیلتر های معنایی • جلوگیری از واکشی و ذخیره داده های غیر معنایی • انواع فیلتر ها: پروتکل - پسوند فایل - عبارات منظم – دامنه - پیشوند URI- نوع رسانه/محتوا • پارسرهای معنایی • Jena - Any23 – NxParser • استخراج سه گانه ها از اسناد و تبدیل آنها به چهار گانه ها • چهارگانه = (subject, predicate, object, context)

روش های کاوش • روش کاوش کران دار [Din2005] • در اطراف یک سند معنایی ممکن است اسناد معنایی دیگری نیز وجود داشته باشد. • کاوش تمام صفحات متعلق به یک سایت • یافتن منابع منزوی • کشف اسناد معنایی بیشتر • روش اول-سطح • کاوش زودتر صفحات مرتبط • تنوع بیشتر در دیتاست های کاوش شده • روش اول-عمق • مسیر‌های عمیق تر در داخل یک سایت

صف های کاوش • مزایای صف های مبتنی بر دامنه [Lee2008] • کنترل کردن سایت ها با حجم بالا • رعایت عدالت میان دامنه ها • جلوگیری از تاثیر سایت های اسپم • Top-Level Domain (TLD) • .com , .net , .uk • cc-TLD : co.uk , edu.au • Pay level domain (PLD) • amazon.com , det.wa.edu.au

صف های کاوش

نسبت مفید اعتبار [Hog2011]

روش مبتنی بر یادگیری [Bat 2012] • BioCrawler: یک کاوشگر هوشمند • مجموعه ای از کاوشگر ها با ویژگی های زیر: • قابلیت حرکت - بردار دید - قابلیت ارتباط - مدل دانش - انرژی • هدف • افزایش انرژی = کاوش بیشتر سایت های معنایی (OWLیا RDF) • الگوریتم پایه: کاوش اول-عمق • مدل دانش: مجموعه قوانین • IF < vision_vector > THEN < select_domain > • امکان تبادل قوانین میان کاوشگر ها

سیاست های Politeness • رعایت حداقل زمان تاخیر بین در خواست متوالی به یک دامنه (PLD- سایت) • تعیین حداکثر تعدادURI های کاوش شده به ازای هر دامنه • در روش مبتنی بر یادگیری: کاهش قدرت قانون به ازای هر بار استفاده • مشکل قحطی PLD ها • عدم داشتن PLDفعال به تعداد کافی [Hog2011] • دلایل • واکشی سایت ها با فاکتور انشعاب داخلی بالا • عدم اتصال خوب اسناد در وب معنایی • راه حل • بازگشت از دور

به روز رسانی داده ها • بازه به روز رسانی • بر حسب تقاضا • خودکار • بررسی به روز بودن • بررسی فیلد (last-modified-since) در هدر HTTPصفحه • هش محتوای صفحه • استفاده از سرویس "Pingthesemanticweb.com" • استفاده از نقشه سایت • اولویت به روز رسانی • میزان غنی بودن دامنه از نظر معنایی • اولویت بالا برای کاربر

مدل های طراحی

مدل های طراحی • چارچوب توزیع شده • افزایش مقیاس پذیری • مدل Master-Slave[Hog2011] • پراکنده کردن URIهای seedتوسط Master بین Slaveها • اجرای یک دور از فرآیند کاوش توسط Slaveها • پراکنده کردن URIها توسط Slaveها بین یکدیگر در پایان هر دور • مدل خط لوله [Har2006] • جدا کردن مولفه واکشی از مولفه پردازش • اجرای هر یک از مولفه های کاوش به صورت چند نخی • افزایش مقیاس پذیری و توان عملیاتی

مدل ترکیبی کنترل کننده-کارگر و تولید کننده-مصرف کننده [Dod2006] • جدا کردن مولفه واکشی (کنترل کننده-کارگر) از مولفه پردازش (تولید کننده-مصرف کننده) معماري کاوشگر SLUG

کاوش متمرکز • دلایل • رشد روز افزون و تغییر سریع محتوای وب • نیاز به اسناد با کیفیت و ارتباط بالا • به روز رسانی صفحات بر اساس محبوبیت نه ارتباط • محدود کردن مرزهای کاوش و تمرکز بر روی نقاط مرتبط با موضوع • مزایا • حفظ قابل توجه منابع سخت افزاری و شبکه • حجم کمتر، به روز رسانی و نگهداری آسان تر شاخص

مراحل کاوش متمرکز • سلسله مراتب موضوعی با مجموعه ای از اسناد نمونه • آنتالوژی • ایجاد گراف زمینه برای اسناد هدف • انتخاب موضوع از روی سلسله مراتب موضوعی • پرس جوی کلمه کلیدی • دادن آنتالوژی نمونه • دادن اسناد هدف • محاسبه فرکانس ترم ها در اسناد • امتیاز دادن به روابط در آنتالوژی • نگاشت بین آنتالوژی موضوع و آنتالوژی سند • محاسبه فاصله بین ترم‌های سند بر اساس ساختار آنتالوژی

محاسبه ارتباط در کاوش متمرکز

کاوشگر های متمرکز

کاوشگر های متمرکز • چالش ها • تعریف یک هدف کاوش رضایت بخش • یک سند مرتبط ممکن است به یک سند نامرتبط پیوند دهد • یک سند نامرتبط ممکن است به یک سند مرتبط پیوند دهد • شناسایی نقاطی که به تعداد زیادی اسناد مرتبط پیوند می دهند • معیار های ارزیابی • میانگین تعداد اسناد مرتبط (harvest) • تعداد اسناد مرتبط / تعداد کل اسناد بازیابی شده • میانگین ارتباط اسناد • توانایی کاوشگر برای حفظ تمرکز بر روی اسناد مرتبط • مجموع ارتباط اسناد / تعداد کل اسناد بازایابی شده

نتیجه گیری • عدم اتصال خوب اسناد در وب معنایی • کشف منابع اولیه اسناد معنایی • کاوش کران دار • انتخاب و به روز رسانی منابع معنایی تر • نسبت مفید اعتبار • استفاده از روش های مبتنی بر یادگیری • استفاده از روش های کاوش متمرکز • توزیع شدگی • توزیع بار بر اساس میزان معنایی بودن URIها • کاوش هر چه بیشتر اسناد معنایی • اجتناب از بازیابی اسناد غیر معنایی • صرفه جویی در مصرف منابع محاسباتی و شبکه • کم تر شدن حجم شاخص • پشتیبانی از انواع داده‌ها‌‌ی معنایی • استخراج فراداده های معنایی از اسناد غیر معنایی • جدا کردن مولفه تبدیل از مولفه واکشی • کاوش اول-سطح مبتنی بر دامنه • کاهش سربار ناشی از کاوش بر روی دامنه‌ها • قطحی PLDها

مراجع [Bat2012] A. Batzios, P. A. Mitkas, “WebOWL: A Semantic Web search engine development experiment.”Journal of Expert Systems with Applications, vol. 39, pp. 5052–5060, 2012. [Kum2012] R. K. Rana, N. Tyagi, “A Novel Architecture of Ontology-based Semantic Web Crawler.”International Journal of Computer Applications, vol. 44, Apr. 2012. [Hog2011] A. Hogan, A. Harth, J. Umbrich, S. Kinsella, A. Polleres, S. Decker, “Searching and Browsing Linked Data with SWSE: the SemanticWeb Search Engine.”Journal web semantics, vol. 9, pp. 365-401, 2011. [Cyg2011] R. Cyganiak, D1.1 Deployment of Crawler and Indexer Module, Linking Open Data Around The Clock (LATC) Project, 2011. [Jal2011] O. Jaliian, H. Khotanlou, “A New fuzzy-Based Method to Weigh the Related Concepts in Semantic Focused Web Crawlers,” IEEE Conference, 2011. [Dhe2011] S. S. Dhenakaran, K. T. Sambanthan, “WEB CRAWLER - AN OVERVIEW.”International Journal of Computer Science and Communication, vol. 2, pp. 265-267, Jun 2011. [Ise2010] R. Isele, J. Umbrich, C. Bizer, A. Harth, “LDSpider: An open-source crawling framework for the Web of Linked Data,” In Poster. ISWC2010, Shanghai, Chinam, 2010. [Del2010]R. Delbru, “Searching Web Data: an Entity Retrieval Model.”Ph.D thesis, at Digital Enterprise Research Institute, National University of Ireland, Sep. 2010.

مراجع [Che2009] G. Cheng, Y. Qu, “Searching Linked Objects with Falcons: Approach, Implementation and Evaluation.”International Journal on Semantic Web and Information Systems, vol. 5, pp. 50-71, Sep. 2009. [Ore2008] E. Oren, R. Delbru, M. Catasta, R. Cyganiak, H. Stenzhorn, G. Tummarello, “Sindice.com: A document-oriented lookup index for open linked data.” International Journal Metadata Semant and Ontologies, vol. 3, pp. 37-52, 2008. [Umb2008] J. Umbrich, A. Harth, A. Hogan, S. Decker, “Four heuristics to guide structured content crawling,” in Proc. of the 2008 Eighth InternationalConference on Web Engineering-Volume 00, IEEE Computer Society, Jul. 2008, pp.196-202. [Cyg2008] R. Cyganiak, H. Stenzhorn, R.Delbru, S. Decker, G. Tummarello, “Semantic Sitemaps: Efficient and Flexible Access to Datasets on the Semantic Web,” in Proc. of the 5th European semantic web conference on The semantic web: research and applications, 2008, pp. 690-704. [Lee2008] H. T. Lee, D. Leonard, X. Wang, D. Loguinov, “Irlbot: scaling to 6 billion pages and beyond.” in Proc. of the 17th international conference on World Wide Web, 2008, pp. 427-436. [Don2008] H. Dong, F. K. Hussain, E. Chang, “State of the art in metadata abstraction crawlers,” IEEE International Conference on Industrial Technology, Chengdu, 2008.

مراجع [Sab2007] M. Sabou, C. Baldassarre, L. Gridinoc, S. Angeletou, E. Motta, M. d'Aquin, M. Dzbor, “WATSON: A Gateway for the Semantic Web,” in ESWC poster session, 2007. [Bat2007] A. Batzios, C. Dimou, A. L. Symeonidis, P. A. Mitkas, “BioCrawler: An intelligent crawler for the Semantic Web.”Journal of Expert Systems with Applications, vol. 35, pp. 524-530, 2007. [Dod2006] L. Dodds, Slug: A Semantic Web Crawler, 2006. [Han2006] L. Han, L. Ding, R. Pan, T. Finin, Swoogle's Metadata about the Semantic Web, 2006. [Har2006] A. Harth, J. Umbrich, S. Decker, “Multicrawler: A pipelined architecture for crawling and indexing semantic web data,” In 5th International Semantic Web Conference, 2006, pp. 258–271. [Mae2006] F. V. D. Maele. “Ontology-based Crawler for the Semantic.” M.A. thesis, Department of Applied Computer Science, Brussel, 2006. [Yuv2006] M. Yuvarani, N. Ch. S. N. Iyengar, A. Kannan, “LSCrawler: A Framework for an Enhanced Focused Web Crawler based on Link Semantics,” in Proc. of the 2006 IEEE/WIC/ACM International Conference on Web Intelligence, 2006. [Din2005] L. Ding, T. Finin, A. Joshi, R. Pan, P. Reddivari, “Search on the semantic web.”Journal IEEE Computer, vol. 10, pp. 62-69, Oct. 2005.

مراجع [Din2004] T. Finin, Y. Peng, R. S. Cost, J. Sachs, R. Pan, A. Joshi, P. Reddivari, R. Pan, V. Doshi, L. Ding,“Swoogle: A Search and Metadata Engine for the Semantic Web,” in Proc. of the Thirteenth ACM Conference on Information and Knowledge Management, 2004. [Ehr2003] M. Ehrig, A. Maedche, “Ontology-focused crawling of Web documents,” in Proc. of the 2003 ACM Symposium on AppliedComputing, 2003, pp. 1174-1178. [Ara2001] A. Arasu, J. Cho, H. G. Molina, A. Paepcke, S. Raghavan, “Searching the Web.”ACM Transactions on Internet Technology, vol. 1, pp. 2–43, Aug. 2001. [Ber2001] T. Berners-Lee, J. Hendler, O. Lassila, “The Semantic Web.” Journal of Scientiﬁc American, vol. 284, pp.35-43, May 2001. [Dil2000] M. Diligenti, F. Coetzee, S. Lawrence, C. L. Giles, M. Gori, “Focused crawling using context graphs,” in Proc. of 26th International Conference on Very Large Databases, 2000, pp. 527–534. [Cha1999] S. Chakrabarti, M. V. D. Berg, B. Dom, “Focused crawling: a new approach to topic-specific web resource discovery.”Journal of Computer Networks, vol. 31, pp. 1623-1640, 1999. [Kle1998] J. Kleinberg, “Authoritative sources in a hyperlinked environment,” in Proc. ACM-SIAM Symposium on Discrete Algorithms, 1998.

با تشکر از توجه شما

گزارش سمینار کارشناسی ارشد کاوشگر های وب معنایی

گزارش سمینار کارشناسی ارشد کاوشگر های وب معنایی

Presentation Transcript