1 / 32

شاخص گذاری RDF گزارش سمینار کارشناسی ارشد

شاخص گذاری RDF گزارش سمینار کارشناسی ارشد. فاطمه عبیری استاد راهنما: دکتر محسن کاهانی پاییز 1391. فهرست مطالب. مقدمه شاخص گذاری RDF شمای شاخص گذاری مبتنی بر ساختار سه/چهارتایی RDF شمای شاخص گذاری مبتنی بر ساختار گرافی RDF سیستم های ذخیره سازی شاخص های RDF نتیجه گیری

fedora
Download Presentation

شاخص گذاری RDF گزارش سمینار کارشناسی ارشد

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. شاخص گذاریRDF گزارش سمینار کارشناسی ارشد فاطمه عبیری استاد راهنما: دکتر محسن کاهانی پاییز 1391

  2. فهرست مطالب • مقدمه • شاخص گذاری RDF • شمای شاخص گذاری مبتنی بر ساختار سه/چهارتایی RDF • شمای شاخص گذاری مبتنی بر ساختار گرافی RDF • سیستم های ذخیره سازی شاخص های RDF • نتیجه گیری • جداول ارزیابی

  3. مقدمه • حجم روزافزون منابع اطلاعاتی و نیاز به مدیریت آنها جهت بازیابی سریع • بازیابی اطلاعات • شاخص گذاری • سازماندهی داده ها به نحوی که بتوان امکان دسترسی به منابع اطلاعاتی را با سرعت بالا برای کاربران فراهم آورد.

  4. فرایند بازیابی اطلاعات در وب

  5. شاخص گذاری RDF • مدل داده RDF • نمایش گراف داده ها در قالب عناصر سه/چهارتایی • (Subject,Predicate,Objet,Concept) • چالش ها • نوع پرس جوی مورد پشتیبانی روی گراف های داده • پرس جوی مبتنی بر مسیر، مبتنی بر ستاره ای(موجودیت)و... • قدرت الحاق عناصر جهت استخراج روابط بین آنها • هزینه به روزرسانی • مقیاس پذیری پردازشی • اندازه شاخص • روش دسترسی به شاخص‌ها از حافظه اصلی( مستقیم، درخت Btree، ...) • و...

  6. جنبه های شاخص گذاری RDF

  7. انواع شمای شاخص گذاری • شماهای مبتنی بر ساختار گرافی RDF • ایجاد شاخص در دو مرحله: 1-تحلیل گراف جهت استخراج روابط بین نودها 2-ذخیره سازی به صورت گرافی یا بر اساس نودهای گراف (s,p,o,c) • پشتیبانی از پرس جوهای مبتنی بر گراف با هزینه الحاق پایین • مقیاس پذیری پردازشی پایین در پرس جو های پیچیده • شماهای مبتنی بر ساختار سه/چهارتایی RDF • ذخیره سازی بر اساس عناصر سه/چهار تایی(s,p,o,c) • پشتیبانی از پرس و جوهای مبتنی بر گراف با الحاق زیاد روی جداول • مقیاس پذیری پردازشی بالا با افزایش داده ها و پرس جوهای پیچیده

  8. جنبه های شاخص گذاری RDF

  9. شمای بخش بندی مبتنی بر predicate‌های مشترک[wil06] • استفاده از الگوریتمی جهت گروه بندی Subject ها بر اساس صفات مشترک آنها • بازیابی یک موجودیت با هزینه پایین جدول ویژگی Property Table Index Schema

  10. شمای بخش بندی مبتنی بر ساختار[Tha12] • گروه بندی سه گانه ها با ساختار مشترک(مانند E2) • ذخیره داده ها هم گروه در کنار هم • ایجاد یک گراف از شاخص E4 b1 b2 p3 n1 E3 p1 n2 E2 p3 s2 p1 p2 s1 a1 E5 p2 a2 Structure Oriented Partitioning Index Schema

  11. شمای بخش بندی مبتنی بر ساختار[Tha12] ... • تطبیق ساختار پرس جو با گراف شاخص • بازیابی داده های مرتبط با ساختار پرس جو • کاهش هزینه I/O(عدم بازیابی داده های نامربوط) 1 یک گراف شاخص 2 Structure Oriented Partitioning Index Schema

  12. جنبه های شاخص گذاری RDF

  13. شمای شاخص گذاری یکپارچه[Neu10] • ذخیره سه گانه ها در یک جدول با سه/چهار ستون (S1,P1,O1,C1) Monotonic Index Schema

  14. شمای شاخص گذاری یکپارچه. . . • پوشش الگوهای دسترسی متفاوت با استفاده از شاخص چند گانه • شش شاخص برای پوشش 16 الگوی دسترسی به سه گانه ها [Har05] پوشش الگوهای دسترسی به چهارگانه ها Monotonic Index Schema

  15. شمای مبتنی بر بخش بندی عمودی بر اساس predicate[Aba07] جدول بخش بندی مبتنی برPredicate Vertical Partitioning Index Schema

  16. شمای مبتنی بر برچسب گذاری گره [Del10] • موجودیت، واحد اصلی اطلاعات مورد جستجو • گراف ستاره ای، ساده ترین فرم یک گره موجودیت مفهوم موجودیت Node Labeled Index Schema

  17. شمای مبتنی بر برچسب گذاری گره[Del10]... • پرچسب گذاری نودهای درخت • نگهداری مسیر از ریشه تا گره مورد نظر برای هر گره C (S,P,O,C) S P O درخت برچسب گذاری Node Labeled Index Schema

  18. شمای مبتنی بر برچسب گذاری گره[Del10]... Entity file Object file Predicate file Block of file Node Labeled Index Schema

  19. جنبه های شاخص گذاری RDF

  20. پایگاه داده‌های بومی • ساخت پایگاه داده ای مخصوص شاخص های RDF از ابتدا • انتخاب ساختمان داده و الگوریتم مناسب همان داده به جای پشتیبانی از روشهای مختلف • کم شدن سربار سیستم • بهینه سازی سیستم داخلی ساده‌تر • خود انطباقی سیستم نسبت به تغییرات محیط بیشتر • RDF3x، Jena TDB، HexaStore، Sindice، SWSE و...

  21. پایگاه داده‌های NoSQL • SQL را به عنوان زبان دسترسی اولیه خود پشتیبانی نمی کند • معمولا توزیع شدهاند • مقیاس پذیری جداول از نظر افقی و عمودی • کد باز • ACID نیستند(سازگاری پایین قربانی عملکرد بالا) • الحاق‌های متفاوت با پایگاه داده‌های رابطه‌ای • عدم تحمیل شمای ثابتی • پایگاه داده اسناد همچون MongDB • پایگاه داده ستونهای خانواده (جدولی)همچون Hbase • پایگاه داده‌ای از گراف همچون AllegroGraph • و... • Jena_Hbase

  22. پایگاه داده‌های رابطه ای • استفاده از مزیت‌های چندین ساله این نوع ذخیره‌سازی • نیاز به لایه‌ی تبدیل SPARQL به SQL • ارائه شماهای ثابت (وجود ستونهای ثابت ) • مقیاس پذیری کمتر نسبت به پایگاه هایNoSQl • jena، Sesame، Jena SDB و ...

  23. نتیجه گیری • عملکرد شاخص گذاری RDF وابسته به شما و سیستم ذخیره سازی شاخص • شماهای مبتنی بر ساختارسه/چهارگانه • مقیاس پذیری پردازشی بالا • الحاق های زیاد در پاسخگویی به پرس جو ها • به کارگیری سیستم با عملکرد بالا در پردازش پرس جو و الحاق داده ها • تقویت پردازش پرس جو ها همچون شاخص گذاری الحاق ها جهت دسترسی سریع به مسیر های پر تکرار • حمایت از پرس وجوهای خاص مثل موجودیت و ... • شماهای مبتنی بر گر اف • کاهش الحاق ها در پاسخگویی به پرس جو ها • مقیاس پذیری پردازشی پایین • طراحی الگوریتم های قدرتمند جهت تحلیل گراف و پرس جو • بالا بودن اندازه شاخص و در نتیجه هزینه به روز رسانی بالا در هر دو نوع شما • سیستم های ذخیره سازی شاخص از نوع بومی، رابطه ای مبتنی بر ستون و NoSQL مناسب تر و رایج تر و مقیاس پذیر ترند.

  24. منابع • [Agg10] C. Aggarwal, H. Wang. “Graph Indexing,” in Managing and Mining Graph Data, 1nd ed., vol. 40, Ed. New York: Springer, 2010, pp. 161-178. • [Del10] R. Delbru. “Searching Web Data: an Entity Retrieval Model.” Ph. D. thesis ,National University of Ireland, Ireland, 2010. • [Hog11]A. Hogan, A. Harth, u. Umbrich, S. Kinsella, A. Polleres, S. Decker, “Searching and Browsing Linked Data with SWSE: the Semantic Web Search Engine. ” , The International Journal on Web Semantics: Science, Services and Agents on the World Wide Web, Elsevier Science, vol. 9, pp. 365-401, Des. 2011. • [Neu10]T. Neumann and G. Weikum. “The rdf-3x engine for scalable management of rdf data. ” TheInternational Journal on Very Large Data Bases, vol. 19, pp. 91-113, Feb. 2010. • [ Tha12]T. Tran, G. Ladwig, S. Rudolph, “RDF Data Data Partitioning and Query processing Using Structure Indexes, IEEE Trans. Knowledge and Data Engineering, 2012, to be published. • [Wei08] C. Weiss, P. Karras, and A. Bernstein. “Hexastore: sextuple indexing for semantic web data management.” TheInternational Journal on Very Large Data Bases, vol. 1, pp. 1008– 1019, 2008

  25. منابع… • [Aba07] D. J. Abadi, A. Marcus, S. Madden, and K. J. Hollenbach, “Scalable semantic web data management using vertical partitioning,” in proc. Very Large Data Bases , 2007, pp. 1-12. • [Har05]A. Harth and S. Decker, “Optimized index structures for querying rdf from the web, " in Proc. of the Third Latin American Web Congress, 2005, pp. 71-81. • [Mat05]A. Matono, T. Amagasa, M. Yos hikawa, and S. Uemura. “path-based relational RDF database,” in Proc. of the 16th Australasian database conference, 2005 ,pp. 95-103. •  [Owe08] A. Owens, A. Seab orne, N. Gibb ons, and M. Schraefel, “Clustered TDB: A clustered triple store for Jena,” Univ. Southampton, Tec. Rep ,2008 • [Udr07] O. Udrea, A. Pugliese, and V. Subrahmanian,"Grin: a graph based rdf index", AAI Conference of Artifical Inteligent , vol. 22, no. 2, 2007. • [Ber01] T. Berners-Lee, J. Hendler, O. Lassila, “The Semantic Web,” Scientific American, May 2001, pp. 35-34 • [Bro03] J. Broekstra, A. Kampman, F. Harmelen. Sesame: An architecture for storing and querying RDF data and schema information. Spinning the Semantic Web, 2003.

  26. منابع… • [Del10] R. Delbru. “Searching Web Data: an Entity Retrieval Model.” Ph. D. thesis ,National University of Ireland, Ireland, 2010. • [Har05] A. Harth and S. Decker, “Optimized index structures for querying rdf from the web, " in Proc. of the Third Latin American Web Congress, 2005, pp. 71-81. • [Har07] A. Harth, J. Umbrich, A. Hogan, and S. Decker. “YARS2: A Federated pository for Searching and Querying Graph Structured Data,” in Proc. of the 6th international The semantic web and 2nd Asian conference on Asian semantic web conference,2007, pp. 211-224. • [Mat05] A. Matono, T. Amagasa, M. Yos hikawa, and S. Uemura. “path-based relational RDF database,” in Proc. of the 16th Australasian database conference, 2005 ,pp. 95-103. • [Mch97] J. McHugh, S. Abiteboul, R. Goldman, D. Quass, J. Wid. “Lore: A Database Management System for Semi-structured Data.” ACM SIGMOD Record,vol. 26, pp. 54 – 66, 1997. • [Mel01] S.Melink, S, Raghavan, B. Yang, H. Garcia-Molina. ” Building a distributed full-text index for the web. ” ACM Transactions on internet Technology, vol. 19, pp. 217-241, jul. 2001.

  27. منابع… • [Nar09] A. Narang, V. Agarwal, M. Kedia, V.K. Garg. "Highly scalable algorithm for distributed real-time text indexing," in Proc. of HiPC IEEE , 2009, pp.332-341. •  [Neu11] T. Neumann, A. Gubichev. “Path Query Processing on Very Large RDF Graphs,”in Proc. WebDB, 2011, pp. 1-6. • [Sun10] J. Sun, Q. Jin. “Scalable RDF Store Based on HBase and MapReduce,” in Proc. of Advanced Computer Theory and Engineering( ICACTE ), 2010, pp. 633-636. • [Wan10] X. Wang, S. Wang, P. Du, Z. Feng. “Storing and Indexing RDF Data in a Column-Oriented DBMS,” in Proc. of Database Technology and Applications (DBTA), 2010, pp. 1-4. • [Min08] E. Minack,L. Sauermann,G. Grimnes,C. Fluit, J. Broekstra, “The Sesame uceneSail: RDF Queries with Full-text Search,” Tech. Rep. Nepomuc, 2008. • [Wil03] K. Wilkinson, C. Sayers, H. A. Kuno, and D. Reynolds. “Efficient RDF Storage and Retrieval in Jena2,” in Proc. Semantic Web Data Bases, 2003, pp. 131-150. • [Kha12] V. Khadilkar, M. Kantarcioglu, B. Thuraisingham, “Jena-HBase: A Distributed, Scalable and Efficient RDF Triple Store,” Univ. Texas, Thech. Rep, 2012.

  28. منابع… • [Wil06] K. Wilkinson, "Jena property table implementation", International workshop on Scalable Semantic Web Knowledge Base Systems (SSWS) at the International Semantic Web Conference(ISWC), 2006. • [Yan04] X. Yan, P. Yu, and J. Han. “Graph indexing: A frequent structurebased approach,” in Proc. of the the ACM SIGMOD international conference on Management of data , 2004, pp. 335-346.

  29. تشکراز توجه شما

More Related