1 / 11

Vícerozměrný přístup pro indexování XML dat

Vícerozměrný přístup pro indexování XML dat. Michal Krátký , michal.kratky@vsb.cz školitel: Václav Snášel , vaclav.snasel@vsb.cz Katedra informatiky VŠB - Technická univerzita Ostrava. WOFEX 2003. Obsah. Úvod , Nativní XML databáze , Vícerozměrný přístup pro indexování XML dat ,

Download Presentation

Vícerozměrný přístup pro indexování XML dat

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Vícerozměrný přístup pro indexování XML dat Michal Krátký, michal.kratky@vsb.cz školitel: Václav Snášel, vaclav.snasel@vsb.cz Katedra informatiky VŠB - Technická univerzita Ostrava WOFEX 2003

  2. Obsah • Úvod, • Nativní XML databáze, • Vícerozměrný přístup pro indexování XML dat, • Výsledky experimentů, • Závěr. 2/11

  3. Úvod • Extensible Markup Language(XML)je značkovací jazyk vyvíjený W3C. • XML je jazyk pro modelování dat, nativní XML databáze. • Struktura dokumentů je popsána DTDneboXML Schema. • XML dotazovací jazyky (XPath, XQL, XQuery,…). • Současné přístupy (relační, objektově-relační) nejsou vhodné pro indexování XML dokumentů. • Problémem je nutnost průchodu stromem při provádění XML dotazu. 3/11

  4. id 123 Vícerozměrný přístup pro indexování XML dat Graf je množina cest. Atribut je zvláštním případem elementu s řetězcovou hodnotou. books/book/title/”The Two Towers” books/book/author/”J.R.R. Tolkien” … Např.: <book id=“123”> 4/11 books/book/id/”123”

  5. Indexující datová struktura • Modelujeme cestu jako n-rozměrný vektor, proto využíváme existující vícerozměrné datové struktury. • Především perzistentní, stránkovaný BUB-strom. • Dotazování je prováděno pomocí bodových a rozsahových dotazů. 5/11

  6. Indexování XML dat • Index: • termů, • cest, • struktury. Index termů: názvy elementů a atributů a jejich hodnoty jsou uloženy s jedinečnými čísly (id). Index cest: obsahuje všechny cesty. Např.: pro cestu books/book/title je uložen vektor (0,1,2) s id 0. Index struktury: obsahuje id cest, elementů a řetězcových hodnot. Např.: 0/1/2/”The Two Towers” => (0,0,1,2,4). 6/11

  7. Dotazování XML dat • XPath dotaz: books/book[author=“Joseph Heller”] • 3 fáze, získávání: ●id termů z indexu termů, ●id 1 cestybooks/book/authorz indexu cest: bodový dotaz(0,1,3), ● vektory z indexu struktury: rozsahový dotaz(1,0,0,8)x(1,max,max,8). 7/11

  8. Experimentální výsledky • Databáze bílkovin z XML UW projektu: ● velikost souboru: 683MB, ● počet elementů: 21.305.818, ● počet atributů:1.290.647. ● maximální délka cesty 8. • BUB-forest, index struktury: BUB-strom indexující prostory dimenze 7 a 9. 8/11

  9. Experimentální výsledky Dotazy: dotaz 1:ProteinDatabase/ProteinEntry/[protein/ name='hypothetical protein YDL110c'] dotaz 2:ProteinDatabase/ProteinEntry/[reference/refinfo/ authors/author='Smith, E.L.'] 9/11

  10. Závěr http://www.cs.vsb.cz/arg • Implementace XML dotazovacího jazyka, např. XPath. • Implementace dotazování na částečnou shodu, např. books/book[title=‘*computer*’]. • Efektivní provádění úzkých rozsahových dotazů. • Komprese v datové struktuře. • Kombinace s přístupy indexování nestrukturovaných dokumentů. 10/11

  11. Reference • M. Krátký, J. Pokorný, T. Skopal, V. Snášel: The Geometric Framework for Exact and Similarity Querying XML data. In Proceedings of EurAsia-ICT 2002. Shiraz, Iran, Springer Verlag, LNCS2510. • M. Krátký, T. Skopal, and V. Snášel: Multidimensional Term Indexing for Efficient Processing of Complex Queries. Kybernetika, Journal of the Academy of Sciences of the Czech Republic, 2003, accepted. 11/11

More Related