XML et les BD

1. XML et les BD 1. Introduction 2. Mod�le de donn�es 3. Langage de requ�tes 4. Produits 5. Conclusion Indexation et Optimisation

2. �GG 2 1. Introduction G�n�rations de BD R�seau et hi�rarchique 70 - 80 Relationnel 80 - 90 Objet-Relationnel 90 - � Web et BD un rendez-vous manqu� couplage faible par serveur d'applications le Web est une vaste BD distribu�e la structuration est faible plut�t orient� documentaire ...

3. �GG 3 XML s'impose Int�gration des donn�es et m�ta-donn�es Standard d��change de donn�es universel Les BD ne peuvent rester indiff�rentes : n�cessit� de stocker les documents XML n�cessit� de pouvoir interroger ces documents �volution ou r�volution ? Quel mod�le de donn�es ? Quel langage d'interrogation ? Quelle int�gration avec l'existant ?

4. �GG 4 Limites de SQL Mauvais support de l'imbrication GROUP BY limit�s G�n�ralement dans les �diteurs de rapports SQL3 trop complexe Requ�tes imbriqu�es difficiles M�thodes en qualification co�teuse R�f�rences pas tr�s claires Peu adapt� � XML Vision tabulaire Manipulation par des fonctions (SQL/XML) SQL � 30 ans ! Invent� en 1970 pour la gestion XQuery le successeur ?

5. �GG 5 Exemple de documents <?xml version="1.0"?> <Restaurants region="Normandie" version="2.0"> <Restaurant type="francais" categorie="***"> <Nom>Le Grand H�tel</ Nom> <Adresse> <Rue>Promenade M. Proust </Rue> <Ville>Cabourg</Ville> </Adresse> <Manager>Dupont</Manager> <Menu>Plat du jour</Menu> </Restaurant> <Restaurant type="francais" categorie="**"> <Nom>L'Absinthe</Nom> <Adresse> <No>10</No> <Rue>quai Quarantaine </Rue> <Ville>Honfleur</Ville> </Adresse> <T�l�phone>0231893900 </T�l�phone> <Manager>Dupont</Manager> <Manager>Durand</Manager> <Menu Prix="12"> Fruits de Mer </Menu> </Restaurant> </Restaurants>

6. �GG 6 2. Mod�le de donn�es Sch�mas flexibles et irr�guliers Optionnels, avec ou sans DTD Donn�es auto-descriptives Balises et attributs Mod�le de type hypertexte Support des r�f�rences �l�ments atomiques ou complexes Composition par agr�gation Types de donn�es vari�s et extensibles Textes, num�riques, �, types utilisateur

7. �GG 7 Le mod�le de donn�es XQuery Data Model Mod�le des sch�mas et de XPath 2 Un document est un arbre � n�ud �tiquet� Chaque n�ud poss�de une identit� Exprim� en XML, souvent repr�sent� graphiquement Une for�t est une collection de documents de m�me sch�ma Une source de donn�es est soit un document, soit une for�t

8. �GG 8 Diagramme XML Spy

9. �GG 9 Et les documents sans sch�ma ? Possibilit� de stocker des documents sans sch�ma Le SGBD g�n�re un sch�ma (arbre couvrant sans feuilles) Maintenu lors des mises � jour (compteur d'utilit�) Sch�ma de base pour l'interrogation Facilite la conception D�gager des collections de documents apparent�s Le SGBD con�oit pour vous ! Solution For�t ferm�e versus for�t ouverte Construction et gestion dynamique des sch�mas Notion de "document guide" ou DTD g�n�ralis�e Sch�ma faible avec typage string Possibilit� d�inf�rer des types � partir des valeurs

10. �GG 10 Bilan Mod�le de donn�es Un standard riche sch�mas standardis�s depuis 3 mai 2001 Repr�sentation graphique ad-hoc G�n�ration automatique en cas d'absence Faut-il un autre mod�le que les sch�mas ? Doit couvrir les sch�mas Doit couvrir les DTD Doit couvrir l'absence de sch�ma et DTD Syntaxe plus simple

11. �GG 11 3. Langage de requ�tes

12. �GG 12 Qu�est ce que XQuery ? XQuery est le langage de requ�tes pour XML d�fini et standardis� par le W3C XQuery s�impose comme le langage de requ�tes: Pour les bases de donn�es XML natives Pour les documents XML textuels (XQuery Text) Pour l�int�gration de donn�es (bases de donn�es virtuelles) Le besoin d�interroger les bases relationnelles en XQuery existe Pour l�int�gration et la publication de donn�es Comp�tition avec les extensions de SQL (SQL/XML)

13. �GG 13 Objectifs

14. �GG 14 La base Propos� par IBM , MS, AT&T, Data Direct, ... Langage fonctionnel type CAML Forme de requ�te �l�mentaire FOR $<var> in <forest> [, $<var> in <forest>]+ //it�ration LET $<var> := <subtree> // assignation WHERE <condition> // �lagage RETURN <result> // construction Les for�ts sont s�lectionn�es par des Xpath (document ou collection) Le r�sultat est une for�t (un ou plusieurs arbres)

15. �GG 15 Exemple 1 : XPath (Q1) Noms de tous les restaurants : collection(�Restaurants�)/Restaurant/Nom/text() collection(�Restaurants�)/Restaurant/Nom

16. �GG 16 Exemple 2 et 3 : XPath + Expression r�guli�re Menu de tous les restaurants collection(�Restaurants�)//Menu Acc�s via indice � attribut Donnez le nom des menus du premier restaurant collection(�Restaurants�)/Restaurant[1]/Menu/@Prix

17. �GG 17 Exemple 4 : S�lection Lister le nom des restaurants de Cabourg: collection(�Restaurants�)/Restaurant [Adresse/Ville=��Cabourg"] /Nom <resultat> {for $R in collection("Restaurants")/Restaurant where $R/Adresse/Ville = �Cabourg� return {$R/Nom}} </resultat>

18. �GG 18 Exemple 5 : Jointure Lister le nom des Restaurants avec t�l�phone dans la rue de l'H�tel Lutecia: for $R in collection("Restaurants")/Restaurant, $H in collection("Hotels")/Hotel where $H//Rue = $R//Rue and $H//Nom = "Le Lutecia" return <Result> {$R/Nom} {$R/T�l�phone} </Result>

19. �GG 19 Exemple 6 : Restructuration d'arbre Construire une liste de restaurants par Ville for $c in distinct(collection(�Restaurants�)/Restaurant//Ville) return <Ville>{$c}</Ville> <Restaurants> {for $r in collection(�Restaurants�)/Restaurant where $r//Ville = $c return {$r}} <Restaurants>

20. �GG 20 Exemple 7 : Imbrication en Where Adresses des hotels dans des villes ayant des restaurants trois �toiles for $h in collection(�Hotels�)/Hotel where $h/Adresse/Ville in for $r in collection(�Restaurants�)/Restaurant where $r/@categorie = "***" return {$r/Adresse/Ville/text()} return {$h/Adresse}

21. �GG 21 Syntaxe Simplifi�e (XLive) // R�duite � FWR XQuery ::= ForClause [WhereClause] ReturnClause ForClause ::= �for� VarDef [,VarDef] � VarDef ::= �$�VarName �in� �collection��(� QuotedText �)�/XPath WhereClause ::= �where� CplexCond CplexCond ::= Cond | Cond AND CplexCond | Cond OR Cplex CondCond ::= Expr Op Constant | Expr Op Expr | �contains(� Expr , Text �)� Op ::= �=� | �!=� | �<� | �<=� | �>� | �>=� Expr ::= �$�VarName/XPath ReturnClause ::= �return� XMLElement* XMLElement ::= �<�tag�>�XMLElement�</�tag�>�| �{� XPath�}�*| �{� XQuery�}�* VarName ::= Any variable nameTag ::= XML label QuotedText ::= Any text between quotes " �� Constant ::= Quoted text or number XPath ::= XPath expression restricted to child and descendant directions

22. �GG 22 Exemple 8 : Agr�gat simple Combien de restaurants y-a-t-il en collection ? let $R := collection(�Restaurants�)/Restaurant return <NombreRestaurant > {count ($R)} </NombreRestaurant>

23. �GG 23 Exemple 9 : Agr�gat partitionn� Lister le nom de chaque restaurant avec le prix moyens des menus propos�s for $r in collection(�Restaurants�)//Restaurant let $a := collection(�Restaurants�)// [Restaurant = $r]//Menu/@Prix return <resultat> {$r/Nom} <avgPrix>{AVG($a)}</avgPrix> </resultat>

24. �GG 24 Exemple 10 : recherche textuelle Lister les bons restaurants de Paris for $r in collection(�Restaurants�)//Restaurant where (contains ($r/Comments, �Bon�) or contains ($r/Comments, �Excellent�)) and $r/Adresse/Ville = �Paris� return {$r/Nom}

25. �GG 25 Exemple 11 : Ordre et d�sordre Lister les bons restaurants de Paris par ordre alphab�tique for $r in unordered(collection(�Restaurants�)//Restaurant) where (contains($r/Comments, "Excellent�) or contains($r/Comments, "Good�)) and $r/Adresse/Ville = �Paris� return {$r/Nom} orderby ($r/Nom descending)

26. �GG 26 Exemple 12 : Multi-requ�tes Construire un document avec en-t�te, titre, liste restaurants peu chers, titre, liste restaurants chers� <XML_document> <Very_Expensive_Restaurants> <Title>List of very expensive restaurants</Title> {for $r in collection("Restaurants�)//Restaurant where every $p in $r/Menu/@Prix satisfies ($p>100) return {$r}} </Very_Expensive_Restaurants> <Very_Inexpensive_Restaurants> <Title>List of very inexpensive restaurants</Title> {for $r in collection(�Restaurants�)//Restaurant where some $p in $r/Menu/@Prix satisfies ($p<10) return {$r}} <Date>{date()}</Date> </Very_Inexpensive_Restaurants> </XML_document>

27. �GG 27 Exemple 13 : String Trouver les livres dans lequel le nom d'un �l�ment se termine par "or" et le m�me �l�ment contient la cha�ne "Suciu" quelque part. Pour chaque tel livre, retourner le titre et l'�l�ment qualifiant. for $b in document("document")//book let $e := $b/*[contains(string(.), "Suciu") and ends-with(local-name(.), "or")] where exists($e) return <book> { $b/title } { $e } </book>

28. �GG 28 Fonctionnalit�s XQuery Text Recherche sur mot-cl�s Recherche de phrase Support des mots de laiaison Recherche sur pr�fix, suffix, infix Normalisation des mots, accents, capitales, � Recherche par proximit� (unit� = mots) Sp�cification de l'ordre des mots Combinaison logic avec AND, OR , NOT Recherche par similarit� Tri des r�sultats par pertinence

29. �GG 29 Bilan XQuery V�ritable langage de programmation Tr�s puissant S�lection Jointure Imbrication Restructuration Agr�gation Tri Plein texte � Sur des for�ts dont les arbres sont des documents Questions ?

30. �GG 30 4. Aper�u des produits Syst�mes natifs Technique sp�cialis�e de stockage et recherche Extension des techniques documentaires � l'�l�ment SGBD relationnels �tendus S�paration des �l�ments et du graphe Mapping en tables SGBD objet adapt� Utilisation d'une structuration objet (DOM) Un produit : Excelon (Object Store) Racheter par Progress Software

31. �GG 31 4.1 SGBD Natif XML SGBD con�u pour XML, stockant les documents en entiers sans les d�composer en �l�ments, utilisant de techniques d'indexation d'arbres sp�cifiques.

32. �GG 32 Indexation Plein Texte Utilisation d'un th�saurus au chargement ensemble de termes reli�s liste des mots importants synonymes et pr�f�r�s sp�cialisations, traductions Standards ISO 2788 et ANSI Z39.19 St�misation (racine) ou l�misation (pr�f�r�) Listes inverses fichiers de mots significatifs pour chaque mot, adresse document (�l�ment+offset)

33. �GG 33 Principaux produits De multiples start-up Software A.G. Tamino http://www.softwareag.com/ X-Hive/Db http://www.x-hive.com/ Coherity http://www.coherity.com/ IXIA soft http://www.ixiasoft.com/ XML Global http://www.xmlglobal.com/ NeoCore http://www.neocore.com/ Xyleme http://www.xyleme.com/ Exist http://exist.sourceforge.net/ Int�gration comme type sp�cialis� � SGBD OR DB2 XML Extender, Oracle XML DB, SQL Server 2005

34. �GG 34 Xyleme Entrep�t XML efficace Architecture distribu�e Cluster de PCs Communication avec Corba D�velopp� sur Linux en C++ Support du langage de requ�tes XyQL OQL �tendu avec des expressions de chemins Recherche plein texte en �l�ments efficace

35. �GG 35 Xyleme Functionnalities

36. �GG 36 Xyleme: Natix Repository Objectifs Minimiser les I/O pour acc�s directe et balayage Acc�s direct efficace via index et identifiant Compression des donn�es sans p�naliser les acc�s Stockage efficace d�arbre Pages de taille fixe classique Enregistrements de taille variable � l�int�rieur Equilibrage des arbres par �clatement de pages

37. �GG 37 Xyleme: Architecture Physique

38. �GG 38 Xyleme: Exemple de Requ�tes Extension de OQL avec XPath Orientation recherche textuelle Select boss/Name, boss/Phone From comp in BusinessDomain, boss in comp//Manager Where comp/Product contains �Xyleme�

39. �GG 39 Xyleme Indexation Liste invers�e standard mot ? documents contenant ce mot Index Xyleme mot ? �l�ments contenant ce mot (document + �l�ment identifier) La plupart des requ�tes sur mots-cl�s sont trait�es en index, sans acc�s aux documents Possibilit� d�enrichir la requ�te via un th�saurus avant la recherche en index

40. �GG 40 4.2 Mapping SGBDR Composant logiciel au-dessus d'un SGBDR assurant: le stockage et l'interrogation de documents XML en transformant le XML en tables et les tables en XML

41. �GG 41 Exemple de Mapping

42. �GG 42 SQL/XML Int�gration de fonctionnalit�s XQuery � SQL Support � la SQL3 Type de donn�e natif XML Type (colonnes XML) Fonctions d�extraction XPath Fonctions de construction de XML (pont relationnel) Insertion et Maj de XML en colonne(s) Exemple de requ�te SELECT XMLElement("Emp", XMLForest ( e.hire, e.dept AS "department") )AS "result� FROM EMPLOYEE e WHERE ExtractValue(e.XMLemp, /emp/@id) > 200; Int�gr� � Oracle et DB2

43. �GG 43 Fonctions SQL/XML

44. �GG 44 Oracle XML/DB Stockage et publication Mapping de XML plat sur une table Mapping de XML imbriqu� en tables imbriqu�es Stockage de XML en colonne (XML Type) Commandes PutXml et GetXml Interrogation Support de SQL/XML Servlet XSQL document XML avec requ�tes SQL/XML transformation du r�sultat des requ�tes en XML

45. �GG 45 Microsoft: SQL Server 2005 Stockage de XML Stockage natif comme "XMLtype" Mapping de XML en tables d�fini par assistants ex�cut� par proc�dures stock�es Stockage en Large OBject varchar et varbinary Interrogation en XML XQuery et XML DML Propos� pour interroger et mettre � jour les donn�es XML Possibilit� de d�finir des vues XML et de les interroger SELECT � FOR XML Retourne du XML � partir de requ�tes SQL et permet de d�finir le format du XML retourn� OpenXML Manipulation de documents XML comme des tables avec des proc�dures stock�es

46. �GG 46 XQuare Bridge (Open Source) Extraction XML via XQuery traduite en SQL Stockage XML en base Mapping via schema Acc�l�rateur XTree (Repository) Portable Oracle, SQLServer, PostGres, � Version industrielle www.datadirect.com

47. �GG 47 Natif versus XORDBMS Points forts XOR pas de nouveau SGBD possibilit� de normaliser les donn�es possibilit� de stocker comme valeur d�attribut une certaine portabilit� multi-SGBD performance pour acc�s grain fin Points forts Natif un nouveau SGBD fait pour XML jamais de mapping � d�finir et maintenir int�grit� du document recherche plein texte performance pour acc�s gros grain

48. �GG 48 5. Conclusion XML peut-il changer les bases de donn�es ? Recherche en BD semi-structur�es Besoin de sch�mas faibles (XML Sch�ma) Langage de requ�tes standardis� (XQuery) L'effet du Web ... Int�gration douce � l'Objet/relationnel Transformation en tables Gestion du graphe Support des textes libres niveau �l�ment

49. �GG 49 R�sum� XML fournit un cadre uniforme pour : �changer des donn�es structur�es (DTD, sch�ma) �changer des donn�es semi-structur�es (graphes) interroger des documents (XQuery) int�grer des sources de donn�es h�t�rog�nes (table, multim�dia) Beaucoup de travaux sont en cours Gestion efficace au sein d'Oracle, de DB2, etc. Construction de middlewares pull/push fond�s sur XQuery Construction de SGBD pur XML (Xyl�me, etc.)

50. Techniques d�Indexation XML Objectifs Dataguide et Variation Index Fabric Adaptative Path Index Node Numbering scheme Compact Structural Summary Conclusion

51. �GG 51 Requirements XML Queries involve navigating data using regular path expressions.(e.g., XPath) /Livre//Auteur[@specialite="informatique"]) Accessing all elements with same name string. Ancestor-descendant relationship between elements. Content based access on values included in text.

52. �GG 52 Index Types Structural index Accessing all elements of given name Ancestor-descendant and parent-child relationship between elements Content index Accessing elements containing given keywords Supporting most text search functionalities

53. �GG 53 Classical Content Index Classically based on inverted lists For each term, gives the doc.ID + localization Several variations allows different search types Offset, Relative, Proximity Generally stored in a B+-Tree to optimize search for a given word Size is an important issue Memory and Disk (word, localization) Fixed entry (word repeated) (word, Frequency, (localization)*) Variable length entry

54. �GG 54 Problem with XML Support of element addressing Doc.ID should include NodeId (Xpath) + Offset Index size becomes very large XPath are long Support of typed data Integer, float, simple types of XML schema Requires classical indexes for certain elements Query processing Structural joins Text search Exact search Support of updates Incremental updates would be a plus

55. �GG 55 Evaluation Criteria Identifiers Per node or per document Descendant/Ancestor Search By join algo. By graph traversal By OID comparison Keyword Search By element scan By B-tree traversal Update Incremental Index size Entry number Entry size

56. �GG 56 2-Dataguide and Variation Goldman & Widom VLDB97 Dynamic schemas helps in query formulation Concise and accurate structural summaries Every path in the database has one and only one corresponding path in the DataGuide with the same sequence of labels A legal label path: Restaurant/Name Target set for e=Restaurant/Entree is Ts(e) = {6,10,11}. DocId can be added to identifiers

57. �GG 57 Dataguide Principle To achieve conciseness a DataGuide describes every unique label path of a source exactly once. To ensure accuracy a DataGuide encodes no label path that does not appear in the source. And for convenience a DataGuide itself be an object (OEM or XML).

58. �GG 58 Dataguide Evaluation Identifier One per node Descendant/Ancestor Search By graph traversal Keyword Search By element scan Update Insertion is incremental Deletion is complex Index size Entry number : Linear for tree; can be exponential in number of DB nodes Entry size : number of elements for a path

59. �GG 59 T-Index [Milo & Suciu, LNCS 1997] T-index stands for Template-index A path template t has the form T1 x1 T2 x2 � Tn xn where each Ti is either a regular path expression or one of the following two place holders P (any Path) and F (any Formula) //restaurant/ x P y /Address/City z F u A query path q is obtained from t by instantiating: P by any path ; F by any formula

60. �GG 60 Principle T-index indexes all sequences of objects connected by a sequence of path expressions defined by a template. Particular cases : 1-index indexes = template any path P Indexes all objects reachable through an arbitrary path expression P from a root: two nodes are equivalent (same entry) if the set of paths into them from the root is the same. 1-index is a non-deterministic version of the strong data guide 2-index indexes = template P x P all pairs of objects connected by an arbitrary path expression P

61. �GG 61 Building a T-index Group objects into equivalence classes containing objects that are indistinguishable w.r.t to a class of paths defined by a path template Finer equivallence classes are more efficient to construct using bi-simulation Construct a non deterministic automaton states represent the equivalence classes transitions correspond to edges between objects in those classes. T-index can be used to answer queries of more general forms than the template

62. �GG 62 3-Adaptative Path Index (APEX) Adaptative Path Index for XML [Chung et.al. SIGMOD 2002] Summarize paths that appear frequently in query workload Maintain all paths of length 1 Efficient for partial match paths Incremental update of index

63. �GG 63 APEX details Each node has an identifier (nid) Required paths for indexing ({label}+some composed paths) APEX = Graph (structural summary) + hash tree (incoming required paths to nodes of Graph) Hash tree is used to find nodes of graph for given label path, also for incremental update Determine frequently used path from query workload using sequential pattern mining

64. �GG 64 APEX Example

65. �GG 65 APEX Evaluation Identifiers One per node Descendant/Ancestor Search Hash tree access if required or graph traversal or join Keyword Search Not supported Update Insertion is incremental Index size (two structures) Entry number : Linear in number of nodes Entry size : number of elements for a path

66. �GG 66 4-Index Fabric [Cooper et al. .A Fast Index for Semistructured Data.. VLDB, 2001] Extension of dataguide for text search Keeps all label paths starting from the root Encode each label path with data value as a string Use efficient index for strings to store it (Patricia trie) Perform queries on keywords for elements as string search Does not keep information on non-terminal nodes

67. �GG 67 Patricia Tri� Tri� : Key ? Value A Patricia trie is a simple form of compressed trie which merges single child nodes with their parents More efficient for long keys (non-common postfix in one node)

68. �GG 68 Exemple Doc 1:<invoice> <buyer> <name>ABC Corp</name> <address>1 Industrial Way</address> </buyer> <seller> <name>Acme Inc</name> <address>2 Acme Rd.</address> </seller> <item count=3>saw</item> <item count=2>drill</item> </invoice> Doc 2: <invoice> <buyer> <name>Oracle Inc</name> <phone>555-1212</phone> </buyer> <seller> <name>IBM Corp</name> </seller> <item> <count>4</count> <name>nail</name> </item> </invoice>

69. �GG 69 Patricia Trie

70. �GG 70 Search on Paths Example of queries: /invoice/buyer/name/[ABC Corp] /invoice/buyer//[ABC Corp] A key lookup operator search for the path key corresponding to the path expression. If path expands to infinite number of tags start by using a prefix key lookup operator, then navigate through children to check the rest

71. �GG 71 Fabric Evaluation Identifiers One per document Descendant/Ancestor Search As string search; do not keep order of elements Keyword Search By Patricia trie leaves if expanded; value index otherwise Update Insertion is incremental Deletion is complex Index size (index stored with document) Entry number : Linear for tree Entry size : number of elements for a path

72. �GG 72 5-Node Numbering Scheme Used for indexing elements Node Identifier (NID) ? element The NID aims at replacing structural joins by simple function computation: check parent & ancestor relationships is_parent(NID1,NID2), is_ancestor(NID1,NID2) determine parent & children get_parent(NID1), get_children(NID1)

73. �GG 73 Virtual nodes (1) [Lee & Yoo Digital Libraries 99] Document structure mapped on a k-ary tree Node identifier assigned according to the level-order tree traversal parent(i) = (i-2)/k + 1 child(i,j) = k(i-1) + j + 1

74. �GG 74 Virtual nodes (2) NID can be used to address elements in index of elements Only certain nodes (e.g., leaves) have to be indexed as parent nodes can be determined by computation Problems: arity of tree � may be variable and large determination of real existence of parent/child update when arity increases ?

75. �GG 75 XML trees node pre/post numbering [Dietz82] Identification of nodes Identifier = preorder rank||postorder rank X ancestor of Y <=> pre(X) < pre(Y) and post(X) > post(Y) Example 1<5 and 7>3 => (1,7) ancestor (5,3)

76. �GG 76 Interval encoding [Li&Moon VLDB 2001] Identify each node by a pair of numbers <order, size> as follows: For a tree node y of parent x: order(x) < order(y) order(y)+size(y) =< order(x) + size(x) For two sibling nodes x and y, if x is the predecessor of y in preorder traversal then order(x) + size(x) < order(y)

77. �GG 77 Relative Region Coordinates (1) [Kha & Yoshikawa IEEE Data Engin. 2001] A RRC of a node n of an XML tree is a pair [sp-sn,sp-en] of addresses in the region of parent, i.e., relative to parent start

78. �GG 78 Relative Region Coordinates (2) Absolute region coordinate (ARC) Relative to root begin (from byte Nth to Mth) Allow to extract the XML data Can be derived from RRCs of parents and self: Begin = ?(parents?self)s �(k-1) End = ?(parents)s +e(self)�(k-1) Advantages Updates are kept local to a region To access parent-child efficiently A B-tree like structure is maintained (� la Natix).

79. �GG 79 Xyleme Generate a form of dataguide per cluster Generalized DTD Manage a label and value index (full index) Keep document ID and element ID Two forms of element ID: Bit structured scheme: structure position Prefix-postfix scheme: left-deep traversal Stores XML DOM trees in pages NATIX (Mannheim Univ.) technology

80. �GG 80 Xyleme

81. �GG 81 6-Compact Structural Summary [Bremer & Gertz Tech Report 2003] Compact addressing of words in XML doc. Encode XPath as reference to a path in a document guide (path set, DTD or schema)

82. �GG 82 Managing a Compact Index Na�ve XML Indexing (Word,docId,(XPath)*) Example book/chapter[2]/resume/section[3] article/author/name Difficulties: Index size ! Processing time ! Intersection of lists Problem: How to memorize the location of a word inside an element ? Solution [Bremer & Gertz 02] Encode the XPath as a reference to a path in a document guide (path sequence or schema)

83. �GG 83 XPath Encoding XPath encoded as a path ID (PID) of structure (N,(p1,p2, ...) N being a node identifier in the guide (p1, p2, ...) being indices for repetitive ancestors from root to N

84. �GG 84 PID Ordering and Encoding PID order : IV,(1))<(V,(1,2)) <(V,(1,3)). Pre-order relationship X Parent Y ? PID(X) < PID(Y) Compact PID encoding Path number Integer (short) Repetitive node log2(n) bits Compact PID Encoding : (V, (1, 3)) /db/article[1]/text/sect[3] Les PID sont ordonn�s. Ainsi le PID repr�sent� par (4,(1,2)) < (5,(1,2)). En terme de XPath on remarque facilement que les n�uds repr�sent� par 5 sont obligatoirement contenus dans des n�uds 4. Cela permet d��viter de stocker trop d�emplacement pour un terme : si un terme est contenu dans un n�ud 5 alors on sait qu�il sera contenu dans ses n�uds pr�c�dents. Cela permet d�acc�l�rer les recherches pour les positions d�un terme. De plus cela permet de calculer la fr�quence d�un terme en recherchant toutes les fr�quences des n�uds fils. Le Document Guide est cr��e en premier puis les PID sont encod�. Il faut rep�rer pour chaque �l�ment le nombre de bit n�cessaire pour encoder le num�ro de path (2 bits pour un �l�ment qui n�a jamais plus de 3 fils, etc...). N�ud du DG : log(n) bits, ou �n� repr�sente le nombre de n�uds du DG. BUT : �viter la redondance de stockage d�un terme. Les PID sont ordonn�s. Ainsi le PID repr�sent� par (4,(1,2)) < (5,(1,2)). En terme de XPath on remarque facilement que les n�uds repr�sent� par 5 sont obligatoirement contenus dans des n�uds 4. Cela permet d��viter de stocker trop d�emplacement pour un terme : si un terme est contenu dans un n�ud 5 alors on sait qu�il sera contenu dans ses n�uds pr�c�dents. Cela permet d�acc�l�rer les recherches pour les positions d�un terme. De plus cela permet de calculer la fr�quence d�un terme en recherchant toutes les fr�quences des n�uds fils. Le Document Guide est cr��e en premier puis les PID sont encod�. Il faut rep�rer pour chaque �l�ment le nombre de bit n�cessaire pour encoder le num�ro de path (2 bits pour un �l�ment qui n�a jamais plus de 3 fils, etc...). N�ud du DG : log(n) bits, ou �n� repr�sente le nombre de n�uds du DG. BUT : �viter la redondance de stockage d�un terme.

85. �GG 85 Index Implementation Entry Word (stem) || Address Address is : PID || (offset in element)* Example City (V(1,3); (9, 36))

86. �GG 86 XQuery Text Evaluator Normalize the query through thesaurus Translation Synonyms Conceptualization Access to the text index Intersection, union, difference of PIDs Access to the relevant elements from PIDs Verification of relevance

87. �GG 87 7-Conclusion Various indexing techniques for XML Main dimensions of variations Structural summary Dataguide, Schema guide, Generalized DTD Identification of nodes (NID) Should keep parent-child relationship Should be stable to updates Index of keywords Should be compact Should give NID and offset of instances

88. �GG 88 Classification

89. �GG 89 Index for XQuery Text Facilitate the retrieval of: Non stop words Suffixes, prefixes Location of words in elements Relevant nodes for a search Entries should focus on elements Word [(docId, NID)*]

90. Impl�mentation XQuery Introduction Alg�bre XML G�n�ration des plans

91. �GG 91 1. Introduction Des techniques en �volution Beaucoup de recherche sur XML DB Extension des techniques relationnelles Alg�bre XML R��criture de requ�tes en arbre alg�brique Transformation et optimisation des arbres Prise en compte des index de structure et contenu

92. �GG 92 Techniques de base

93. �GG 93 2. Alg�bres pour XML De multiples alg�bres Jagadish H.V., Lakshmanan L.V.S., Srivastava D., Thompson K. TAX: A Tree Algebra for XML, Proc. DBPL Conf., Roma Italy, 2001. Fernandez M., Simeon J., Wadler P.. An Algebra for XML Query, In Foundations of Software Technology and Theoretical Computer Science, New Delhi, 2000. Zaniolo C. The Representation and Deductive Retrieval of Complex Objects, Proc 11th VLDB, Stockholm, 1985. Galanis L., Viglas E., DeWitt D.J., Naughton J.F., Maier D. Following the Paths of XML: an Algebraic Framework for XML Query Evaluation, 2001 Tuyet-Tram Dang-Ngoc and Georges Gardarin Federating heterogeneous data sources with xml, IKS 2003

94. �GG 94 XAlg�bre Propos�e et impl�ment�e pour un m�diateur XMLMedia, XQuark XLive Besoin d�une alg�bre adapt�e � XQuery XTuples, repr�sentation de donn�es semi-structur�es XOp�rateurs, une extension des op�rateurs relationnels, manipulant les XTuples. Pourquoi une alg�bre adapt�e a XQuery ? Cette alg�bre permet la cr�ation d�un plan d�ex�cution sp�cifique � XQuery. Nous avons �tendu l�alg�bre relationnelle en l�adaptant � XQuery. Il fallait donc d�finir une repr�sentation pour les donn�es semi-structur�es, et �tendre les op�rateurs du relationnel pour la manipulation d�une telle structure de tuples.Pourquoi une alg�bre adapt�e a XQuery ? Cette alg�bre permet la cr�ation d�un plan d�ex�cution sp�cifique � XQuery. Nous avons �tendu l�alg�bre relationnelle en l�adaptant � XQuery. Il fallait donc d�finir une repr�sentation pour les donn�es semi-structur�es, et �tendre les op�rateurs du relationnel pour la manipulation d�une telle structure de tuples.

95. �GG 95 XTuples Pourquoi ce besoin de nouvelle repr�sentation? Valeurs nulles Attributs multivalu�s Extensions N�cessit� d�une repr�sentation adapt�e aux donn�es semi-structur�es. Motivations d�une telle repr�sentation : 1) La repr�sentation classique occupe une place m�moire pour chaque champ, notamment pour les champs NULL, ce qui donne lieu � une perte de place. 2) Les attributs multivalu�s sont difficilement manipulable au sein d�une structure sp�cifique. 3) Les sch�ma sont totalement fig�s, on ne peut rajouter un champ pour un tuple seul, il faut le rajouter pour tous les tuples (nouvelle perte de place) Ces inconv�nients am�nent � r�fl�chir � une nouvelle repr�sentation pour les tuples de donn�es semi-structur�e, plus facilement manipulables, respectant notamment la structure arborescente des donn�es XML.Motivations d�une telle repr�sentation : 1) La repr�sentation classique occupe une place m�moire pour chaque champ, notamment pour les champs NULL, ce qui donne lieu � une perte de place. 2) Les attributs multivalu�s sont difficilement manipulable au sein d�une structure sp�cifique. 3) Les sch�ma sont totalement fig�s, on ne peut rajouter un champ pour un tuple seul, il faut le rajouter pour tous les tuples (nouvelle perte de place) Ces inconv�nients am�nent � r�fl�chir � une nouvelle repr�sentation pour les tuples de donn�es semi-structur�e, plus facilement manipulables, respectant notamment la structure arborescente des donn�es XML.

96. �GG 96 XTuples : repr�sentation Un XTuple est compos� de un ensemble d�arbre A un ensemble de r�f�rences R sur les n�uds des arbres A. Ces r�f�rences sont appel�es XAttributs. Les op�rations relationnelles se font sur R. Les parcours et recomposition se font sur A. Un ensemble de XTuples du m�me type forment une XRelation La solution utilis�e conserve la structure en arbre des donn�es XML. Un XTuple est donc compos� d�une s�rie d�arbres et de r�f�rences sur les noeuds de ces arbres.La solution utilis�e conserve la structure en arbre des donn�es XML. Un XTuple est donc compos� d�une s�rie d�arbres et de r�f�rences sur les noeuds de ces arbres.

97. �GG 97 Les XOp�rateurs Op�rateurs �tendus du relationnel adapt� aux donn�es semi-structur�es. Ils op�rent sur les XRelations (compos�es de XTuples)

98. �GG 98 Construction et Projection XSource construction XAttribut construction for�t ordre de la source non-bloquant XProjection destruction de colonnes destruction de (sous-) arbres ordre pr�serv� non-bloquant

99. �GG 99 Filtrage XRestriction destruction de lignes compl�tes ordre pr�serv� non bloquant

100. �GG 100 Union XUnion ordre pr�serv� en mode bloquant, non pr�serv� sinon bloquant ou non suivant param�trage

101. �GG 101 Jointure XJointure Jointure des tables et juxtaposition d'arbres ordre pr�serv� en mode bloquant, non pr�serv� sinon bloquant ou non suivant param�trage XFusion Concat�nation d'arbres

102. �GG 102 Alg�bre XML : Imbrication Op�rations d�imbrication n�cessaire pour calculer les �l�ments multi-valu�s Exemple : for $r in //restaurant Let $m := $r//menu Return ($r/name, $r/region, count($m)) Solution: introduire les op�rateurs Nest/Unest $r.Project(/name, /region, //menu) ?$r1 $r1.Nest(/name,/region, //menu*) En plus court et plus puissant: $r.Project((/name), /region, //menus*) Aussi utile pour les quantifiers (quel que soit = every)

103. �GG 103 Alg�bre XML: Valeurs nulles Nul en XML � deux aspects �l�ment vide <region /> El�ment absent XQuery recherche les pr�dicats vrai (non nuls) El�ment en condition obligatoire XQuery permet les �l�ments vides en r�sultat Correspond � une valeur optionnelle Doit �tre pris en compte par l�alg�bre Les restrictions peuvent �liminer les nuls Les jointures sont des (left/right) outer join si le r�sultat n�est pas soumis � condition

104. �GG 104 Annotation des attributs Les attributs des XRelations sont associ�s � un XPath $r/nom, $r/region, $r/offer/menus/menu Chaque attribut peut �tre annot� style DTD A0 = optional, A1 = mandatory A* = nested optional, A+ = nested mandatory Les attributes peuvent �tre la base d�un groupe d�imbrication (A, B) Exemple ($r/nom1),$r/region0, $r/offer/menus/menu*

105. �GG 105 XAlgebra: Vue d�ensemble Datasource.XSource (Path seq, atomic XQuery) ? XRelation Transform a source in an XRelation of attributes Path sequence XRelation.XRestrict (unary Constraint) ?XRelation select Xtuples satisfying conditions on attribute values XRelation.XProject (Path seq) ?XRelation Remove attributes that are not in path sequence XRelation.XJoin (XRelation, binary Constraint) ? XRelation join of two XRelations on attribute values XRelation.XFusion (Path seq) ? XRelation Remove attributes and merge each XTuple trees in one of given schema XRelation.XReconstruct (Path seq) ? XML Extract XML documents of given schema from the XRelation

106. �GG 106 Impl�mentation des algorithmes XS�lection Par acc�s � index Int�r�t d'indexer tous les mots Intersection et union des adresses selon crit�res Filtrage final pour v�rifier XJointure Par acc�s aux index Par produit cart�sien Par tri-fusion Par hachage Int�r�t du pipline

107. �GG 107 3. Techniques de Transformation Notion de mod�le d�arbre (Tree Pattern) Jagadish VLDB 2002 Principe des mod�les d�arbres g�n�ralis�s (GTP) Utilisation des GTP pour XQuery Optimisation & performances

108. �GG 108 TPQ (Tree Pattern Query) TPQ = arbre mod�lisant une requ�te. Il est destin� � �tre ��mapp頻 sur l�arborescence du document XML cible

109. �GG 109 GTP (Generalized Tree Pattern) Le GTP ajoute au TPQ des arcs en pointill�s symbolisant des relations optionnelles GTP: G = (T,F) T: arbre F:formule Chaque n�ud de l�arbre T est labellis� par une variable et poss�de un num�ro de groupe. F est une formule bool�enne exprimant les pr�dicats applicables aux n�uds. Un ensemble de n�uds forment un groupe s�ils sont reli�s entre eux par des liens non optionnels.

110. �GG 110 GTP - Exemple

111. �GG 111 Pattern Match Un ��Pattern Match�� de l�arbre G dans une collection d�arbres C est un sous-arbre h partiel h: G ? C tel que: h contient au moins le groupe 0 de G. h pr�serve la structure relationnel de G. h v�rifie la formule bool�enne F de G.

112. �GG 112 Pattern match : Exemple

113. �GG 113 GTP Universel Il permet de mod�liser les requ�tes contenant le quantificateur ��EVERY�� dans la clause ��WHERE�� Un GTP universel est un GTP G=(T, F) tel que plusieurs arcs soient �tiquet�s �EVERY� Un arc peut �tre �tiquet� �EVERY� seulement s�il pointe sur un n�ud atteignable par des arcs non optionnels depuis le n�ud racine

114. �GG 114 GTP Universel : Exemple

115. �GG 115 GTP Requ�te imbriqu�e

116. �GG 116 GTP Requ�te imbriqu�e (2)

117. �GG 117 Transformation XQuery en GTP XQuery : �FLWR� Une expression FLWR : ForClause ::= FOR $fv1 IN E1, � , $fvn IN En. (LetClause ::= LET $lv1 := E1, � , $lvn := En.) WhereClause ::= WHERE (E1, � , En). ReturnClause ::= RETURN {E1} � {En}. Ei ::= FLWR (Requ�tes imbriqu�es) | XPATH.

118. �GG 118 Algorithme de transformation Il prend en entr�e une expression FLWR et renvoie un GTP Il parse au fur et � mesure la requ�te XQuery en utilisant la r�cursivit� afin de g�rer les expressions FLWR imbriqu�es dans une clause �FOR� par exemple Le parsing d�une expression Xpath entra�ne la cr�ation d�un nouveau n�ud dans le GTP r�sultat

119. �GG 119 4. Plan d��valuation La principale motivation derri�re les GTP est de fournir une base pour une ex�cution efficace. Pour cela: Supprimer les correspondances r�p�t�es pour des TPQ similaires. Retarder la mat�rialisation des n�uds autant que possible.

120. �GG 120 Alg�bre physique Index Scan ISp(S) : Sort chaque n�ud satisfaisant le pr�dicat p en utilisant un index pour les arbres S d�entr�e. Filter Fp(S) : Sort seulement les arbres satisfaisant le pr�dicat p des arbres S. L�ordre est pr�serv�. Sort Sb(S) : Trie la s�quence d�entr�e des arbres S sur la base de tri b. Value Join Jp(S1,S2) : une comparaison des deux s�quences d'arbres d'entr�es, par le pr�dicat de jointure p. L'ordre de la s�quence de sortie est bas� sur l'ordre de s�quence d'entr�e gauche de S1.

121. �GG 121 Alg�bre physique (2) Structural Join SJr(S1, S2): Les s�quences d'arbres S1 et S2 doivent �tre tri�es en fonction du noeud id. L�op�rateur joins S1 et S2 bas�s sur la relation r entre eux (pc ou ad)pour chaque paire. La sortie est tri�e sur S1 ou S2 si besoin. Group By Gb(S) : l'entr�e S est tri�e sur le group by bas� sur le pr�dicat b. Merge M(S1,�,Sn) : Les Sj doivent avoir la m�me cardinalit� k. Pour chaque 1=i=k, joindre l'arbre i avec chaque entr�e sous une racine artificielle, et produire l'arbre. L'ordre est pr�serv�.

122. �GG 122 Traduire le GTP en plan physique Utilisation d'un algorithme sp�cifique pour g�n�rer le plan physique � partir du GTP Obtention d'un plan du type :

123. �GG 123 Optimisation gr�ce aux sch�mas Principe : les informations contenues dans le sch�ma XML (.xsd) vont permettrent d�optimiser les GTP et les plans d�ex�cution physique en r�sultant

124. �GG 124 �limination des n�uds ��internes�� a//b//c ? a//c

125. �GG 125 Deux n�ud pour le m�me �l�ment XML FOR $b IN �//book WHERE $b/title = �Germinal� RETURN <x> {$b/title} {$b/year} </x>

126. �GG 126 �liminer les n�uds inutiles FOR $a IN �./a[b] RETURN {$a/c}

127. �GG 127 Eliminer un �GROUP BY� du plan physique RETURN {$a/sous-element} Une clause �FOR� n�cessite un �GROUP BY� du r�sultat Mais si le sch�ma sp�cifie que le sous-�l�ment est unique alors ce �GROUP BY� devient inutile

128. �GG 128 Performances des GTP La m�thode d�ex�cution faisant appel aux GTP surpasse en rapidit� les m�thodes de parcours classique de l�arborescence pour l�ex�cution de tous les types de requ�tes Les auteurs ont effectu�s ces tests dans l�environement suivant : TIMBER native XML database, PIII 866MHz, Ms Windows 2000, index sur les principaux �l�ments

129. �GG 129 5. Conclusion Les GTP semblent �tre actuellement la m�thode la plus efficace pour XQuery Mode op�ratoire en 3 �tapes :

XML et les BD

XML et les BD

Presentation Transcript

BD ProbeTec™ ET System

Les climats et les biomes

Les Cnidaires et les Cténaires

XML et XML schéma : représentation des données dans les services Webs

Éléments d’éthique et de déontologie Réflexions sérieuses sur une BD Les applications

Couvertures de Magazines et la BD

Les textos et Les SMS

XML declaration of le, les

Les 10: XML basics

Les technologies XML

Les mois et les saisons

Les loisirs et les jeunes

XML et les bases de données

XML et JAVA

Les technologies XML

Les technologies XML

Les technologies XML

XML dans les Serveurs d'applications

Les technologies XML

Données structurées et XML

Les technologies XML

INTEGRITE ET BD ACTIVES