1 / 18

基于 RDF 自适应存储的 SPARQL 查询技术优化研究

基于 RDF 自适应存储的 SPARQL 查询技术优化研究. 大纲. 动机 内容 方案 参考. 动机. 互联网开放环境下数据管理新需求 企业信息系统 SOA DB2 9.0 PureXML 电子政务系统 搜索引擎 共同特点 XML 数据 数据标签统一. 本体数据管理研究现状 本体存储研究 基于关系数据库 基于原生态系统 基于内存 数据库模式自适应研究 查询语言研究 SPARQL  SQL 转换 查询优化 系统实现 实验室已有工作 经济学示范主题语义网 本体库管理系统技术研究 -- 双库结构 总结

sandra-neal
Download Presentation

基于 RDF 自适应存储的 SPARQL 查询技术优化研究

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 基于RDF自适应存储的SPARQL查询技术优化研究

  2. 大纲 • 动机 • 内容 • 方案 • 参考

  3. 动机 • 互联网开放环境下数据管理新需求 • 企业信息系统 • SOA • DB2 9.0 PureXML • 电子政务系统 • 搜索引擎 • 共同特点 • XML数据 • 数据标签统一

  4. 本体数据管理研究现状 • 本体存储研究 • 基于关系数据库 • 基于原生态系统 • 基于内存 • 数据库模式自适应研究 • 查询语言研究 • SPARQL  SQL转换 • 查询优化 • 系统实现 • 实验室已有工作 • 经济学示范主题语义网 • 本体库管理系统技术研究 --双库结构 • 总结 • 自适应存储 – 基于RDF • SPARQL的调整

  5. 内容 • RDF数据存储模式的自适应技术 • 代价模型 • 稀疏表的分块 • 本体结构偏斜度 • 自调优日志和查询日志 • 实现 • 模式分析 • 模式调整 • 模式日志管理 • 调度器 • 对关系数据库存储管理的修改 • LOB数据 • 传递闭包索引 • 实例数据库与本体的映射表

  6. 基于模式自适应的SPARQL查询 • SPARQL  SQL动态转换 • 需要嵌入到数据库 • 查询优化 • 模式动态变化带来的查询效率 • 查询自身的效率问题 – 传递闭包索引的使用 • 语义不匹配 – OPTIONAL VS 左外连接 • CODE3.0体系结构 • 扩展的关系数据库 • SPARQL查询引擎

  7. _:a rdf:type foaf:Person _:a foaf:name "Alice" _:a foaf:mbox <mailto:alice@example.com> _:a foaf:mbox <mailto:alice@work.example> _:b rdf:type foaf:Person _:b foaf:name "Bob" SELECT ?name ?mbox WHERE { ?x foaf:name ?name . OPTIONAL { ?x foaf:mbox ?mbox } }

  8. A B

  9. D = { (B1, name, paul), (B1, phone, 777-3426), (B2, name, john), (B2, email, john@acd.edu), (B3, name, george), (B3, webPage, www.george.edu), (B4, name, ringo), (B4, email, ringo@acd.edu), (B4, webPage, www.starr.edu), (B4, phone, 888-4537) }

  10. P2 = (((?A, name, ?N) OPT (?A, email, ?E)) OPT (?A, webPage, ?W)) P3 = ((?A, name, ?N) OPT ((?A, email, ?E) OPT (?A, webPage, ?W)))

  11. CODE3.0 SPARQL 查询引擎 转换器 优化器 关 系 数 据 库 SQL引擎 存储管理 数据管理 模式自调优模块 索引管理 模式映射表 LOB …… 传递闭包索引 模式分析 (代价模型) 调 度 器 模式调整 模式日志管理 概念库 实例库

  12. 方案与特色 • 离线调整 • 在线调整 • 难点 • 代价模型的建立 • 存储模式的分析 – NP • 启发式 + 代价模型 • 模式调整过程中的吞吐率 • 实验数据 • SPARQLSQL的优化问题 • 传递闭包计算 • 语义不匹配 • 特色 • 模式变化的存储 – 与网络资源管理相结合

  13. 参考 • Wide Table • Eric Chu – SIGMOD 2007 • Big Table • Fay Chang – OSDI 2006 • Vertical Partitioning • Shamkant Navathe – SIGMOD Record 1989

  14. Data Partitioning speaker driver speaker type speaker diameter speaker form factor speaker qty • Useful for creating materialized projection views and covering indexes Wide Table

  15. BigTable • <Row, Column, Timestamp> triple for key - lookup, insert, and delete API • Arbitrary “columns” on a row-by-row basis • Column family:qualifier. Family is heavyweight, qualifier lightweight • Column-oriented physical store- rows are sparse! • Does not support a relational model • No table-wide integrity constraints • No multirow transactions 列anchor:cnnsi.com是指向cnn的网页 写成com.cnn.www是为了把cnn的网页聚到一起

  16. Vertical Partitioning

  17. Thank You! Q&A

More Related