1 / 23

Probabilistic semistructured data model and algebra

Probabilistic semistructured data model and algebra. By Aaron. Contents. 半结构化数据. XML 介绍. 基础知识. 关系代数. PXML. 结构化数据. 关系数据库,可以用表的形式来表示. 半结构化数据. 定义.  这样的数据和上面两种类别都不一样,它是结构化的数据,但是结构变化很大。因为我们要了解数据的细节所有不能将数据简单的组织成一个文件按照非结构化数据处理,由于结构变化很大也不能够简单的建立一个表和他对应。本文主要讨论我针对半结构化数据存储常用的两种方式。

Download Presentation

Probabilistic semistructured data model and algebra

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Probabilistic semistructured data model and algebra By Aaron

  2. Contents 半结构化数据 XML介绍 基础知识 关系代数 PXML Company Logo

  3. 结构化数据 • 关系数据库,可以用表的形式来表示 Company Logo

  4. 半结构化数据 定义  这样的数据和上面两种类别都不一样,它是结构化的数据,但是结构变化很大。因为我们要了解数据的细节所有不能将数据简单的组织成一个文件按照非结构化数据处理,由于结构变化很大也不能够简单的建立一个表和他对应。本文主要讨论我针对半结构化数据存储常用的两种方式。   先举一个半结构化的数据的例子,比如存储员工的简历。不像员工基本信息那样一致每个员工的简历大不相同。有的员工的简历很简单,比如只包括教育情况;有的员工的简历却很复杂,比如包括工作情况、婚姻情况、出入境情况、户口迁移情况、党籍情况、技术技能等等。还有可能有一些我们没有预料的信息。通常我们要完整的保存这些信息并不是很容易的,因为我们不会希望系统中的表的结构在系统的运行期间进行变更。 Company Logo

  5. 实例1 Company Logo

  6. XML 定义 XML(Extensible Markup Language)即可扩展标记语言。Xml是Internet环境中跨平台的,依赖于内容的技术,是当前处理结构化文档信息的有力工具。扩展标记语言XML是一种简单的数据存储语言,使用一系列简单的标记描述数据,而这些标记可以用方便的方式建立,虽然XML占用的空间比二进制数据要占用更多的空间,但XML极其简单易于掌握和使用。 Company Logo

  7. 实例2 • <?xml version="1.0" encoding="ISO-8859-1"?> • <bookstore> • <book catalog="Programming"> • <title lang="en">C++ Programming Language</title> • <author>Bjarne Stroustrup</author> • <year>1998</year> • <price>98.0</price> • </book> • <book catalog="Networking"> • <title lang="en">TCP/IP Illustrated</title> • <author>Richard Stevens</author> • <year>1996</year> • <price>56.0</price> • </book> • </bookstore> Company Logo

  8. 实例3 Company Logo

  9. Five tuples V E Instance val l t Semistructured instance Company Logo

  10. 实例1 Company Logo

  11. 基础知识 • Lch(o,l)表示Object o之后,属于label l的其他Objects。 • 例如:Lch(B2,author)={A2,A3} • Card(o,l)=[min,max]表示Object o之后,属于label l 的其他Objects 的数量范围 • 例如:card(B2,author)=[1,2],则对应的lch(B2,author)={{A2}或{A3}或{A2,A3}} • 所有潜在子节点的概率和为1. Company Logo

  12. lch Instance val card t 基础知识 • Weak instance 5-tuples:w={V,lch,t,val,card} V Company Logo

  13. 实例4 Company Logo

  14. 一个概率模型可以等价成许多半结构模型的集合一个概率模型可以等价成许多半结构模型的集合 • 以上表格可以等价为5个半结构化模型: Company Logo

  15. 代数运算 • 投影(projection) 只显示被投影的部分数据,隐藏其他没有被投影的数据。 例如:我们进行R.Book.author投影,实例1中的半结构化数据树就变成了 沿着规定的path所得到的结果 Company Logo

  16. 选择(selection) 在概率半结构模型中,selection有2个参数,path和object(或者value)。即在沿着规定的path,找到符合条件的object(或者value),然后显示出来。 Company Logo

  17. 实例5 Company Logo

  18. 笛卡尔积 可以通过笛卡尔积将数据合并 一张姓名-性别表和 一张学号-成绩表合并? Company Logo

  19. 实例6 --PXML Company Logo

  20. 实例6的完整版 Company Logo

  21. 实验验证 Company Logo

  22. PXML 概率半结构化数据 半结构化数据 结构化数据 认知过程 高效率 不确定 具有扩展性 数据表 Company Logo

  23. Thank You ! www.themegallery.com Click to edit company slogan .

More Related