1 / 15

面向中文网络百科的属性和属性值抽取

面向中文网络百科的属性和属性值抽取. 汇报人:贾真 2013 . 11 . 18. 方法概述. 2. 主要算法. 3. 实验分析. 4. 相关定义. 1. 报告内容. 句子序列是由一系列二元组组成的有序序列 。 S =<( w 1 , t 1 ), …, ( w i , t i ), …, ( w n , t n )> ,其中, w i 表示词语, t i 表示 w i 的 词性标注或实体标注 。. 句子序列. 由 k 个词语、词性标注或实体标注组成的有序序列

Download Presentation

面向中文网络百科的属性和属性值抽取

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 面向中文网络百科的属性和属性值抽取 汇报人:贾真 2013. 11 . 18

  2. 方法概述 2 主要算法 3 实验分析 4 相关定义 1 报告内容

  3. 句子序列是由一系列二元组组成的有序序列。 • S=<(w1, t1), …, (wi, ti), …, (wn, tn)>,其中,wi表示词语,ti表示wi的词性标注或实体标注。 句子序列 • 由k个词语、词性标注或实体标注组成的有序序列 • Pk=<x1, …, xi,…, xk> ,其中,xi表示词语、词性标注或实体标注。 K元模式 相关定义 1 • 词语(或短语)与命名实体标注之间的关联程度 置信度

  4. 相关定义 1 主要算法 3 实验分析 4 方法概述 2 报告内容

  5. 方法概述 2 文本预处理 对文本进行分词、分句等自然语言预处理 将属性值看做命名实体,通过频繁模式挖掘和关联分析获取属性 属性抽取 触发词抽取 采用自扩展方法获取属性触发词 模式挖掘 利用触发词自动获取模式,基于聚类算法过滤可信度低的模式 机制 属性值抽取 利用模式从文本中抽取属性值

  6. 相关定义 方法概述 1 2 实验分析 4 主要算法 3 报告内容

  7. 主要算法 3 • 算法1 k元模式提取算法 • 输入:k;句子序列集合Sset={S1, S2, ..., Sn};窗口W;词性POS集;命名实体标注集ENE; • 输出:k元模式集合Pkset • 算法2 词语语义相似度计算 • 输入:经过细粒度分词后的种子Seed={seg1, seg2, …segn} ; • 同义词词典Syndictionary ; • 输出:扩充种子集合Seedsynset

  8. 主要算法 3 • 算法3 触发词提取算法 • 输入:扩充种子词集合Seedsynset;属性值命名实体标注pos; k元模式集合Pkset与支持度计数;评分阈值min_score;相似度权重系数; 置信度权重系数β; 匹配系数γ; 位置系数δ • 输出:属性触发词集合Trigger. • 算法4模式聚类算法 • 输入:候选模式集合Pattern;相似度阈值min_sim;簇中模式最小个数min_count;模式最小支持度计数min_supp • 输出:聚类后得到的簇Cluster={cluster1, cluster2, …}

  9. 相关定义 方法概述 1 2 主要算法 3 实验分析 4 报告内容

  10. 实验分析 4 六类 约6万个百科条目 乡镇 工厂 行政村 大学 中小学 公司 西南交通大学耶宝智慧中文分词平台 http://www.yebol.com.cn 数据集 预处理工具

  11. 实验分析 4 表1类别属性抽取准确率与属性示例 属性抽取

  12. 实验分析 4 表2大学类别属性值抽取结果 属性值抽取

  13. 实验结果 4 表3类别属性值抽取结果 属性值抽取

  14. 今后努力方向 进一步提高属性值抽取的准确率和召回率,构建能够面向实际应用的中文网络百科知识获取系统。

  15. Thank You !

More Related