150 likes | 299 Views
面向中文网络百科的属性和属性值抽取. 汇报人:贾真 2013 . 11 . 18. 方法概述. 2. 主要算法. 3. 实验分析. 4. 相关定义. 1. 报告内容. 句子序列是由一系列二元组组成的有序序列 。 S =<( w 1 , t 1 ), …, ( w i , t i ), …, ( w n , t n )> ,其中, w i 表示词语, t i 表示 w i 的 词性标注或实体标注 。. 句子序列. 由 k 个词语、词性标注或实体标注组成的有序序列
E N D
面向中文网络百科的属性和属性值抽取 汇报人:贾真 2013. 11 . 18
方法概述 2 主要算法 3 实验分析 4 相关定义 1 报告内容
句子序列是由一系列二元组组成的有序序列。 • S=<(w1, t1), …, (wi, ti), …, (wn, tn)>,其中,wi表示词语,ti表示wi的词性标注或实体标注。 句子序列 • 由k个词语、词性标注或实体标注组成的有序序列 • Pk=<x1, …, xi,…, xk> ,其中,xi表示词语、词性标注或实体标注。 K元模式 相关定义 1 • 词语(或短语)与命名实体标注之间的关联程度 置信度
相关定义 1 主要算法 3 实验分析 4 方法概述 2 报告内容
方法概述 2 文本预处理 对文本进行分词、分句等自然语言预处理 将属性值看做命名实体,通过频繁模式挖掘和关联分析获取属性 属性抽取 触发词抽取 采用自扩展方法获取属性触发词 模式挖掘 利用触发词自动获取模式,基于聚类算法过滤可信度低的模式 机制 属性值抽取 利用模式从文本中抽取属性值
相关定义 方法概述 1 2 实验分析 4 主要算法 3 报告内容
主要算法 3 • 算法1 k元模式提取算法 • 输入:k;句子序列集合Sset={S1, S2, ..., Sn};窗口W;词性POS集;命名实体标注集ENE; • 输出:k元模式集合Pkset • 算法2 词语语义相似度计算 • 输入:经过细粒度分词后的种子Seed={seg1, seg2, …segn} ; • 同义词词典Syndictionary ; • 输出:扩充种子集合Seedsynset
主要算法 3 • 算法3 触发词提取算法 • 输入:扩充种子词集合Seedsynset;属性值命名实体标注pos; k元模式集合Pkset与支持度计数;评分阈值min_score;相似度权重系数; 置信度权重系数β; 匹配系数γ; 位置系数δ • 输出:属性触发词集合Trigger. • 算法4模式聚类算法 • 输入:候选模式集合Pattern;相似度阈值min_sim;簇中模式最小个数min_count;模式最小支持度计数min_supp • 输出:聚类后得到的簇Cluster={cluster1, cluster2, …}
相关定义 方法概述 1 2 主要算法 3 实验分析 4 报告内容
实验分析 4 六类 约6万个百科条目 乡镇 工厂 行政村 大学 中小学 公司 西南交通大学耶宝智慧中文分词平台 http://www.yebol.com.cn 数据集 预处理工具
实验分析 4 表1类别属性抽取准确率与属性示例 属性抽取
实验分析 4 表2大学类别属性值抽取结果 属性值抽取
实验结果 4 表3类别属性值抽取结果 属性值抽取
今后努力方向 进一步提高属性值抽取的准确率和召回率,构建能够面向实际应用的中文网络百科知识获取系统。