270 likes | 404 Views
Web 新闻人物追踪系统的设计与实现. 姓 名: 寿思聪 学 号: 00448160 院 系: 信息科学技术学院 专 业: 计算机科学与技术 指导教师: 闫宏飞. 提纲. 引言 动机 难点 相关研究 指代消解 实体关系抽取 具体工作 文本中关键词的提取 人物指代消解 时间指代消解 简历型网页 / 段落的判定 人物踪迹追踪系统的实现 总结. 引言. 引言 - 动机. 广泛的需求 还没有搜索引擎正式提供关于人物的搜索服务
E N D
Web新闻人物追踪系统的设计与实现 姓 名: 寿思聪 学 号: 00448160 院 系: 信息科学技术学院 专 业: 计算机科学与技术 指导教师: 闫宏飞
提纲 • 引言 • 动机 • 难点 • 相关研究 • 指代消解 • 实体关系抽取 • 具体工作 • 文本中关键词的提取 • 人物指代消解 • 时间指代消解 • 简历型网页/段落的判定 • 人物踪迹追踪系统的实现 • 总结 http://ncis.pku.edu.cn
引言 http://ncis.pku.edu.cn
引言-动机 • 广泛的需求 • 还没有搜索引擎正式提供关于人物的搜索服务 • 展示Webdigest小组长期工作成果的展示平台 • 作为天网的一部分 http://ncis.pku.edu.cn
引言-难点 • 胡锦涛主席将于5月6日至10日对日本进行5天的国事访问。除东京外,他还将访问横滨和奈良,并从大阪启程回国 时间指代消解,人物指代消解 • 吴仪 中共中央政治局委员,国务院副总理。 女,汉族,1938年11月生,湖北武汉人,1962年4月加入中国共产党,1962年8月参加工作,北京石油学院石油炼制系炼油工程专业毕业,大学学历,高级工程师。 1956年至1962年西北工学院国防系、北京石油学院石油炼制系炼油工程专业学习。1962年至1965年兰州炼油厂车间技术员、政治部办公室干事。1965年至1967年石油工业部生产技术司生产处技术员。 简历型网页的判断 http://ncis.pku.edu.cn
相关研究 http://ncis.pku.edu.cn
相关研究-指代消解-人物指代消解 • Borrow 的STUDENT系统:利用有限的启发式规则 • Winograd的SHRDLU系统:基于语法位置 • Wilks的Preference semantics系统:利用简单的语义知识的四级指代消解系统 • Hobbs算法:基于句法分析,通过搜索句法树,寻找先行词 • Ido Dagan和Alon Itai:利用共现模式从大规模语料库中自动获取约束 • Mitkov:有限知识方法,应用一系列规则 • Soon:利用机器学习,构造一个分类器判断是否是指代关系 http://ncis.pku.edu.cn
相关研究-指代消解-时间指代消解 • Inderjeet Mani, George :一个时间消解的框架。 处理中文需要解决更多问题 借鉴:判断一些不需要消解的情况使用分类器解决,选择基准时间时的思想 http://ncis.pku.edu.cn
相关研究-实体关系抽取 • Brin 1998,Agichtein 2000:先确定关系类别,然后基于关系对与描述模式在自然语言文本中的出现规律,自动学习语义化关系模式来找到关系对。 • Etzioni 2004:根据关系的种子实例对自动生成关系抓取模板,并且能给每个新发现关系对一个属于该类型的置信度。 • Takaaki Hasegawa 2004:基于实体对在文本中的共现定义关系,并利用共现文本对关系进行聚类、标注。 • Yutaka Matsuo 2006:以一组科技论文网站和论文作者的主页等半结构化数据为研究对象,以此来发现作者之间的关系 http://ncis.pku.edu.cn
具体工作 http://ncis.pku.edu.cn
具体工作-文本中关键词的提取 • Jianguo Xiao 2007 : 一个词W的重要程度由两部分因素组成,一个是其他词Ai(Ai!=W)的重要程度以及W和Ai的关系紧密程度,另外一个是W所在句子的重要程度以及W和这个句子的关系紧密程度。 同样,一句话S的重要程度也有两部分组成,一个是其他句子Bi(Bi!=S)的重要程度以及它和S的相似程度,另外一个是S所包含的词的重要程度以及他们同这句话的关系。 http://ncis.pku.edu.cn
具体工作-文本中关键词的提取 • 词语与词语之间的关系互信息(472978篇网页,1308327个词语 ,64312933对无序词对 ) • 句子与句子之间的关系cosin值 • 词语与句子之间的关系 • 一个迭代的过程计算每个句子和每个词语的关键程度 http://ncis.pku.edu.cn
具体工作-人名指代消解-人名性别判定 • 人名性别判定 获得一个人名性别列表,总共包含5901个不同的姓名,通过统计每个名字对应的所有人的性别,简单地对这些名字的人的性别作出判断,得到了一个判断拥有名字N的人的性别的一个表。 问题:所获得的名字的数量远远不能涵盖新闻网页中出现的人名,以至于在指代消解的时候,无法确定人物的性别,使得消解出错。这一块有待在今后工作中的改进。 http://ncis.pku.edu.cn
具体工作-人名指代消解-姓名缩写消解 • 3月22日凌晨,巴勒斯坦哈马斯 (伊斯兰抵抗运动)精神领袖艾哈迈德·亚辛的汽车遭以色列直升机导弹袭击,亚辛及其两名保镖身亡。 • 解决方法:简单的替换 http://ncis.pku.edu.cn
具体工作-人名指代消解-流程 http://ncis.pku.edu.cn
具体工作-人名指代消解-评测 • 随机选取了20篇网页,其中包含“他”和“她”共36 个,是共消解36个,正确消解29 个,精度是81% ,召回度是100%。 • 错误分析 • 3个,人名识别接识别问题,如果接口能够正确识别,精度应该是89% • 2个,寻找先行人名错误 • 2个,先行词并没有以人物姓名的形式出现在网页中,而是以一些名词或者“姓+名词”的形式出现,比如“司机”,“张医生”, http://ncis.pku.edu.cn
具体工作-时间指代消解-难点 • 哪些需要消解? 对海量网页中词频排名前1000的词进行了统计和分析,得到了一些模式,并且整理了里面的能够明确消解的时间词语 “今天”,“今日”,“当天”,“当日”,“当晚”,“今天上午”,“今晚”,“今天下午”,“当天下午”,“当天晚上”,“同一天”,“今夜” ,“今年”,“下半年”,“上半年”,“今年上半年”,“今年下半年”,“今夏”,“今秋”,“今冬”,“今年夏天”,“同年”,“今年秋季” ,“上周”,“本周”,“本月”,“下周”,“月底”,“周末”,“上周末”,“当月”,“本月底” ,“去年”,“上一年”,“上年” ,“昨日”,“昨天”,“昨晚”,“昨天下午”,“昨天上午”,“昨日下午”,“昨日上午”,“前一天”,“昨天晚上”,“昨夜” ,“明日”,“次日”,“明天” ,“前天” ,“明年”,“次年” ,“前年” ,“下月” ,“上月”,“上个月” ,“年底”,“今年年底”,“年终”,“年末”,“今年底” ,“年初”,“今年年初”,“今年初” ,“去年底”,“去年年底” ,xxxx-xx-xx,xxxx.xx.xx,xx年,xx月,xx日,(x代表一个阿拉伯数字) http://ncis.pku.edu.cn
具体工作-时间指代消解-难点 • “九八年”,“2000年”中文数字以及全角阿拉伯数字转换成半角阿拉伯数字 • “1946年1月到8月 ”,“ 4月1日、7日、8日 ”时间段、并列时间的处理 • 引用中的时间不处理 • 基准时间的确定一套规则 • 是否是未来时间考虑时间间隔 • “今天的中国”是否需要消解 http://ncis.pku.edu.cn
具体工作-时间指代消解-流程 http://ncis.pku.edu.cn
具体工作-时间指代消解-评测 • 随机选取了50篇网页,包含在消解范围内的时间词 248个,消解了242个,正确消解了223个,精度是92% ,漏掉了6个,召回度是97%。 • 错误的原因 • 消解了不应该消解的时间,有4个 • 基准时间判断错误,有6个 • 其余错误包括时间间隔处理的问题、接口识别的问题等 • 还有一些词不在本模块规定的可消解范围内,由于它的一部分属于可消解词,以至于被消解,如“农历三月等”。 • 漏掉的原因 • 4个因为接口没有将这个时间识别出来, • 2个被简单的认为不应该消解。 http://ncis.pku.edu.cn
具体工作-简历型网页/段落的判定 • 判断简历型网页 • 判断简历型段落 均根据调研情况制定一些规则,按照对人名、时间以及其他的统计数据作出判断 http://ncis.pku.edu.cn
具体工作-简历型网页/段落的判定-评测 • 使用了409篇网页 ,共有67个简历网页 • 判断简历型网页 • 精度:得到58篇简历的网页,正确56篇,精度为97%。 • 错误分析:一篇是讲的宪法的历史,期间提到了很多时间,而且除了开始出现了一个人名外,之后都没有提到人,这些都符合了判断简历型网页的条件。另外一篇中本没有提到人,但人名识别接口错误的识别出了一个人名,同时符合判定的其他标准 • 召回度:83% • 错误分析:2篇,人名识别接口没有识别出人名;2篇,简历中人名出现过多;5篇是在处理特殊网页(每句一段),没有正确找打句子开始的时间;1篇是将非特殊网页判断成了特殊网页;1篇是因为简历过长,没有考虑。 http://ncis.pku.edu.cn
具体工作-简历型网页/段落的判定-评测 • 判断简历型段落,数据集同上 • 精度:识别出26个简历型段落,20个正确,精度是77% • 错误分析:有些段落比较短,一些阈值不适合导致的,同时召回度也不理想,最后在构建系统的时候,暂时没有用到简历型段落 http://ncis.pku.edu.cn
具体工作-人物踪迹系统的实现-数据集 • 网页来源:2007年Webdigest小组所抓取的网页。选取http://www.alexa.com上排名前100的新闻网页作为种子,并且按4层抓取。从10月1日开始持续了30天,总计20,000,000篇网页。 • 处理过程: • 使用Parasize项目的工具进行消重、去噪 • 使用本文的模块对网页处理。 • 句子为单位,进行提取踪迹 • 现在得到的数据: 总共得到403456条人物踪迹,23415条同时包含地点信息,作为现在系统可以查询的数据。 http://ncis.pku.edu.cn
具体工作-人物踪迹系统的实现-模块和功能 • 模块:查询模块,和地图展示模块 • 功能: • 输入:一个人名 • 输出:他/她的所有踪迹,包含人物、时间、地点和时间,踪迹,并且按照日期排序。 • 地图展示:屏幕右侧,地点被标识,线条连接相邻踪迹的地点,动态展示 http://ncis.pku.edu.cn
具体工作-人物踪迹系统 http://ncis.pku.edu.cn
总结 • 意义 • 研究价值 • 创新 • 收获 • 新的知识 • 科研经验 • 今后工作 • 各模块的改进 • 奥运会信息处理系统 http://ncis.pku.edu.cn