1 / 27

Web 新闻人物追踪系统的设计与实现

Web 新闻人物追踪系统的设计与实现. 姓 名: 寿思聪 学 号: 00448160 院 系: 信息科学技术学院 专 业: 计算机科学与技术 指导教师: 闫宏飞. 提纲. 引言 动机 难点 相关研究 指代消解 实体关系抽取 具体工作 文本中关键词的提取 人物指代消解 时间指代消解 简历型网页 / 段落的判定 人物踪迹追踪系统的实现 总结. 引言. 引言 - 动机. 广泛的需求 还没有搜索引擎正式提供关于人物的搜索服务

Download Presentation

Web 新闻人物追踪系统的设计与实现

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Web新闻人物追踪系统的设计与实现 姓 名: 寿思聪 学 号: 00448160 院 系: 信息科学技术学院 专 业: 计算机科学与技术 指导教师: 闫宏飞

  2. 提纲 • 引言 • 动机 • 难点 • 相关研究 • 指代消解 • 实体关系抽取 • 具体工作 • 文本中关键词的提取 • 人物指代消解 • 时间指代消解 • 简历型网页/段落的判定 • 人物踪迹追踪系统的实现 • 总结 http://ncis.pku.edu.cn

  3. 引言 http://ncis.pku.edu.cn

  4. 引言-动机 • 广泛的需求 • 还没有搜索引擎正式提供关于人物的搜索服务 • 展示Webdigest小组长期工作成果的展示平台 • 作为天网的一部分 http://ncis.pku.edu.cn

  5. 引言-难点 • 胡锦涛主席将于5月6日至10日对日本进行5天的国事访问。除东京外,他还将访问横滨和奈良,并从大阪启程回国 时间指代消解,人物指代消解 • 吴仪 中共中央政治局委员,国务院副总理。 女,汉族,1938年11月生,湖北武汉人,1962年4月加入中国共产党,1962年8月参加工作,北京石油学院石油炼制系炼油工程专业毕业,大学学历,高级工程师。 1956年至1962年西北工学院国防系、北京石油学院石油炼制系炼油工程专业学习。1962年至1965年兰州炼油厂车间技术员、政治部办公室干事。1965年至1967年石油工业部生产技术司生产处技术员。 简历型网页的判断 http://ncis.pku.edu.cn

  6. 相关研究 http://ncis.pku.edu.cn

  7. 相关研究-指代消解-人物指代消解 • Borrow 的STUDENT系统:利用有限的启发式规则 • Winograd的SHRDLU系统:基于语法位置 • Wilks的Preference semantics系统:利用简单的语义知识的四级指代消解系统 • Hobbs算法:基于句法分析,通过搜索句法树,寻找先行词 • Ido Dagan和Alon Itai:利用共现模式从大规模语料库中自动获取约束 • Mitkov:有限知识方法,应用一系列规则 • Soon:利用机器学习,构造一个分类器判断是否是指代关系 http://ncis.pku.edu.cn

  8. 相关研究-指代消解-时间指代消解 • Inderjeet Mani, George :一个时间消解的框架。 处理中文需要解决更多问题 借鉴:判断一些不需要消解的情况使用分类器解决,选择基准时间时的思想 http://ncis.pku.edu.cn

  9. 相关研究-实体关系抽取 • Brin 1998,Agichtein 2000:先确定关系类别,然后基于关系对与描述模式在自然语言文本中的出现规律,自动学习语义化关系模式来找到关系对。 • Etzioni 2004:根据关系的种子实例对自动生成关系抓取模板,并且能给每个新发现关系对一个属于该类型的置信度。 • Takaaki Hasegawa 2004:基于实体对在文本中的共现定义关系,并利用共现文本对关系进行聚类、标注。 • Yutaka Matsuo 2006:以一组科技论文网站和论文作者的主页等半结构化数据为研究对象,以此来发现作者之间的关系 http://ncis.pku.edu.cn

  10. 具体工作 http://ncis.pku.edu.cn

  11. 具体工作-文本中关键词的提取 • Jianguo Xiao 2007 : 一个词W的重要程度由两部分因素组成,一个是其他词Ai(Ai!=W)的重要程度以及W和Ai的关系紧密程度,另外一个是W所在句子的重要程度以及W和这个句子的关系紧密程度。 同样,一句话S的重要程度也有两部分组成,一个是其他句子Bi(Bi!=S)的重要程度以及它和S的相似程度,另外一个是S所包含的词的重要程度以及他们同这句话的关系。 http://ncis.pku.edu.cn

  12. 具体工作-文本中关键词的提取 • 词语与词语之间的关系互信息(472978篇网页,1308327个词语 ,64312933对无序词对 ) • 句子与句子之间的关系cosin值 • 词语与句子之间的关系 • 一个迭代的过程计算每个句子和每个词语的关键程度 http://ncis.pku.edu.cn

  13. 具体工作-人名指代消解-人名性别判定 • 人名性别判定 获得一个人名性别列表,总共包含5901个不同的姓名,通过统计每个名字对应的所有人的性别,简单地对这些名字的人的性别作出判断,得到了一个判断拥有名字N的人的性别的一个表。 问题:所获得的名字的数量远远不能涵盖新闻网页中出现的人名,以至于在指代消解的时候,无法确定人物的性别,使得消解出错。这一块有待在今后工作中的改进。 http://ncis.pku.edu.cn

  14. 具体工作-人名指代消解-姓名缩写消解 • 3月22日凌晨,巴勒斯坦哈马斯 (伊斯兰抵抗运动)精神领袖艾哈迈德·亚辛的汽车遭以色列直升机导弹袭击,亚辛及其两名保镖身亡。 • 解决方法:简单的替换 http://ncis.pku.edu.cn

  15. 具体工作-人名指代消解-流程 http://ncis.pku.edu.cn

  16. 具体工作-人名指代消解-评测 • 随机选取了20篇网页,其中包含“他”和“她”共36 个,是共消解36个,正确消解29 个,精度是81% ,召回度是100%。 • 错误分析 • 3个,人名识别接识别问题,如果接口能够正确识别,精度应该是89% • 2个,寻找先行人名错误 • 2个,先行词并没有以人物姓名的形式出现在网页中,而是以一些名词或者“姓+名词”的形式出现,比如“司机”,“张医生”, http://ncis.pku.edu.cn

  17. 具体工作-时间指代消解-难点 • 哪些需要消解? 对海量网页中词频排名前1000的词进行了统计和分析,得到了一些模式,并且整理了里面的能够明确消解的时间词语 “今天”,“今日”,“当天”,“当日”,“当晚”,“今天上午”,“今晚”,“今天下午”,“当天下午”,“当天晚上”,“同一天”,“今夜” ,“今年”,“下半年”,“上半年”,“今年上半年”,“今年下半年”,“今夏”,“今秋”,“今冬”,“今年夏天”,“同年”,“今年秋季” ,“上周”,“本周”,“本月”,“下周”,“月底”,“周末”,“上周末”,“当月”,“本月底” ,“去年”,“上一年”,“上年” ,“昨日”,“昨天”,“昨晚”,“昨天下午”,“昨天上午”,“昨日下午”,“昨日上午”,“前一天”,“昨天晚上”,“昨夜” ,“明日”,“次日”,“明天” ,“前天” ,“明年”,“次年” ,“前年” ,“下月” ,“上月”,“上个月” ,“年底”,“今年年底”,“年终”,“年末”,“今年底” ,“年初”,“今年年初”,“今年初” ,“去年底”,“去年年底” ,xxxx-xx-xx,xxxx.xx.xx,xx年,xx月,xx日,(x代表一个阿拉伯数字) http://ncis.pku.edu.cn

  18. 具体工作-时间指代消解-难点 • “九八年”,“2000年”中文数字以及全角阿拉伯数字转换成半角阿拉伯数字 • “1946年1月到8月 ”,“ 4月1日、7日、8日 ”时间段、并列时间的处理 • 引用中的时间不处理 • 基准时间的确定一套规则 • 是否是未来时间考虑时间间隔 • “今天的中国”是否需要消解 http://ncis.pku.edu.cn

  19. 具体工作-时间指代消解-流程 http://ncis.pku.edu.cn

  20. 具体工作-时间指代消解-评测 • 随机选取了50篇网页,包含在消解范围内的时间词 248个,消解了242个,正确消解了223个,精度是92% ,漏掉了6个,召回度是97%。 • 错误的原因 • 消解了不应该消解的时间,有4个 • 基准时间判断错误,有6个 • 其余错误包括时间间隔处理的问题、接口识别的问题等 • 还有一些词不在本模块规定的可消解范围内,由于它的一部分属于可消解词,以至于被消解,如“农历三月等”。 • 漏掉的原因 • 4个因为接口没有将这个时间识别出来, • 2个被简单的认为不应该消解。 http://ncis.pku.edu.cn

  21. 具体工作-简历型网页/段落的判定 • 判断简历型网页 • 判断简历型段落 均根据调研情况制定一些规则,按照对人名、时间以及其他的统计数据作出判断 http://ncis.pku.edu.cn

  22. 具体工作-简历型网页/段落的判定-评测 • 使用了409篇网页 ,共有67个简历网页 • 判断简历型网页 • 精度:得到58篇简历的网页,正确56篇,精度为97%。 • 错误分析:一篇是讲的宪法的历史,期间提到了很多时间,而且除了开始出现了一个人名外,之后都没有提到人,这些都符合了判断简历型网页的条件。另外一篇中本没有提到人,但人名识别接口错误的识别出了一个人名,同时符合判定的其他标准 • 召回度:83% • 错误分析:2篇,人名识别接口没有识别出人名;2篇,简历中人名出现过多;5篇是在处理特殊网页(每句一段),没有正确找打句子开始的时间;1篇是将非特殊网页判断成了特殊网页;1篇是因为简历过长,没有考虑。 http://ncis.pku.edu.cn

  23. 具体工作-简历型网页/段落的判定-评测 • 判断简历型段落,数据集同上 • 精度:识别出26个简历型段落,20个正确,精度是77% • 错误分析:有些段落比较短,一些阈值不适合导致的,同时召回度也不理想,最后在构建系统的时候,暂时没有用到简历型段落 http://ncis.pku.edu.cn

  24. 具体工作-人物踪迹系统的实现-数据集 • 网页来源:2007年Webdigest小组所抓取的网页。选取http://www.alexa.com上排名前100的新闻网页作为种子,并且按4层抓取。从10月1日开始持续了30天,总计20,000,000篇网页。 • 处理过程: • 使用Parasize项目的工具进行消重、去噪 • 使用本文的模块对网页处理。 • 句子为单位,进行提取踪迹 • 现在得到的数据: 总共得到403456条人物踪迹,23415条同时包含地点信息,作为现在系统可以查询的数据。 http://ncis.pku.edu.cn

  25. 具体工作-人物踪迹系统的实现-模块和功能 • 模块:查询模块,和地图展示模块 • 功能: • 输入:一个人名 • 输出:他/她的所有踪迹,包含人物、时间、地点和时间,踪迹,并且按照日期排序。 • 地图展示:屏幕右侧,地点被标识,线条连接相邻踪迹的地点,动态展示 http://ncis.pku.edu.cn

  26. 具体工作-人物踪迹系统 http://ncis.pku.edu.cn

  27. 总结 • 意义 • 研究价值 • 创新 • 收获 • 新的知识 • 科研经验 • 今后工作 • 各模块的改进 • 奥运会信息处理系统 http://ncis.pku.edu.cn

More Related