1 / 19

中文新闻事件地点的自动识别

中文新闻事件地点的自动识别. 学生 : 陆炜 导师 : 李芳. 主要工作. 抽取新闻事件的关键信息:事件发生地点。 1. 地名的层次处理及规范化处理 2. 识别文本中的地点短语 3. 识别事件发生的地点 研究的新闻语料:疾病、自然灾害、人为事故. 土耳其东部宾格尔省 5 月 1 日发生地震。据伊斯坦布尔 地震中心公布,地震发生在当地时间 5 月 1 日 3 时 27 分, 震中位于宾格尔省以南 30 公里处。. 土耳其宾格尔省. 系统框图. 原始文档. 地点短语 模式库. 海量分词. 预处理. 地点短语 识别. 地点 数据库. 句型 模式库.

mason-cook
Download Presentation

中文新闻事件地点的自动识别

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 中文新闻事件地点的自动识别 学生:陆炜 导师:李芳

  2. 主要工作 • 抽取新闻事件的关键信息:事件发生地点。 • 1.地名的层次处理及规范化处理 • 2.识别文本中的地点短语 • 3.识别事件发生的地点 • 研究的新闻语料:疾病、自然灾害、人为事故 土耳其东部宾格尔省5月1日发生地震。据伊斯坦布尔 地震中心公布,地震发生在当地时间5月1日3时27分, 震中位于宾格尔省以南30公里处。 土耳其宾格尔省

  3. 系统框图 原始文档 地点短语 模式库 海量分词 预处理 地点短语 识别 地点 数据库 句型 模式库 地名层次 处理 句型模式 匹配 输出事件发生地点 地名 简称表 地名规范 化 候选事件 地点链表 事件发生 地点识别 评分策略

  4. 地名层次处理 • 预处理后的文本中,对词性为NS的地名词进行地点数据库查询,得到上级地名信息。 city表 字段 cityID cnName regionID region表 字段 regionID cnName countryID country表 字段 countryID cnName

  5. 地名层次处理:举例 原句:地震发生在当地时间5月1日3时27分,震中位于宾格尔省以南30公里处。 地名层次处理后:地震发生在当地时间5月1日3时27分,震中位于土耳其宾格尔省以南30公里处。 原句:安塔利亚省在1971年5月22日曾发生6.7级强烈地震。 地名层次处理后: 土耳其安塔利亚省在1971年5月22日曾 发生6.7级强烈地震。

  6. 地名规范化处理 • 1.中国地名简称的处理 沪------上海市 粤------广东省 方法:建立中国地名简称对照表。 • 2.外国国名简称的处理 土-------土耳其 方法:建立外国国名简称对照表。 • 3.指示代词的处理

  7. 地名规范化处理:举例 外国国名简称处理: 原句:在土耳其发生地震后,希腊外交部当天宣布将为土提供30万欧元紧急援助。 地名规范化:在土耳其发生地震后,希腊外交部当天宣布将 为土耳其提供30万欧元紧急援助。 指示代词处理: 原句:宾格尔省在1971年5月22日曾发生6.7级强烈地震,这 次地震造成该省878人死亡。 地名规范化:宾格尔省在1971年5月22日曾发生6.7级强烈地 震,这次地震造成宾格尔省878人死亡。

  8. 地点短语的识别 • 1.地名补召和过滤 根据上下文信息来补召地名,删除地名。 原句:抢救重点集中在南部的迪亚巴克尔地区 的一所名叫切尔蒂克苏尤的寄宿小学。 迪亚巴克尔/NR 地区/N 迪亚巴克尔地区/NS

  9. 地点短语的识别 文本 • 2.根据地点短语的内部构成特征,建立地点短语模式库,与原文进行模式匹配。 模式选择 模式匹配 NO 匹配 成功 YES 地点短语 抽取

  10. 地点短语的识别:举例 • 原句:土耳其东部宾格尔省5月1日发生地震。分词后:土耳其/NS 东部/F 宾格尔省/NS 地点模式:[^ ]*/NS [^ ]*/F [^ ]*/NS • 原句:震中位于宾格尔省以南30公里处。 宾格尔省/NS 以南/F 30公里/MQ 处/N 地点模式:[^ ]*/NS [^ ]*/F [^ ]*/MQ 处/N

  11. 建立候选事件地点链表 • 构造句型模式,对原文进行匹配。 sp表示已经识别的地点短语 句型模式:(sp)(^[。]*)(发生)(地震) 匹配:土耳其东部宾格尔省5月1日发生地震。 句型模式: (震中)(位于)(sp) 匹配:震中位于宾格尔省以南30公里处。 将文中符合句型模式的地点短语sp全部抽取,存入候选事件地点链表。

  12. 事件发生地点的识别 • 评分策略:地点的相关度,地点的详细度,地点的文中位置 • 地点相关度:如果候选事件地点与标题中的地点存在相关性,那么该地点就有可能是新闻事件的发生地点。 • 地点的详细度:如果候选事件地点的描述越详细,那么该地点就越有可能是新闻事件的发生地点。 • 地点的文中位置:如果候选事件地点出现在文章中位置越靠前,那么该地点就越有可能是新闻事件的发生地点。

  13. 地点相关度 nt表示标题中的地点,nd表示候选事件地点,|…|表示字符串长度 nt:土耳其 nd:土耳其东部宾格尔省 相关度Sim = 1

  14. 地点的详细度 nt:土耳其 nd:土耳其东部宾格尔省 lenval = 3

  15. 地点的文中位置 Pos(nd)表示地点在新闻正文的偏移位置 |d| 表示新闻正文的长度 nd:土耳其东部宾格尔省 Pos(nd):0 Loc(nd) = 1

  16. 评分公式 例文: • 土耳其地震数百人死伤 • 2003-05-02 • 土耳其东部宾格尔省5月1日发生地震。 • 据伊斯坦布尔地震中心公布,地震发生在当地时间5月1日3时27分,震中位于宾格尔省以南30公里处。 …… • 土耳其东部宾格尔省score = 5.5 • {土耳其}宾格尔省以南30公里处score = 6.04 • 取最大分值的候选地点,若最大分值大于某一设定的阀值,该候选地点作为事件发生地点,否则以标题中的地点为事件发生地点。若标题无地点,则取分值最大的候选地点。

  17. 系统评测

  18. 存在的问题 • 1.同样的地名隶属不同国家 • 2.新闻事件地点“隐含”在文中 • 3.台风新闻事件的发生地点识别效果一般 • 4.新闻文章内容属于并列结构 • 5.系统运行速度一般

  19. 谢谢!

More Related