中文新闻事件地点的自动识别
This presentation is the property of its rightful owner.
Sponsored Links
1 / 19

中文新闻事件地点的自动识别 PowerPoint PPT Presentation


  • 61 Views
  • Uploaded on
  • Presentation posted in: General

中文新闻事件地点的自动识别. 学生 : 陆炜导师 : 李芳. 主要工作. 抽取新闻事件的关键信息:事件发生地点。 1. 地名的层次处理及规范化处理 2. 识别文本中的地点短语 3. 识别事件发生的地点 研究的新闻语料:疾病、自然灾害、人为事故. 土耳其东部宾格尔省 5 月 1 日发生地震。据伊斯坦布尔 地震中心公布,地震发生在当地时间 5 月 1 日 3 时 27 分, 震中位于宾格尔省以南 30 公里处。. 土耳其宾格尔省. 系统框图. 原始文档. 地点短语 模式库. 海量分词. 预处理. 地点短语 识别. 地点 数据库. 句型 模式库.

Download Presentation

中文新闻事件地点的自动识别

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


7009944

中文新闻事件地点的自动识别

学生:陆炜导师:李芳


7009944

主要工作

  • 抽取新闻事件的关键信息:事件发生地点。

  • 1.地名的层次处理及规范化处理

  • 2.识别文本中的地点短语

  • 3.识别事件发生的地点

  • 研究的新闻语料:疾病、自然灾害、人为事故

土耳其东部宾格尔省5月1日发生地震。据伊斯坦布尔

地震中心公布,地震发生在当地时间5月1日3时27分,

震中位于宾格尔省以南30公里处。

土耳其宾格尔省


7009944

系统框图

原始文档

地点短语

模式库

海量分词

预处理

地点短语

识别

地点

数据库

句型

模式库

地名层次

处理

句型模式

匹配

输出事件发生地点

地名

简称表

地名规范

候选事件

地点链表

事件发生

地点识别

评分策略


7009944

地名层次处理

  • 预处理后的文本中,对词性为NS的地名词进行地点数据库查询,得到上级地名信息。

city表

字段

cityID

cnName

regionID

region表

字段

regionID

cnName

countryID

country表

字段

countryID

cnName


7009944

地名层次处理:举例

原句:地震发生在当地时间5月1日3时27分,震中位于宾格尔省以南30公里处。

地名层次处理后:地震发生在当地时间5月1日3时27分,震中位于土耳其宾格尔省以南30公里处。

原句:安塔利亚省在1971年5月22日曾发生6.7级强烈地震。

地名层次处理后: 土耳其安塔利亚省在1971年5月22日曾

发生6.7级强烈地震。


7009944

地名规范化处理

  • 1.中国地名简称的处理

    沪------上海市粤------广东省

    方法:建立中国地名简称对照表。

  • 2.外国国名简称的处理

    土-------土耳其

    方法:建立外国国名简称对照表。

  • 3.指示代词的处理


7009944

地名规范化处理:举例

外国国名简称处理:

原句:在土耳其发生地震后,希腊外交部当天宣布将为土提供30万欧元紧急援助。

地名规范化:在土耳其发生地震后,希腊外交部当天宣布将

为土耳其提供30万欧元紧急援助。

指示代词处理:

原句:宾格尔省在1971年5月22日曾发生6.7级强烈地震,这

次地震造成该省878人死亡。

地名规范化:宾格尔省在1971年5月22日曾发生6.7级强烈地

震,这次地震造成宾格尔省878人死亡。


7009944

地点短语的识别

  • 1.地名补召和过滤

    根据上下文信息来补召地名,删除地名。

    原句:抢救重点集中在南部的迪亚巴克尔地区 的一所名叫切尔蒂克苏尤的寄宿小学。

    迪亚巴克尔/NR 地区/N

    迪亚巴克尔地区/NS


7009944

地点短语的识别

文本

  • 2.根据地点短语的内部构成特征,建立地点短语模式库,与原文进行模式匹配。

模式选择

模式匹配

NO

匹配

成功

YES

地点短语

抽取


7009944

地点短语的识别:举例

  • 原句:土耳其东部宾格尔省5月1日发生地震。分词后:土耳其/NS 东部/F 宾格尔省/NS

    地点模式:[^ ]*/NS [^ ]*/F [^ ]*/NS

  • 原句:震中位于宾格尔省以南30公里处。

    宾格尔省/NS 以南/F 30公里/MQ 处/N

    地点模式:[^ ]*/NS [^ ]*/F [^ ]*/MQ 处/N


7009944

建立候选事件地点链表

  • 构造句型模式,对原文进行匹配。

    sp表示已经识别的地点短语

    句型模式:(sp)(^[。]*)(发生)(地震)

    匹配:土耳其东部宾格尔省5月1日发生地震。

    句型模式: (震中)(位于)(sp)

    匹配:震中位于宾格尔省以南30公里处。

    将文中符合句型模式的地点短语sp全部抽取,存入候选事件地点链表。


7009944

事件发生地点的识别

  • 评分策略:地点的相关度,地点的详细度,地点的文中位置

  • 地点相关度:如果候选事件地点与标题中的地点存在相关性,那么该地点就有可能是新闻事件的发生地点。

  • 地点的详细度:如果候选事件地点的描述越详细,那么该地点就越有可能是新闻事件的发生地点。

  • 地点的文中位置:如果候选事件地点出现在文章中位置越靠前,那么该地点就越有可能是新闻事件的发生地点。


7009944

地点相关度

nt表示标题中的地点,nd表示候选事件地点,|…|表示字符串长度

nt:土耳其nd:土耳其东部宾格尔省

相关度Sim = 1


7009944

地点的详细度

nt:土耳其nd:土耳其东部宾格尔省

lenval = 3


7009944

地点的文中位置

Pos(nd)表示地点在新闻正文的偏移位置

|d| 表示新闻正文的长度

nd:土耳其东部宾格尔省Pos(nd):0

Loc(nd) = 1


7009944

评分公式

例文:

  • 土耳其地震数百人死伤

  • 2003-05-02

  • 土耳其东部宾格尔省5月1日发生地震。

  • 据伊斯坦布尔地震中心公布,地震发生在当地时间5月1日3时27分,震中位于宾格尔省以南30公里处。 ……

  • 土耳其东部宾格尔省score = 5.5

  • {土耳其}宾格尔省以南30公里处score = 6.04

  • 取最大分值的候选地点,若最大分值大于某一设定的阀值,该候选地点作为事件发生地点,否则以标题中的地点为事件发生地点。若标题无地点,则取分值最大的候选地点。


7009944

系统评测


7009944

存在的问题

  • 1.同样的地名隶属不同国家

  • 2.新闻事件地点“隐含”在文中

  • 3.台风新闻事件的发生地点识别效果一般

  • 4.新闻文章内容属于并列结构

  • 5.系统运行速度一般


7009944

谢谢!


  • Login