中文信息抽取专题

中文信息抽取专题 苏州大学计算机科学与技术学院

含义从一段文本中抽取指定的事件、事实等信息，形成结构化的数据并填入数据库中供用户查询使用的过程。从文本中抽取用户感兴趣的事件、实体和关系被抽取的信息以结构化的形式描述存储到数据库中为情报分析、检测、比价购物、自动文摘、文本分类等各种应用提供服务信息抽取概述

灾害预防部门从自然灾害的新闻报道中抽取出灾害的类型、时间、地点、人员伤亡、经济损失等情况灾害预防部门从自然灾害的新闻报道中抽取出灾害的类型、时间、地点、人员伤亡、经济损失等情况从病人的医疗记录中抽取出症状、诊断记录和检验结果税务分析不同企业交税记录、发现异常模型和趋势。。。信息抽取应用

信息抽取需要一定程度的理解 只关心有限的感兴趣的事实信息不关心文本意义的细微差别不关心作者的写作意图等深层理解问题信息抽取只能算一种浅层的文本理解信息抽取可以看作信息检索的进一步深化信息抽取与文本理解

课本P252 从新闻中抽取出相关信息信息抽取实例

密切相关但又存在差异 功能不同检索：从文档集合中找文档子集抽取：从文本中获取用户感兴趣的事实信息处理技术不同检索：通常利用统计与关键词等技术抽取：借助于自然语言处理技术使用领域不同检索：通常领域无关抽取：通常领域相关信息抽取与信息检索

词典、词语切分和词性标注 句法与语义分析句法成分的识别与标引、关键字抽取、检索特征集的抽取、索引等句群分析与篇章表示中文信息抽取的特殊性

20世纪60年代 起步 Linguistic String 纽约大学大规模的英语计算语法从医疗领域的X光报告和出院记录抽取信息格式 Roger Schank 耶鲁大学故事理解期望驱动与数据驱动历史与现状

20世纪80年代 商业应用 ATRANS 自动处理银行坏账 JASPER 通过新闻分析公司收入和盈利 SCISOR 分析公司合并与盈利蓬勃发展 MUC会议 Message Understanding Conference 美国国防高级研究计划委员会资助评测信息抽取系统 87-98进行了7次历史与现状（续）

中文起步晚 主要研究工作中文命名实体的识别参加MUC-7评测台湾国立大学新加坡肯特岗数字实验室中文信息抽取起步

召回率 准确率 F指数召回率和准确率的加权几何平均信息抽取系统的评测

命名实体NE 最主要的任务命名实体是文本中基本的信息元素，是正确理解文本的基础狭义：指现实世界中具体或抽象的实体如人、组织、公司、地点等广义：还可以包含时间、数量表达式等确切含义，根据具体应用来确定信息抽取任务（一）

模板元素TE 模板元素又称为实体的属性通过槽（Slots）描述了命名实体的基本信息为命名实体建立各种属性槽从而更加清楚地描述命名实体槽Slots 名称类别描述符种类信息抽取任务（二）

共指 CR 不同的命名实体表达了相同的含义，这些实体之间的关系就是共指，也称为等价概念共指任务在于抽取关于共指表达的信息包括那些已在命名实体和模板元素任务中作了标记的对于某个命名实体的所有表述抽取方法：基于句法、基于“优先知识”、基于简单共现、基于统计、基于决策树、基于聚类、基于记忆的学习MBL、基于HNC理论信息抽取任务（三）

模板关系TE 模板元素之间的各种关系，又称为事实法拉利-舒马赫雇佣关系研究方法基于知识库的方法基于特征的机器学习方法基于kernel的方法 Bootstrapping方法信息抽取任务（四）

场景模板 ST 又称事件，是指实体发生的事件主要研究点模板的获取手工写模板自动获取主流研究方向研究核心基于抽取事件动词来将其转化为模板。首先抽取事件动词以及其主语动宾形成候选模板，对候选模板排序，然后为事件动词建立域本体论，最后对其分类信息抽取任务（五）

知识工程方法 基于规则的方法靠手工编制规则使系统能处理特定只是领域的信息抽取问题性能好、易开发缺乏人才、开发过程耗时信息抽取系统的构建方法

自动训练方法 通过学习已经标记好的语料获取规则通过学习已经标记好的语料库获取规则，任何对该领域比较熟悉的人都可以根据事先的约定的规范标记语料库。经过训练的系统能够处理没见过的新文本。开发速度快于知识工程需要足够数量的训练数据，才能保证其处理质量信息抽取系统的构建方法（续）

Hobbs 1993 通用体系结构 文本分块预处理过滤预分析分析片段组合语义解释词汇消歧共指消解或篇章处理模板生成通用信息抽取结构

Hobbs结构的简化版本 由Applet和Israel提出符号化词汇和词法处理句法分析领域分析 Bare Bones结构

命名实体识别 句法分析文章分析和推理知识理解信息抽取中的自然语言处理技术

基于规则的抽取技术 信息抽取系统模型词法分析命名实体识别部分句法分析场景模板匹配共指分析推理与事件整合信息抽取技术

HMM Hidden Markov Model 一种随机的有限状态自动机容易建立、无需大规模的词典集和规则集，适应性好、抽取精度高马尔可夫模型基于HMM的信息抽取过程隐马尔可夫模型

基于自然语言处理方式的信息抽取 包装器方式的信息抽取基于本体方式的信息抽取基于HTML结构的信息抽取基于Web查询的信息抽取 Web信息抽取

中文信息抽取专题

中文信息抽取专题

Presentation Transcript