自动文摘及多文档自动文摘

自动文摘及 多文档自动文摘

主要内容 • 自动文摘概述 • 文摘概述 • 主要的自动文摘技术 • 自动文摘步骤 • 文本分析 • 文本转换 • 文摘生成 • 文摘评估方法 • 中文自动文摘研究现状 • 多文档自动文摘系统 • 国外研究现状 • 多文档系统需要做的工作 • 系统设计 • 自动文摘应用领域

自动文摘概述 • 文摘定义 Luhn,1958 内容提取、压缩、用户的需求多种学科高度交叉的应用，涉及领域：自然语言处理，信息检索，图书馆学，统计学，认知心理学和人工智能 • 摘要行为研究表层特征，篇章结构，规范的成分自顶向下 • 研究方法基于知识的方法基于统计学方法

主要的自动文摘技术 • 基于浅层分析对文档中所蕴含的一些浅层的特征进行统计与分析，将其中某些特征按特定的量化模型结合起来作为文档信息的量化度量，据此选择出文档核心内容。对于文档的浅层分析通常不需复杂的文档内部表示，能划分出文摘提取时的基本单元即可。 • 基于实体分析实现实体层的分析要先把文档转化成内部表示的形式，分化出文档的各个实体并建立起文档实体间的相互关系，通过对文档实体及其相互关系建模，有助于确定个实体对于表述文档内容的作用。 • 基于话语结构主要对全文的宏观结构建模结构包括：文档格式、用于区分文本主题的线索、文体结构如议论文或者说明文的结构特征。

自动文摘步骤 文本分析:寻找最能代表原文内容的成分转换:通过摘录或概括的方法压缩文本生成摘要:重组原文内容，生成摘要文本分析 --> 信息选取和泛化 -->转换为文摘语言原文表示文摘表示图1：自动文摘的处理过程

文本分析 • 利用知识对文本进行深层处理方法。知识: 符号知识, 结构化的知识表示,常用语法模型。句法分析和话语结构分析: 先用自顶向下方法选取原文中特定片断，再用自底而上方法对这些重点片断进行详细的内容分析。Frump系统(80年初)：概括出典型的新闻故事，从故事中预先选定的主题领域里准确抽取特定信息(事件性质、发生地点) ，生成文摘 • 统计方法独立于领域知识和语言知识，通过识别重要的主题项来抽取包含这些主题项的上下文相关句来构建摘要。识别文章的主旨(如在词频统计基础上识别文章主题的方法）。获取文摘的特征参数 (如用监督或非监督学习方法获取话语模式)

文本转换 • 内容选择和泛化。相关信息的选择与原文的话语结构密切相关。泛化, 把信息压缩为更抽象的形式 • 选择和泛化多文档内容。用户对信息的侧重决定文摘对对每篇文档信息的选择要求能将多篇文档中的异同点分别提取出来泛化对新闻报道中的同一件事或一系列事采用多角度观察，分析文本片断中人物言语变化等信息差异，来确定多文档文摘所要提取信息。以单词的重叠、语义的联系为依据，从多文档中提取相似文本单元生成文摘的方法

文摘生成 • 取决于用户对文摘形式的要求理想文摘涉及文本生成技术目前实用的文摘系统只是将原文中抽取的片段和句子稍加修改和润色去冗余, 短句扩充, 确定文摘输出顺序 • 影响文摘连贯性的问题主要问题是首语重复和不明指代其它的层次关联关系可能影响由抽取句子所得到的文摘的可读性原文中的图表及插入成分在作文摘时要省略原文中重复性、并列性成分，及短句扩充

文摘评估方法 • 摘要比较 • 内部评价方法: 。与系统的目的相关，通过直接分析摘要的质量来评价。按信息的覆盖面和正确率来评价文摘质量，一般采用与“理想摘要”相比较的方法。 • 外部评价方法: 。与系统的功能相应，将文摘应用于某一特定任务中，根据摘要功能提高此项任务的效果来评价文摘系统的性能(如对比采用摘要进行检索与原文进行检索的准确度，来确定是否可以利用摘要来代替原文)。

中文自动文摘研究现状 • 上海交通大学，王永成教授，80年代末 • 1992,中文文献的自动摘要模型系统(CAES) • 1997年研制了OA中文文献自动摘要系统 OA关键技术(仿人)：构造关键词词典; 从文献有关部位中自动摘取包含关键词词典中的词的句子作为候选文摘句，并根据其中包含的词典词的个数、相距远近、句子在文中的部位等信息加权，再根据文摘长度要求选取权值较大的作为文摘句 ; 对文摘句排序、润色生成文摘 • 网上：中英文自动摘要系统演示 • 东北大学，80年代末，姚天顺教授和香港城市理工大学联合开展“中文全文自动摘要系统”研究系统采用脚本知识表示，通过与用户交互获取文摘

* • 北京邮电大学，钟义信教授，全信息理论 • 1997, 面向计算机病毒方面的Glance系统(文摘框架为核心) • 2000,基于理解的、面向神经网络学习算法领域的Ladies自动文摘系统 • 基于多Agent技术的自动文摘系统,2000 • 系统流程图：词语语用信息文本输入->文本分类->分词与标注->语句过滤器---- 主题词典分词词典语法语义信息=>语法语义分析<===组配规则 | 文摘生成<-文摘信息提取<-概念联用测试(语句理解)<-- 句子语用规则概念联用规则 • 网上：首信倚天内容导航引擎(首次实现中文文本信息的概念检索)

* • 全信息理论 Shannon信息论认为，通信工程的任务是复制发端所发出信号的波形，而不必关心信号所蕴涵的信息内容及价值；即不研究语义和语用信息，只研究语法信息全信息是认识论层次的信息概念，即认识主体所感知/表述的事物运动状态及状态变化的方式，包括状态/方式的形式(语法信息)、含义(语义信息)和效用(语用信息)。因此，全信息是语法信息、语义信息和语用信息的统一体。语法信息含义效用客体状态主体语义信息符号语用信息 • 哈尔滨工业大学，王开铸教授 • 提出偏重于篇章物理结构的“篇章计算模型” • 1992年研制了一个基于篇章理解的军事领域自动文摘实用系统MATAS • 1998，基于篇章多级依存结构的HIT-863II型自动文摘系统篇章意义表示生成流程：句意分析->篇章物理结构生成->复句关系->一般句间关系分析 ->句间关系传递计算->篇章结构模式获取 • IBM中国研究中心，微软

多文档自动文摘系统 • 国外研究现状 • 在受限领域 Hahn,1990在领域知识的基础上实例化层次框架中各子部分，并用泛化/归类的方法得出原文主题 Radev & McKeown对新闻报道中的同一件事或一系列事采用多角度观察，分析文本片断中人物、言语的变化等信息差异，来确定多文档文摘所要提取信息 • 在非受限领域使用统计技术来识别多文档间的相似和不同利用文本单元间的语义表示，以单词的重叠、语义的联系为依据，从多文档中提取相似文本单元生成文摘的方法比较基于词汇的相似度，将特定相似域的段落连接形成"文本关系图"，选择与其它段落连接较多的段落

多文档系统需要做的工作 • 聚类:聚类相似文档和段落以找到相关信息 • 找共性:找到并提取多文档间的主要观点 • 去冗：最小化摘要里的冗余 • 找到不同点 • 摘要的组合标准:以对用户有效的方式组合文本段落 • 识别并报告出多文档间的矛盾处 • 摘要更新

多文档系统设计

* • 系统设计文档1->文本分析器用户需求文档2->文本分析器选择器-------->差异 --> 综合--> 候选 ---> 生成器摘要 . 泛化器-------->主题 -->器文摘句 . 共性点文档n->文本分析器

自动文摘应用领域 • 新闻广播的自动摘要,手机上新闻摘要短信 • 智能搜索引擎 • Internet上，Web服务器的网页信息的分类摘要整理 • 信息抽取 • 挖掘电子邮件群中信息 • 自动扫描系统(盲人) • 病人医药记录的在线摘要,比较对比病人的推荐治疗

未来的工作 • 文摘系统的开发应用 • 理论研究　　　　谢谢!

自动文摘 及 多文档自动文摘