问答系统

问答系统 哈工大信息检索研究室 2007

本章重点 • 了解问答系统的历史 • 问答系统的分类 • 了解问答系统的基本体系框架 • 评测和实例

提纲 • 当前搜索引擎存在的问题 • 问答系统的历史 • 问答系统分类 • 构建问答系统 • 问答系统实例

当前搜索引擎存在的问题

当前搜索引擎主要问题 • 检索需求的表达不够准确 • 用户的检索需求往往是非常复杂而特殊的无法以几个关键词的简单逻辑组合来表达用户的检索需求 • 检索结果不够简洁 • 信息检索的理想目标是提供用户精确的查询信息，但无论是传统文档信息检索还是Web检索都是基于文档颗粒度的，只提供和用户查询相关的一批文档集合。 • 因此，文档检索系统返回的相关信息太多，用户很难快速准确地定位到所需的信息，通常需要浪费很多时间在这些文档集合中查找自己所需要的信息。例如，在Google上输入几个关键字（例如“中国首都”），它有可能返回成千上万个网页（约有1,040,000项符合“中国首都”的查询结果）。 • 缺乏语义处理技术的支撑 • 传统信息检索以关键词为基础的索引、匹配算法尽管简单易行，但毕竟停留在语言的表层，而没有触及语义，因此检索效果差强人意，很难进一步提高

用Google找答案，有时能够成功 • 例如： • 问题: Who was the prime minister of Australia during the Great Depression? • 答案: James Scullin (Labor) 1929–31.

Page about Curtin (WW II Labor Prime Minister) (Can deduce answer) Page about Curtin (WW II Labor Prime Minister) (Lacks answer) Page about Chifley (Labor Prime Minister) (Can deduce answer)

但经常失败 • 例如： • Question: How much money did IBM spend on advertising in 2002? • Answer: I dunno, but I’d like to …

Lot of ads on Google these days! No relevant info (Marketing firm page) No relevant info (Mag page on ad exec) No relevant info (Mag page on MS-IBM)

问答系统定义

问答系统的定义 • 问答式信息检索是一种允许用户以自然语言方式询问，系统从单语或多语文档集中查找并返回确切答案或者蕴含答案文本片断的新型信息检索的方式。 • 问答系统允许用户以自然语言的形式查询信息 • 例如：世界上最大的宫殿是什么宫殿？ • 系统则直接提供用户准确、简洁的答案 • 例如：紫禁城/故宫 • 问答系统能够提供用户真正的有用、精确的信息，它将是下一代的搜索引擎的理想选择。

问答系统的历史 • 问答系统的研究可追溯到20世纪50年代。1950年，英国著名数学家A.M.Turing在其论文《Computing Machinery and Intelligence》中提到测试机器是否具有智能的问题：“机器能思考吗？”，并提出了判定机器能否思考的方法——图灵测试。 • “图灵测试”可以看作是问答系统的蓝图．第一个问答系统，是Jaseph Weizenbaum 在1966年实现"Eliza” • ELIZA用的是模式及关键字匹配和置换的方法,没有发展成一套系统的技术.

问答系统的历史 • 早期的两个比较著名的问答系统 • BASEBALL（1961年)和LUNAR（1973年)。BASEBALL可用来回答美国一个季度棒球比赛的时间、地点、成绩等自然语言问题。 • LUNAR可帮助地质学家方便的了解、比较和评估阿波罗登月计划积累的月球土壤和岩石的各种化学分析数据 • 它们的后台有一个数据库，保存系统可提供的各种数据。而在用户提问时，系统把用户的问题转换成SQL查询语句，从数据库中查询到数据提供给用户

问答系统的历史 • 可进行对话的系统有Terry Winograd在1971年用MACLISP语言开发的SHRDLU和Bobrow等在1977年前后开发的GUS • 在20世纪70年代，还出现了另外一种形式的问答系统——阅读理解系统 • 耶鲁大学人工智能实验室开发的SAM • SAM的能力限制于必须要有脚本来描述对问题的回答。但脚本不存在时或者尚未准备好时，系统将无法工作

问答系统的历史 • 到了20世纪90年代，问答系统的研究和开发热点转向了基于大规模文档集的问答 • TREC于1999年开始了问答技术的评测 • 2000年10月,ACL以“开放域问答系统”为专题 • 研究领域也从初期的限定领域（Moon Rock, Crisis Management）拓展到开放领域； • 研究对象从当初的固定语料库拓展到互联网(Google) • 真正的面向Web开放域的问答系统的正确率和精确性都不高,还不能提供良好的商业服务

Start是世界上第一个基于Web的问答系统,自从1993年12月开始,它持续在线运行至今.Start的作者,是MIT人工智能实验室InfoLab Group的Boris Katz及其同事. • 不同于信息检索系统(例如搜索引擎),Start旨在提供给用户"准确的信息",而不是仅提供一系列简单的链接. • 现在,Start能够回答数百万的多类英语问题,包括"place"类(城市,国家,湖泊,天气,地图,人口统计学,政治和经济等),电影类(片名,演员和导演等),人物类(出生日期,传记等),词典定义类等.

国外问答系统现状 • 目前，比较成功的问答式检索系统有Ask Jeeves，AnswerBus和START等。 • Ask Jeeves虽然接受自然语言提问，但返回的结果还是和提问相关的文章； • AnswerBus是一个句子级的多语言的问答系统，对于用法语、西班牙语、德语、意大利语或葡萄牙语表述的用户提问，系统返回可能包含答案的8个句子； • START则直接向用户的自然语言提问提供简洁答案。例如输入提问：How many people in China? 系统返回是：1,286,975,468 (July 2003 est.)

国内问答系统现状 • 和国际研究相比，近年来国内从事问答系统的研究机构也在增加 • 中科院计算所、复旦大学都在往届的TREC QA Track评测中也都获得了良好的成绩。 • 中科院计算所、哈尔滨工业大学、复旦大学等在汉语问答技术的研究中也作了有益的探索。 • 但相比于国外，国内从事问答系统尤其是汉语自动问答技术研究的科研机构还是很少，而且基本没有成型的汉语自动问答系统问世。 • 一个很重要的原因是缺乏一个公认的，相对成熟的汉语问答系统评测平台。

问答系统的分类——根据答案数据库类型 • 基于大规模真实文本的问答系统是从预先建立的大规模真实文本语料库中进行答案的查找，类似于TREC QA Track。 • 缺点：不可能涵盖用户所有提问的答案； • 优点：能够提供一个优良的算法评测平台，适合我们对不同问答技术的比较研究。 • 基于网络的问答系统是从网络(Internet)中寻找提问的答案 • 优点：网络是最大规模的“语料库”，基本涵盖所有提问的答案； • 缺点：网络是一个动态变化的“语料库”，不适合评价各种问答技术的优劣。

问答系统的分类——根据答案数据库类型（续）问答系统的分类——根据答案数据库类型（续） • 基于知识库的问答系统是从一个预先建立的结构化的知识库中找答案 • 优点：在结构化知识库的基础上可以设计出具有较强推理能力的问答技术； • 缺点：如何建立大规模的知识库？基于知识库的问答系统只能限定在特定领域。 • 阅读理解式的问答系统 • 是从一篇给定的文章中查找答案。 • 系统在“阅读”完一篇文章后，根据对文章的“理解”给出用户提问的答案。

问答系统分类——根据问答系统的应用领域 • 基于常问提问集(FAQ)的问答系统 • 系统在已有的“提问—答案对”的集合中找到与用户提问相匹配的提问，并将其对应的答案直接返回给用户。 • 限定领域问答系统 • 用户提出的提问只能限定在某一特定领域的问答系统。 • 开放域问答系统 • 用户提问不受任何领域限制的问答系统。

聊天机器人 • 它们几乎全部采用模式匹配的方法,来寻找问题最合适的答案.它们有一个共同的特点, 都是基于谈话技巧和程序技巧,而不是根据常识.对于知道答案的问题,聊天机器人往往给出人性化的回答;对于不知道答案的问题,有三种回答方法:①猜一个答案;②老实说不知道;③用转移话题的办法回避 • 目前的聊天机器人,因为其知识库规模有限,甚至没有知识库,所以面对用户提出的许多专业性问题,用的就是第三种方法,也就是用转移话题的办法回避. • 聊天机器人目前还没有太多的实际用途,除了和用户"聊天",它并不能解决太多的实际问题,许多情况下,它更象是玩具而非工具.

TREC 问题样例 1. Who is the author of the book, "The Iron Lady: A Biography of Margaret Thatcher"? 2. What was the monetary value of the Nobel Peace Prize in 1989? 3. What does the Peugeot company manufacture? 4. How much did Mercury spend on advertising in 1993? 5. What is the name of the managing director of Apricot Computer? 6. Why did David Koresh ask the FBI for a word processor? 7. What debts did Qintex group leave? 8. What is the name of the rare neurological disease with symptoms such as: involuntary movements (tics), swearing, and incoherent vocalizations (grunts, shouts, etc.)?

TREC-8 ~ TREC-12 QA Track发展情况

评测任务 • Main Task（主任务） • 主要测试系统对基于事实、有简短答案的提问的处理能力。 • 例Where is Belize located？What type of bridge is the Golden Gate Bridge？。 • 而那些需要总结、概括的提问不在测试之列。例如，如何办理出国手续？如何制作网页？如何赚钱？ • List Task（列举任务） • 要求系统列出满足条件的几个答案。 • 在TREC2003之前，Track要求被测试系统给出不少于给定数目的实例：Name 22 cities that have a subway system。TREC2003要求系统要给出尽可能多实例：List the names of chewing gums。

评测任务（续） • Context Task（语境任务） • 测试系统对上下文的理解和把握，提问i的回答基于对提问j（i>j）的理解和把握。 • 例：a、佛罗伦萨的哪家博物馆在1993年遭到炸弹的摧毁？b、这次爆炸发生在那一天？c、有多少人在这次爆炸中受伤？因此，提问a对提问b和c的问答很重要。 • Passage Task（语块任务） • 是TREC2003 QA Track提出的新任务。 • 和其他任务不同的是，它对答案的要求偏低，不需要系统给出精确答案，只要给出包含答案的一个字符串(a small chunk of text that contains an answer)。

TREC QA的评价标准 • TREC QA Track的评测指标主要有平均排序倒数（Mean Reciprocal Rank，简称MRR）、准确率（Accuracy）、CWS（Confidence Weighted Score）等，计算公式分别如下： • MRR • CWS • 公式中的N表示测试集中的提问个数。

构建问答系统

用户提问 提问处理模块检索模块提取关键词，分析答案类型和提问的句法、语义关系，关键词扩展，…… 查询文档检索段落或句群或句子检索答案类型相关反馈异构语料库答案抽取段落或句群或句子排序答案答案抽取模块典型的问答系统的组成通常由三部分组成：提问处理模块，检索模块和答案抽取模块

三个模块 • 提问处理模块 • 负责对用户的提问进行处理 • 生成查询关键词（提问关键词，扩展关键词，...） • 确定提问答案类型（PER, LOC, ORG, TIM, NUM, ...）以及提问的句法、语义表示等等 • 检索模块 • 根据提问处理模块生成的查询关键词，使用传统检索方式，检索出和提问相关的信息 • 返回的信息可以是段落、也可以是句群或者句子 • 答案抽取模块 • 从检索模块检索出的相关段落、或句群、或句子中抽取出和提问答案类型一致的实体，根据某种原则对候选答案进行打分，把概率最大的候选答案返回给用户

问题分类

问题分类（7个大类，65个小类）

问题分类的方法 • 基于规则的方法 • 对每个类别设计大量的规则，一旦问题和一个规则相匹配，则问题就属于该规则对应的类别 • 例如，对于“国家(country)”类别，可以设计规则“*<哪>一个国家？”，当问题的后部包含“哪一个国家”时，该问题就被分到“国家”类别 • 应用规则的方法比较简单，要耗费大量人力去设计规则，另外对有些问题很难设计规则去覆盖

问题分类的方法 • 基于统计的方法 • 人工方式对一批问题的类别进行标注 • 设计机器学习算法，已标注的这个集合进行分类模型的自动训练 • 训练得到的模型对测试的问题进行自动分类 • 与文本分类不同 • 对于文本，问题一般很短，其中包含的词很少，因此可以利用的特征少 • 在问题所包含的词中，决定问题类别的特征具有明显的倾向性，即只有若干词才是真正确定问题类别的主要特征

基于统计问题分类的方法 • 根据问题语料库的特点，设计一个改进的贝叶斯问题分类器 • 词袋模型：假设句子中的词与词之间是相互独立的，没有任何语义联系，词与词之间的顺序也无关紧要 • 输入：“哈尔滨工业大学的简称是什么?” • 分词，词性标注，去掉停用词后，结果如下： “哈尔滨/ ns工业/ n 大学/ ni 简称/ v 什么/ r”

基于统计问题分类的方法 • 分类的目标是在所定义的65 个小类中，寻找某个问题类型，对给定问题“哈尔滨工业大学的简称是什么？”，该问题的类别概率最大，即 • qc 表示问题类型的变量， n 为词项的个数

基于统计问题分类的方法 • 简化为： • 假设词与词之间是独立的其中每一个词的概率： • 改进词的概率，提高类别关联性强的词的概率

利用句法结构提取问题分类的句法特征 • 利用句法依存分析的结果，分析问句中各个词之间的依存关系和关系类型，选择问句中关键的词作为特征来进行分类。 • 例如问句“光的传播速度是多少”，“光”“的”“传播”这几个词对问题分类带来了负面影响，通过选择特征“速度是多少”，去掉了噪音，而答案的类别——问题的类别（速度类别）并没有变化，从而提高了问题分类的准确率

利用句法结构提取问题分类的句法特征 • 查找问句Q中的疑问词 • 人工收集汉语中出现的疑问词 • 建立疑问词表T • 对问句Q进行句法分析，得到依存弧和关系类型

利用句法结构提取问题分类的句法特征 • 提取主干和疑问词及其附属成分作为问题分类的特征第一个问句，“是”为核心(HED)，“速度”依存于“是”,提取的句子主干为：“速度是多少” • 第二个问句整个问句的特征为：“哪个国家人口多”

检索模块 • 相关文档检索 • 同信息检索 • 片断检索 • 需要把文档检索部分获得的文档拆分成文档片断或句子 • 减少答案抽取所需处理的内容长度，缩小候选文档集

片段检索 • 片断检索的方法 • 从文档片断中检索最可能包含答案的片断时，最简单的是计算片断和问题之间匹配的词个数，将匹配词的个数作为片断的排序权值，如MITRE的算法 • 有些系统用向量空间模型，即把文档片断和问题分别看作是独立的两篇文档，计算它们之间的相似度，相似度越大则越相似。如Alicante的算法 • MultiText和SiteQ的片断检索算法不仅考虑匹配词的个数及其它们在片断中的idf权值，也考虑匹配词在片断中的相邻距离，即匹配词在片断中的密度 • 现有的参加过TREC评测的问答系统中，大部分都是先从海量数据集中检索出可能包含答案的文档，然后在这少量的文档中进行包含答案的片断检索。 • 也有一些系统，是直接在整个原始数据集中进行相关片断检索

以词或短语作为答案 • 如果以句子作为答案，处理起来相对简单一些。但是，对于那些问时间地点的问题，其答案就比较简短，而用不着一句话。 • 比如，对于问题：“中华人民共和国是什么时候成立的？” • 我们可能检索出这样的一句话：“自从１９４９年１０月１日中华人民共和国成立以来至１９９４年底止，我国已经同世界上的约１６０个国家建立了外交关系，而且还同更多的国家和地区发展了经济贸易关系和文化往来。”。 • 从这个例子可以看出，我们所要的答案只是这句话中的一小部分，如果我们能把这整句话作为答案都提交给用户的话，显然冗余信息太多。

答案类型统计 • 从自然语言搜索网站的日志中共提取5400多个提问 • 其中很多提问省略了疑问词的提问、表达模糊的提问、要求回答的是完成某件事的程序而非简短答案的提问，等等 • 例如：“如何网上赚钱？”、“女朋友过生日送什么？”、“如何申请免费空间？”、“成龙的近况如何?”、等等 • 从中可以看出，绝大多数提问是简述型问题，超过90%，足见多文档文摘的重要性

以文摘作为答案 • 对于有些问题，简短的一个短语或者一句话很难说清楚 • 比如对于问题“9.11事件的是怎么回事？” • 像这种问题，在互联网上有许多相关的报道，如果能把这些相关报道做成一个简短的文摘，将会为用户带来很大的方便 • 这就需要用到多文档自动文摘技术。多文档自动文摘模块把信息检索模块检索出来的相关文档做成文摘，再把这个文摘作为答案返回给用户

基于信息检索和信息抽取的问答技术 关键词扩展模块提问分析模块原始关键词用户提问从网络扩展关键词用户提问分类从WordNet扩展关键词用户提问分析 TREC相关文档扩展关键词候选句子提问答案句子排列句子排列文档检索减少扩展关键词

基于信息检索和信息抽取的问答技术 • 候选答案的排序是这类技术的核心，排序的依据通常是提问处理模块生成的查询关键词 • 由于不同类别的关键词对排序的贡献不同，算法把查询关键词分为几类: • 普通关键词（O）：从提问中直接抽取的关键词； • 扩展关键词（E）：从WordNet或者Web中扩展的关键词； • 基本名词短语（B）； • 引用词（Q）：通常是引号中的词； • 其他关键词（T）。以下公式给出常用的关键词的加权方法。 • 式中的wo，we，wb，wq，wt分别是普通关键词、扩展关键词、基本名词短语、引用词和其他关键词的加权因子，他们体现各种关键词的重要程度。通常，wo > we，wq > wb > wt。式中的O、E、B、Q、T是关键词本身的得分

基于模式匹配的问答技术

基于模式匹配的问答技术 • 如何自动获取某些类型提问（某人的出生日期、某人的原名、某物的别称等）的尽可能多的答案模式是基于模式匹配问答系统的关键技术 • 基于模式匹配的方法往往是先离线获得各类提问答案的模式，在运行阶段，系统首先判断当前提问属于哪一类，然后使用这类提问的所有模式来对抽取的候选答案进行验证 • 例如，询问“某人生日年月日”类提问的部分答案模式如下： • 1.0 <NAME>（<ANSWER> -） • 0.85 <NAME> was born on <ANSWER>, • 0.6 <NAME> was born in <ANSWER> • 0.59 <NAME> was born <ANSWER> • 0.53 <ANSWER> <NAME> was born • 0.50 – <NAME>（<ANSWER> • 0.36 <NAME>（<ANSWER>-

基于自然语言处理的问答技术

问答系统

问答系统

Presentation Transcript