在基于文献的发现中探索使用语义关系 Exploiting Semantic Relations for Literature-Based Discovery

在基于文献的发现中探索使用语义关系Exploiting Semantic Relations for Literature-Based Discovery 吴磊 2011/10/26

作者简介： Dimitar Hristovski：斯洛文尼亚卢布尔雅那大学医学院生物信息学研究所。BITOLA的设计开发者。 Carol Friedman：纽约哥伦比亚大学生物信息学系 Thomas C Rindflesch：马里兰州贝塞斯达国立医学图书馆 Borut Peterlin：斯洛文尼亚卢布尔雅那UMC医学遗传学分部。 BITOLA的设计开发者。

概述 • 提出了利用语义预设/断言/谓词/谓述（semantic predication）来改善基于文献的发现（Literature base Discovery, LBD）系统。 • 目前这些系统主要依赖于目标文献中单词或者概念的共同出现（共词）

概述 • 方法： • 将语义谓词与LBD系统BITOLA结合起来，其中的语义断言是通过联合使用两种自然语言处理系统（BioMedLEE和SemRep）后生成的。 • 初步实验结果表明该方法可以发现新的，用以前的方法不可能发现的相关关系（潜在关系）

引言和背景 • LBD是指通过发现科学研究文献中被忽视的隐藏的联系产生科学研究的假说的方法。 • Swanson介绍了一种范式，在这个范式中，此类关系通过发现一个与药物和疾病都有关系的第三方的概念（如生理学功能）。 • 第三方概念使得原始概念之间在文献中潜在的联系显现出来，由此得到了潜在的发现。

引言和背景 • 目前LBD系统多使用简单的概念共现作为主要机制，并没有提供概念之间关系的属性（nature of the relation between concept）信息。 • 并非所有的共现概念表示出“有意义”的关系->缺陷 : • 用户在检查备选的关系的时候，必须阅读大量的Medline文献记录； • 系统往往产生大量的虚假的关系； • 最终，对于发现的关系没有明确的解释。

引言和背景 • 通过应用语义关系提高共现处理过程的效果，进而改善基于文献的发现范式 • 把两种自然语言处理系统（SemRep 和BioMedLee）得到的输出结合起来，基于明确的语义断言，用户可以忽略没有意义的关系（由此减少必须阅读的数量）或者错误的关系（剔除假阳性）。 • 使用断言进行分析可以解释潜在发现。

背景-基于文献的发现 • 基于文献的发现这一方法主要依赖于与三个文献领域相关的概念：X，Y，和Z。典型情况是： • X：与某些疾病有关的概念 • Z：是治疗这些疾病的药物的概念， • Y：可能是生理学或者病理学功能，症状或者身体机能变化 • 概念X和Y往往被一起讨论，概念Y和Z也在一起讨论，但概念X和Z则不在同一篇论文中同时出现。 • 发现就是借助于利用特定的概念Y来获取以前没有被注意到的X和Z的联系。 • 具体实施时这种联系需要通过人工评判、实验方法或者临床调查来进一步确认或者丢弃。

背景-基于文献的发现 • Swanson的实例 • X指的是雷诺氏病，很多医学术语Y与之同时出现，其中，血液粘稠度和血小板凝集同时也和医学术语Z-鱼油（富含二十碳五烯酸）一起出现。 • 鱼油（Z）降低了血液粘稠度和血小板凝集（Y），后者在雷诺氏病（X）中升高，于是，提出鱼油作为治疗雷诺氏病的新方法。 • 问题： • 在Swanson最原始的研究以及其后的模仿性的研究中，哪些与疾病有关的东西“升高”了，哪些能用于“减少”，都要通过用户阅读相关的Medline纪录来知晓->这一部分正是我们想要改进的地方。

背景-自然语言理解NLP • BioMedLEE可以从文献中捕获大量的基因型和表型的信息和关系。 • 由MedLEE修改而来，MedLEE用于构建和编码病历中的临床信息。BioMedLEE基于把句法和语义结合起来的语法形式，使用来自于临床文献、UMLS和其他联机生物医学知识源（如开放生物医学本体OBO中的某些本体）的MedLEE的词汇表。 • 本研究侧重于仅仅使用UMLS超级词表中的概念。

背景-自然语言理解NLP • SemRep是一种符号自然语言处理系统，用于辨认生物医学文本中的语义关系。 • 目前该程序侧重于Medline中有关疾病治疗方面的记录。语言处理是基于“专家词典”(SPECIALIST lexicon)系统所支持的非特异性分析树(shallow parse tree)。 • 使用MetaMap获取UMLS超级词表中的医学领域知识，使用UMLS语义网络来辨认语义关系。SemRep辨认一系列的语义断言。 • 对于本项目，最相关的关系（断言)//relation (predication) 就是治疗（treats）。

方法 • 首先提出发现模式（discovery pattern）这一概念 • 指可以用于发现概念之间新关系的一组条件，这些条件是从Medline记录中抽取出来的概念之间关系的组合。 • 本文的Maybe_Treats模式， • 两种形式：Maybe_Treats1和 Maybe_Treats2 • 两种形式共同的目标是提出潜在的新治疗方法，而且二者可以协同作用： • 提出两种不同的新治疗方法（互补） • 通过使用不同的发现推理提出同样的治疗方法（巩固）。

方法发现模式Maybe_Treats Maybe_Treats1提出Z1 (药物或物质)是治疗疾病X的新疗法，因为Z1引起与Y1（功能或者物质）相反的变化，而Y1变化是疾病X的特征。 Maybe_Treats2 提出Z2是X的新疗法，因为有与X1类似的疾病X2，药物Z2已知可以治疗X2。如果目前文献中没有证据来证明药物Z已经用于治疗疾病X，那么药物Z可能治疗疾病X就可能是一个发现。

方法 • Maybe_Treats1 • 与某一种疾病X有关的某一种物质、身体机能或者身体指标（概念Y）发生变化，并且，概念Y中还有与概念Z相关的相反方向的变化。 • 实际例子就是Swanson提出的鱼油（Z）作为雷诺氏病（X）的新疗法。鱼油（Z）降低血液粘度（Y），文献中有报道雷诺氏病（X）的病人中血液粘度（Y）则升高。

方法 • Maybe_Treats2 • 为了发现某一种疾病（X）的潜在新疗法，我们首先检索另一种疾病X2，X2具有和X类似的特点（Y2物质或者机能具有同样的改变，都增高或者下降）。就此，我们提出已经用于治疗疾病X2的药物Z2可以成为疾病X的潜在新治疗药物，如果文献中没有关于Z2已经用于X的治疗的证据的话。 • 实例：亨廷顿舞蹈病（HD）患者的胰岛素水平往往比较低，而糖尿病患者的胰岛素水平也比较低，因此，治疗糖尿病的方法也可以用于治疗HD。

方法 • 可以用的关系(relation)： • Associated_with_change • 当一个概念与另一个概念中的变化相关联的时候。例如，一种疾病与某一物质水平上升有关 • 使用BioMedLee抽取Associated_with_change关系 • Treats • 用于抽取治疗某一种疾病的已知药物 • 利用SemRep识别 • 根据用Associated_with_change 和 Treat抽取出来的事实，使用Maybe_Treats1和Maybe_Treats2关系来预测潜在的新疗法。

方法 • 根据输入的不同，Maybe_Treats模式（两种形式均可）可以用在很多发现任务之中 • 输入药物Z->可以治疗的疾病X。 • 输入疾病X->可能用于治疗疾病X的药物Z。 • 输入既有疾病X又有药物Z： • 发现模式会检测药物是否可以用于治疗疾病。如果可以，发现模式会通过中间概念 Y产生解释。 • 例如，药物Z可能用于治疗疾病X，因为在疾病X中Y升高，同时Z被报道可以降低Y的水平。另一篇文献：运用基于文献的发现范式探索药物作用机制（Using the Literature-Based Discovery Paradigm to Investigate Drug Mechanisms）为一实例

结果

结果 • 再现Swanson的雷诺氏病发现案例，来说明Maybe_Treats1发现模式 • 使用BITOLA 系统www.mf.uni-lj.si/bitola/)检索雷诺氏病作为起始概念X • ->将相关概念Y限定在“生理学”(Physiology)语义组 • ->在生理学组中与雷诺氏病共现的230个概念中，Blood Viscosity在第8位，Platelet Aggregation在第17位。 • 把与Blood Viscosity和与Platelet Aggregation共现的文献记录输入到BioMedLee， • ->5种雷诺氏病与血液粘度提高相关联（表中的第3和4个例子）的关系 • ->一种雷诺氏病与血小板聚集相关联的关系

结果 • 再现Swanson的雷诺氏病发现的案例，来说明Maybe_Treats1发现模式 • 使用BITOLA查询与血液粘度或者血小板聚集共现的概念->Eicosapentaenoic acid（二十碳五烯酸，鱼油中富含）。 • 用BioMedLee处理相关的Medline纪录->表现二十碳五烯酸与血液粘度降低相关的关系（表中的例子5和6）。 • 结合例子3、4和5、6，我们可以得出结论二十碳五烯酸（Z）（及类似鱼油这样富含这种酸的食物）可能用于治疗雷诺氏病（X）。因为血液粘度（Y）在雷诺氏病中升高而二十碳五烯酸能降低血液粘度。

结果一种常染色体显性遗传性的神经退行性疾病，其特点是隐匿进展的情绪障碍，行为改变，无意识的舞蹈运动，认知障碍。发作最常见于成年期，一般存活15-20年后夭折。目前没有成功的治疗方法。 • 选择亨廷顿舞蹈病（Huntington disease，HD）案例，说明Maybe_Treats2发现模式 • 在2006年1月份用HD发作作为主题词检索到5511条medline纪录。 • 将这些记录发送给SemRep，抽取了30203条关系，其中的2139是治疗（Treats）关系。 • 这些治疗关系中，有740种含有HD，表示了目前对HD的治疗方法（表中的例子2）

结果 • 我们的目标是发现HD与物质或者身体机能改变之间的关系，这些改变可能是HD潜在的治疗方法 • 将HD的文献记录发送到BioMedLee，抽取出18360种关系，其中1912含有一种变化，310种与HD相关。 • 对于这310种关系，HD专家选取了其中的35个表示HD中神经递质及其受体或者生物学物质上的改变的概念。 • 然后寻找与HD中的这些概念具有同样变化方式的疾病。我们发现一种有意义的潜在治疗HD的方法-胰岛素，该物质在HD中下降（表中的例子7） • 已知HD病人发生糖尿病的概率是健康对照成人的7倍。其原因不明，尽管胰岛素分泌不当是其潜在的原因。 • 转基因的HD鼠模型也呈现出依赖于年龄的胰岛素mRNA表达的减少和胰岛素基因转录关键调节因子表达降低。

结果 • 选择亨廷顿舞蹈病（Huntington disease，HD）案例，说明Maybe_Treats2发现模式 • 从人和动物模型中得到的有力证据显示其涉及到了能量代谢受损，这可以导致HD发生机制中兴奋毒性过程、氧化损伤和基因调节变化。HD病人受损伤的脑区域糖代谢减少已经在诊断程序中明确记载。 • 我们得出结论：用于糖尿病的胰岛素治疗有可能是一种有意义的HD治疗方法。胰岛素可能提高HD病人脑部的葡萄糖代谢，从而减缓发病过程。

讨论 • 尽管在LBD中使用语义关系抽取具有明显的优势，还是有一些问题必须明确。 • 一、可扩展性，理想地说，应该将所有Medline记录进行处理以支持我们提出的系统。 • 二、语义关系抽取的准确性。我们计划将来评价语义关系抽取的效果和基于这种抽取的LBD的效果。 • 因此，我们相信不远的将来，最好的方法将是把语义关系抽取和共现为基础的LBD结合起来。今后的工作中我们计划把BITOLA LBD系统和SemRep及BioMedLee集成在一起。

讨论 • 利用SemRep和BioMedLee，来抽取他们最为擅长获取的关系。 • 这需要为每个系统的输出开发出一种共同的格式。 • 据我们所知，这是两个不同的自然语言处理系统第一次一起用于捕获不同类型的语义关系。

结论 • 我们介绍了一种改善基于文献发现的新方法。这种方法是基于语义谓词的，这种语义谓词是通过使用两种自然语言处理系统处理后从文本中抽取出来的。我们的系统所产生的发现假阳性低，同时便于用户评价和综述潜在的新关系。最终，该系统可以支持对生成的发现的解释。

两个pattern ，就方法而论感觉还是像一类

谢谢！

在基于文献的发现中探索使用语义关系 Exploiting Semantic Relations for Literature-Based Discovery