比较 9 种基于文本的相似度方法的精确性

比较9种基于文本的相似度方法的精确性 王林 11.11.11 两百多万篇生物医学文献的聚类

Article Boyack KW, Newman D, Duhon RJ, et al. (2011) Clustering More than Two Million Biomedical Publications: Comparing the Accuracies of Nine Text-Based Similarity Approaches. PLoS ONE 6(3): e18029. Authors：Kevin W. Boyack, David Newman, Russell J. Duhon, Richard Klavans, Michael Patek, Joseph R.Biberstine, Bob Schijvenaars, Andre´ Skupin, Nianli Ma, Katy Bo rner • 1 SciTech Strategies, Inc., Albuquerque, New Mexico, United States of America, • 大型静态图像——以大型静态图片描述科学问题的分布和关联，如SciTech Strategies公司为NIH、NSF、DOE、NSAS等机构设计了大量的静态图像，反映多种学科的发展及相互交叉关系等信息——SciTech Strategies Inc. Maps of Science. [2009-05-01]. • 2 University of California Irvine, Irvine, California, United States of America, 加利福尼亚大学尔湾（欧文）校区 • 3 NICTA Victorian Research Laboratory, Melbourne, Australia, • 4 School of Library and Information Science, Indiana University, Bloomington, Indiana, United States of America, • 5 SciTech Strategies, Inc., Berwyn, Pennsylvania, United States of America, • 6 Collexis, Inc., Geldermalsen, The Netherlands, • 7 Department of Geography, San Diego State University, San Diego, California, United States of America

Background & Object • 以往不同相似法的聚类结果比较主要侧重于小型文献集，而且结果常常互相矛盾。 • 大型文本文献集聚类对种类繁多的信息需求和应用来说是至关重要的，如：文献集的管理导航，汇总及分析。 • 调查对两百多万篇生物医学文献聚类的不同相似度方法的准确性。 • 该研究旨在寻找何种相似性方法能够对两百多万篇生物医学文献产生最凝聚的类簇。

Method 确定一个文档资料库从语料库中抽取相关文本信息进行预处理利用9种不同的相似度方法计算文档-文档对的相似度筛选相似度高的文档对建立相似矩阵在相似矩阵的基础上对文档聚类用凝聚性和集中度来评价聚类结果

相似性方法数据源 聚类评价 TF-IDF LSA MeSH-文档矩阵主题建模 DrL 图形布局算法文本凝聚性集中度 SOM TA-文档矩阵 BM25 PMRA

Corpus • 由于本研究调查基于文本和基于引文的技术，因此需要能够比较二者的文档语料库。这就需要每条记录的文本和引文信息，同时也囊括MeSH词。 • 没有任何一个单一的数据库包含所有上述信息。 • 因此，为了建立一个涵盖标题、摘要、MeSH词和引文的语料库，将MEDLINE和Scopus数据库的数据匹配结合。 • 限定：出版年04-08、每篇文献包含摘要、至少5个Mesh词和至少5篇引文。 • 最后得到2,153,769篇科学文献。

Text extraction & pre-processing • 抽取语料库中所有文献的Mesh词以及摘要和标题词（TA）PMID作为文档的唯一标示符。 MeSH-D矩阵 23,347个MeSH词 2,153,769篇文献 25,901,212个MeSH-D对忽略限定词；去除所有3级（特征词）和4级（地理位置）词；皆原词使用而不进行进一步分段（tokenization）；去除出现频率＜4的词； MeSH 除“’”之外，将文本中所有标点符号替换成单空格；文本转换成小写字母，以空格隔开，最后剩下无空格的标记和非空标记；带标准缩写的标记再分为词根和缩写（don’t-do not）；去掉出现在停词表（官方MEDLINE132个停词表以及300+个NIH常用词表）上的标记；为保持与MeSH数据的一致性，去掉出现次数＜4的词词-D矩阵 272,926个文本标记 2,153,769篇文献 175,412,213个词-D对 TA 由于一些TA词在一篇文章中多次出现，与MeSH矩阵不同的，该矩阵不仅表示词的个数，也包含着每个TA词在每篇文档中出现的次数。

Similarity approaches • 本研究涉及5种（6个）不同的分析法技术，2种不同的数据源。9种组合（相似性方法）。见表1

Analytical techniques • 标准词频-逆文档频率（tf-idf余弦） • 潜在语义分析（LSA） • 主题建模（Topic Modeling） • 自组织映射（SOM）两个泊松分布语言模型 • BM25 • PMRA（PubMed Related Articles）

Tf-Idf余弦 • 矩阵中每个非零值的tf-idf系数计算公式： tfidfi,j=tfi,j×idfi • 对每个词Ti，idfi=log(D/di)，D是语料库中的文档数，d是有Ti出现的文档数。 • 对每个词Ti 和每个文档Dj，tfi,j=ni,j/∑nk,j，nk,j是文档Dj中词Tk出现的次数。 • 文档-文档相似度值以两个词向量相似余弦计算 cosA,B=A·B/||A|| ||B||

term vector • A和B文档词向量term vector 所谓term vector, 就是对于documents的某一field,如title,body这种文本类型的, 建立词频的多维向量空间.每一个词就是一维, 这维的值就是这个词在这个field中的频率.如，比较两本书是否相似,把书抽象成一个document文件, 具有author, subject fields. 那么现在就通过这两个field来比较两本书的相似度. 还可把重要条件权重设高, 如果作者相同, 那么就很相似了.第二步就用到term vector了, 这里用的很简单, 单纯的看subject field的term vector中的term是否相同

LSA • Deerwester 等人1990年：潜在语义分析，Latent Semantic Analysis • 原型：奇异值分解（SVD） • 利用原始词-D矩阵X（d×n）（包括D篇文档和N个词条）计算奇异值矩阵S，X=T S DT。T（n×n）由N个词和k个奇异向量组成，S(d×n)是奇异值矩阵，k个奇异值在S的对角线上。D（d×d）是一个降维的文档矩阵，由D篇文档和k个奇异值组成。 • 为了得到更好的效果：我们选择上面得到的tf-idf矩阵作为矩阵X。 • 但当矩阵X是大型矩阵时，SVD变得不实用了。 • 使用广义赫布算法Generalized Hebbian Algorithm来近似矩阵S。对于LSA-TA，计算S局限于前100个奇异值，而对于LSA-MeSH，计算S局限于前200个奇异值。 • 一旦计算出矩阵S，就可以得到降维矩阵D=（S-1TTX）T。 • 文档-文档相似度=矩阵D行与行之间的点积。

BM25 • BM25，又叫做Okapi BM25，广泛用于搜索引擎，根据与查询要求的相关性对匹配文献进行排序的排序函数。尽管很少应用于聚类，但在信息检索方面常代替tf-idf使用，而且非常适用于大型文档集。 • 文档q和文档d之间的BM25相似度为： ni是文档d中词Ti的出现频率。注意：ni=0意味着在文档q中出现而未出现于文档d。另外两个参数K1和b用来调整精准度，一般情况下取K1=2.0，b=0.75。文档长度|D|即每篇文档词频ni之和。平均文档长度文档集中所有文档长度。 N：数据集中所有文档总数 • 对于特定的词条Ti： • 公式（1）求和中的每个词条都独立于文档q，也就是与文档q不相关。对于TA计算，去除所有IDF评分低于2.0分的词条，ni＜21,324有效限制了词条集（即出现次数＜0.99%的文档，2,153,769）。 • 对于MeSH计算，IDF阈值为1.5（或ni＜66,020）。

SOM • 自组织映射（self-organizing map，SOM）方法是一个将高维数据转化为低维几何模型的人工神经网络。 Map本身就是神经元的一个网格，每个映射对应词空间位置向量。输入向量包含的离散的数，与之相反，每个神经元（结点）对每个词都有一个连续的，数值的权值。链接权值初始化：所有的神经元权值随机赋值。在训练过程中，重复进行①为每个神经元网格（输出单元）对应MeSH-D向量，确定与之最相似神经元向量（余弦相似度）；②找到更接近输入文档向量的最匹配的神经元及其邻域神经元。

SOM • SOM对MeSH-文档数据集中全部23,347维无法实现。因此筛选了2,300个高频MeSH词，构建了一个75,625个神经元的SOM（275×275）。结果模型就可以可视化，而不包括文档向量。 • 为了与其他方法进行比较，将每个文档分配到最匹配的神经元上，将所有基于MeSH的文档向量映射到SOM上。由于神经元的数量大概是其他方法聚类的两倍，将文档数较少的临近神经元结合成簇，使每个簇包含至少25篇文档。该方法将文档集分为29,941个类簇。

Topic Modeling • 主题建模，TM，针对文本文档集的贝叶斯模型升级版，主题建模Topic Modeling是一种文本挖掘的方法。将文本视作一个由许多许多词组成的数据库，就能通过分析哪些词经常在一起出现，哪些词出现的多，等等手段来探测文本中隐含的主题。 • 在对TA-D矩阵TM之前要进行一些处理。首先，常见词剔除（如，研究，结果等）。全部语料库中出现次数低于50次的词也要去除。 • 这一缩减使TA-D集保留了所有2,153,769篇文档，但将文本标记从272,926降低到65,776个。TA-D trips的总和为243,724,698。（原始数量的88%）。

Topic Modeling • 三个Gibbs抽样TM：T=500，T=1000和T=2000个主题。这些主题模型分别运行1600,1500和1200个循环（对语料库进行一次完整的扫描） • Dirichlet prior hyperparameter设为β=0.001，α=0.005N/(D·T) N：文本标记的总数，D为文档数，T为主题数。 • 从这三个模型的结果，可计算出2,153,769篇文档中每一篇D的前20个相似文档。对T=500，T=1000，T=2000主题模型的同量加权，计算基于主题的相似矩阵。文档A和文档B的相似度： LI是LI norm（向量的绝对值之和），A500是文档A中T=500个主题的概率。

PMRA • PubMed相关文章（PubMed Related Articles，PMRA） • PMRA与BM25有共同的理论基础——用Poisson分布来对词频建模。PubMed中的PMRA既使用TA词也使用MeSH主题词。另外，标题词的权重是摘要词的两倍。 • 在PubMed中检索语料库中每篇文档的原始PMRA匹配文章。这一过程返回的并非PMRA相似值，而是一个排序列表。后期处理筛选，保留存在于语料库中的相关文章。由于没有实际的相似值，将排序列表的关系转换为相似值。与文章A相关的排序rankA,B所有文章B之间的相似值： ※因此，对任何一片文章A，排在第一位的“相关文章”相似值赋予1.00，第二位的相似值为0.98等等。强调一下，这里的相似值并不是PMRA方法使用的算法，而是我们通过排序转换的。因此这个方法在根本上与其他方法不同。

Similarity Filtering • 该研究的聚类程序（图形布局算法）无法有效处理2千5百万个相似对（每篇文档top-12个相似文档）的相似矩阵。尽管剔除了一些不重要的相似值减少了信息量，这一筛选去除了噪音，同时增加了聚类结果的准确性。 • 本次筛选，为每个大型相似矩阵构建了一个top-n相似文件。前提是，为结果贡献更大相似度的文档应该对聚类输入贡献更多的相似对。去除相似度较小的文档。每篇文档top-15相似度求和，然后换算每篇文档对的数量： • Log（avg（top 15 sim）） • 每篇文档为相似性文件贡献5-15对。完全复制所有文档对（A:B-B:A），保存top-n文件

Clustering • 利用上述相似数据对文档集进行聚类或分割。 • 一个详细的多步聚类程序——DrL（现称为OpenOrd）是图形布局算法，利用加权边来计算每个文档的坐标位置（x,y）。DrL引进了edge cutting概念，在度和距离的基础上切割减少边的数量。然后利用平均链接程序按照接近性和余下的边将文档聚类。 • DrL/平均链接结合法在不同起点分别运行的10次产生了10个不同且高度重合的结果。再将上述10个结果中出现至少4次的文档对再次聚类。10个初次聚类结果中只有7个可以再次聚类。这一方法和标准的聚类非常明确，单一链接聚类而无需链式反应。 • 将少于25篇文档的类簇与与其最相似的类簇（类簇成员间的相似度）结合。最后，最小类簇包含25篇文档 ※该方法无需将所有文档聚类。剔除在上述10个结果中与其他文档共同出现少于4次的文档。如果大量的文档从某一结果中去除，就说明该相似性方法存在歧义。覆盖范围，或者一个聚类结果中剩余文献量，是评价该相似性算法的重要测度。

有效性评价指标 • 专家评审； • 类内和类间相似度的比率，比率越高聚类结果越好，常使用与聚类过程相同的特征。 • 本研究使用两种不同的评价方法：（1）基于基于Jensen-Shannon散度类内文本凝聚性（coherence）；（2）基于MEDLINE标引的赞助-文章联系的集中度（concentration）。

文本凝聚性 • Jensen-Shannon散度（JSD）计算两种可能分布的距离。通过词对文档的的概率向量和词对该文档所在类的概率向量计算每篇文档的JSD： m=（p+q）/2，p是一个词条在一篇文档中的频率，q为该词在该文档所在类的概率，DKL为Kullback-Leibler分歧： • 每个类的JSD为该类所有文档JSD的平均值。 • JSD是一个离散测度，即如果一个类簇中的文档之间非常不同——即使用不同词的集合，那么JSD值将非常高。反之亦然。 • JSD也会因类簇的大小而异，大型类簇会比小类簇更加离散。

文本凝聚性 • 标准化：计算随机抽取语料库中大小不同的类簇的JSD。例如，类簇大小为20的JSD（rand）：从语料库中随机抽取5,000个类簇大小为20的类簇计算其平均JSD值。 • 通过每个类簇i的离散值计算凝聚性： JSD（rand）是特定大小类簇的随机离散值。全部聚类结果的平均凝聚性的加权平均值为： ni是类簇i的大小，计算所有类簇i的和 ※尽管凝聚性可以将文本相似度方法区分开来，这一测度并不是无偏的，最简单的原因是验证的数据源（TA词）依赖于聚类的数据源（TA词或MeSH词）。另外，TA词并不能充分的反应文章的内容，这样使用任何方法都不能很好的聚类。

集中性 • 利用基金-文章联系评价聚类结果准确性，类簇中基金集中度高的的聚类结果要比集中度低的结果更准确。 • 基金致谢与文本相似性方法无关，因此提供了一个独立的、无偏的评价聚类质量的测度。 • 只赞助了一篇文章的基金不能区分聚类结果，选取赞助文章≥4篇的基金。最后得到262,959篇不同的文章（大于语料库的12%）和43,442个NIH基金，571,405个独立的基金-文章联系。 • 两种不同的集中度测度：标准集中度（Herfindahl）和查准-查全率。对基金i来说，Herfindahl指数为： ni,j为类簇j中基金i赞助的文章数，ni为基金i赞助的所有文章数。每一簇中，所有基金的加权平均值为：

Result：Characteristics • 9种相似性方法聚类结果的特征：保留的文档数，覆盖率，类簇数和最大类簇大小。

Result：Characteristics • 9种相似性方法聚类类簇大小分布

Accuracies of cluster solutions：凝聚性 • 9种相似性方法类簇大小及文本凝聚性分布：类簇大小在15以上

凝聚性 • 凝聚性评价聚类质量：凝聚性高→类内的标题和摘要文本相似度高 • 同样基于TA-D矩阵，BM25-TA法显著优于tf-idf-TA法。算法不同于两点： 1）限制了出现在＜0.99%的文档词的数量而不是全部TA-D矩阵——去除了大量的噪音。2）使用BM25相似性方法代替标准tf-idf法。 • PMRA法优于BM25-TA法。PMRA与BM25不同于三点：1）没有去除所有的高频词，而是去除了132个高频低含义（low content）的词，2）标题词的权重设为摘要的两倍，同时使用MeSH词，3）使用PMRA相似度方法而不是BM25法。 • TM-TA法也优于tf-idf-TA法，但与BM25和PMRA操作不同。TM-TA法与PMRA法类似，删除了132高频低含义词。但是TM-TA也删除了出现少于50篇文档的词。在对大量科学文献产生细密的聚类结果方面，BM25和PMRA比TM做得更好。 • BM25-MeSH和BM25-TA的比较结果显示，作为文档聚类的基础，TA词要优于MeSH词。另外，共词-MeSH和BM25-MeSH的比较结果显示，将BM25算法应用于MeSH词结果差异甚微。但当应用于TA词时，优势显著。可能是由于每篇文章可以得到更多的TA标记词。

Accuracies of cluster solutions：集中度 • 各聚类结果基于基金-文章联系的查准查全率曲线先将类簇按由某基金赞助文章的比例排序 P=∑pj=基金i赞助类j中文章数/基金i赞助所有文章数 R=∑rj=基金i赞助类j中文章数/类j中文章数

集中度 • 各个聚类结果的查全率为80%的查准率（Pr80）和F1（查准率和查全率的调和平均数，2PR/(P+R)）的最大值 2 3 1

Conclusion • 除覆盖率，凝聚性和集中性测度外还有一个很有用的指标——计算成本。 COV高达94%

Discussion • PMRA：所有准确性测度最好，本研究使用的是排序而不是实际的相似值。不确定实际PMRA相似值的准确性是否也如此优秀，因此该研究对PMRA的结论不具有权威性。但可以肯定的是PMRA的估计相似度方法在所有方法中是最优秀的。 • LSA,SOM和TM方法：变量较多。LSA，矩阵降维和因子的数量都是可变的。本研究选择的奇异值（100和200）少于大多数典型研究（300-500）。So如果使用更多的因子，结果可能得到改善。但增加因子的数量也会增加计算成本。 • SOM：输入数据的维数是关键。计算所有原始文本标记而同时达到高分辨的2-D模型是无法实施的。由于将筛选了2,300个高频MeSH词（特异度最低），因此最终结果就不是最准确的。对未来的工作来说，有意义的降维是关键性策略——例如，TM得到的主题可以作为SOM训练的输入源。SOM最吸引人的地方在于可以对大中型结构可视化。 • TM：可以将BM25与主题建模距离结合计算相似度。 • 三种准确性指标评价9种相似性方法：PMRA在所有方法中表现最好，其次是BM25-TA法。

由DrL图形布局程序的类-类相似值得出。 化学（蓝），工程（青），生物学（绿），生物技术（深青）传染病（砖红），专科医学（红色）卫生服务（桃红）脑（橙色），社会科学（黄），计算机科学（粉） • PMRA聚类的二维图，200多万篇文章，近29,000个类

Thank You ! Happy Single’s Day~

比较 9 种基于文本的相似度方法的精确性

比较 9 种基于文本的相似度方法的精确性

Presentation Transcript