Big Macs and Eigenfactor Scores: Don’t Let Correlation Coefficients FoolYou

Big Macs and Eigenfactor Scores: Don’t Let CorrelationCoefficients FoolYou 巨无霸与特征因子：不要让相关系数欺骗了我们 YW

相关概念 Pagerank 特征因子实际工资相关系数伪相关

Pagerank Pagerank是Google排名运算法则（排名公式）的一部分，是Google用于用来标识网页的等级/重要性的一种方法，是Google用来衡量一个网站的好坏的唯一标准。在揉合了诸如Title标识和Keywords标识等所有其它因素之后，Google通过PageRank来调整结果，使那些更具“等级/重要性”的网页在搜索结果中另网站排名获得提升，从而提高搜索结果的相关性和质量。计算公式： R(A) = (1-d) + d (PR(Ti)/C(Ti) + ... + PR(Tn)/C(Tn)) 注：PR(A) :网页A页的PageRank值； PR(Ti) :链接到A页的网页Ti的PageRank值； C(Ti) :网页Ti的出站链接数量； d:阻尼系数，0<d<1。

Pagerank 根据以上公式, 我们可以看出, 影响一个网页的因素有以下几个：该网页的链入数量。该网页的链入网页本身的PR。该网页的链入网页本身的链出数量。某网页有较多的链入网页, 则说明较多的其他网页认为该网页是重要的；较高的PR的网页指向某网页, 表明更重要的网页认为该网页是重要的, 这种“ 更权威的认为”更可以表明该网页的重要性；如果其他网页只有一个链出指向该网页, 那么说明其他网页认为只有该网页是最重要的, 所以这种推荐程度就更大。

特征因子 汤姆森路透科技集团于2009年1月22日推出了JCR的增强功能, 2007版的JCR报告除了增加五年影响因子、五年影响因子趋势图、影响因子箱线图、分类排名表等功能外,还新增了两个评价指标: Eigenfactor Score 和Article Influence Score。基本思路是:影响因子在计算期刊的引用次数时,将来自所有刊物的引用都平等看待,而实际上,对于像N ature和Science这样有影响力的大刊,来自它们的引用显然比一些小刊的引用分量要大得多。特征因子的制定就是考虑到不同层次期刊的引用权重,通过引文构建起文献引用网络,对期刊的影响力进行评价。

实际工资 (Real Wage)以工人所得的货币工资实际上能够买多少生活消费品、开销多少服务费做标准来衡量的工资。 “名义工资”的对称。用货币工资额所能换得的生活资料和服务的数量。在货币工资不变的条件下，其水平决定于物价因素。如物价上涨则实际工资水平下降。可以衡量职工的实际收入水平。实际工资是反映工人实际生活水平的一个重要标志。

相关系数 相关系数，又称皮（尔生）氏积矩相关系数，是变量之间相关程度的指标。样本相关系数用r表示,总体相关系数用ρ表示,相关系数的取值范围为[-1,1]。|r|值越大，误差Q越小，变量之间的线性相关程度越高；|r|值越接近0，Q越大，变量之间的线性相关程度越低。

伪相关 两变量间之往往会出现伪相关关系，尤其它们都存在一种相同的变化趋势，或者说存在起着将两变量联系在一起的桥梁作用的第三变量的情况下。

Davis的论点 提出疑问本文观点举例提出质疑检验分析实践证明结论统计上伪相关 Davis的伪相关实践一实践二实践三结论一结论二结论三

汉堡例子 表一是22个国家的两组数据：一份巨无霸在当地的价格和当地每小时平均的工资。汉堡价格与当地每小时平均工资之间的皮尔逊相关系数为0.99。有人认为我们可以准确的用每小时平均工资来预测汉堡的价格。也有人提出质疑：既然每小时工资率已经知道了，为什么还有人浪费时间去调查汉堡价格呢？请看看“实际工资”这一栏。实际工资—汉堡价格与每小时工资的比率—是经济利益的变量，它代表一个工人的购买力。我们看到不同国家的实际工资发生了戏剧性的变化。在丹麦一个工人只需要工作七分钟就可以赚到一个汉堡，在中国则需要工作2个小时买一个汉堡。

表一

Davis的论点 提出疑问本文观点举例提出质疑检验分析实践证明结论

Davis 的分析 Davis用特征因子、影响因子、引文频次指标对期刊排序进行比较。Davis研究的目的是在165种医学期刊的总引文的基础上确定“人气指标”影响因子、引文频次指标与“威望指标”期刊pagerank、特征因子之间是否有实质性的区别。Davis的报告指出2006年特征因子与总引频次的相关系数ρ为0.9493。基于此，Davis得出以下结论：至少对于医学类期刊来说,特征因子对期刊的排名与原被引次数对期刊的排名之间并无太大的差别,也即两者提供了相似的期刊影响度信息。

提出疑问 Davis说的对吗？！如果知道了引文频次再去计算特征因子分值就是浪费时间，是真的吗？

本文观点 首先，Davis犯了一个Karl Pearson（1897）提出的经典的统计学的错误：使用了具有公因数的变量来比较此变量之间的相关关系。其次，Davis认为如果相关系数很高那就说明两个指标之间没有很明显的差别。这明显是不对的，下面我们依次来讨论这些问题。

Davis的论点 提出疑问本文观点举例提出质疑检验分析实践证明结论统计上伪相关 Davis的伪相关

统计上的伪相关 1897年，在统计学先驱Karl Pearson提出积差相关系数两年后，Pearson在向英国皇家协会提交的一篇文章中，他注意到，生物统计学家W. F. R. Weldon恰恰在分析甲壳虫身体规模时犯了这个错误。为了解释这个错误，Pearson这样写到：假设u=f1(x,y) and v=f2(z,y)是关于xyz三个变量的函数，三个变量赋予任意值使xy，yz，zx之间没有关系，然而仍然可以发现u和v之间的关系。因此，当统计生物学家确定u，v之间关系时就产生了真正的危险。皮尔逊把这种危险叫做伪相关。

统计上的伪相关 就在10年以后，数学统计学界的发展史上另外一个重要人物，G.U.Yule指出如果两个变量拥有公因数，则会影响指标或比率的问题。假设我们结合任意两个指标Z1和Z2，如死亡率，另外任意找到一变量如人口X3。Z1，Z2与X3在取样的限制下相关系数为0。但是现在假设我们证明出死亡数X1=Z1X3和X2=Z2X3；X1和X2的相关系数r12就不为0。而且是正相关。

Davis的伪相关 我们用公式来表示Davis的关于特征因子与总引文数的回归分析。 log(EFi) versus log(CTi) 注：EFi是指i期刊的特征因子分值，CTi是i期刊的总引文。AIi是i期刊的引文影响分值，Ni，5是指过去5年期刊i发表的论文总数。然后定义 log（EFi）=log（C1*AIi*Ni，5） =log（C1+logAIi+logNi，5 ）注：C1是一个使AI值规范的度量常数，以使JCR中平均每篇文章的AI值为1。

Davis的伪相关 log（CTi）≈ log（C2×IFi× Ni，2） ≈ log（C2C3× IFi× Ni，5） =logC2C3+logIFi+logNi，5 注：C2,C3是另外两个度量常数，C2的说明了Davis比较的是所有年份的引文，而不只是两年以内的。C3是两年发表的论文数与五年发表论文数的相关度（大概是5/2）回归方程最终为： log（AI)+log（TotalArticles）与 log（IF)+log（TotalArticles）式子两边都有)log（TotalArticles）,而且它比其它两组指标变化更大。这说明“人气指标”与“威望指标”这两个变量之间的关系更加模糊不清。

Davis的伪相关 Davis的分析中属于典型的伪相关。每篇文章的普及度通过IF来测量，设Z1=IF值，每篇文章的威望由AI分值来代表，设Z2=AI值。文章总数代表Yule的X3。即使IF和AI完全不相关，Davis仍然会观测特征因子与总引文回归分析中的高的相关系（ρ= 0.6）因为把文章总数作为公因数。

Davis的论点 提出疑问本文观点举例提出质疑检验分析实践证明结论统计上伪相关 Davis的伪相关实践一实践二实践三

实践证明一 本文认为Davis其实发现的不是人气和威望指标是同样的指标。他发现的是越有人气的期刊越有威望，越没有人气的期刊越没有威望。因为期刊排序有很大差异，我们也应该注意到总引文与页数之间有很大的相关性，尽管少数人争论说前者足以代表后者。为避免这个问题，我们要去看看每篇文章的“人气指标”和“威望指标”的相关系数。图一2006年JCR中231类别的IF与AI之间的相关系数的直方图。所有领域的平均值为0.853，标准差为0.099。相关系数最低的领域为通信（ρ＝０．４７８）。船舶工程的相关系数最高（ρ＝０．９８６）。ｄａｖｉｓ研究的医学领域ρ＝０．９５４，在２３１类中排名第９０。某一典型领域的相关系数超过所有期刊总的相关系数。7611种期刊总的相关系数ρ＝0.818。这个低于个别领域的平均值ρ＝0.853。

图一

实践证明二 在汉堡和期刊这两个例子中需要注意的是如果你对A与B的比感兴趣，而且A=ax，B=bx，x相对于a、b来说有很大的变异性，等你B回归到A时你将得到很高的ρ值。然而，如果你真的对A/B感兴趣，你会注意掉x的约分，A/B=ax/bx=a/b。因此，变量x对于表达a/b的意义是无关的。你会从B与A的相关性中得出当a/b是恒量还是不断变化的结论。

实践证明二 根据Davis所说，如果特征因子与总引文数没有很大不同，那么不管期刊中类别是否相同，EF/TC的比应该是恒量。为了鉴定他的观点我们观察社会期刊的EF/TC比，科学期刊的EF/TC比以及被JCR遗漏的期刊。科学期刊的EF/TC比的平均值为1.42×10−5，社会期刊的平均值为2.12×10−5。则样本非参数检验显示他们的差异非常显著p<10−167。

表二

实践证明三 因此，如果相关系数误导了人们，其它的选择呢？首先我们探讨一个数据的更深层次的检验。表3就是一个例子。将期刊按这样的方式列表，我们很快发现存在于高度相关数据间的不同。这种典型的图形展示说明了在简要的统计学中如相关系数我们往往会迷失。表3表明医学期刊前50%都被用到Davis的研究中，在左边的一列，通过总引文数进行排列的医学子领域的期刊。在右边栏里，是通过特征因子来排序的期刊。绿色线连接排名上升的期刊，红色代表下降，黑色代表不动。这个表的重点是测量值的不同。例如，航空学和环境医学下降了30位，然而公共科学图书馆医学上升了30位。Davis声称在他的研究中期刊的顺序变化不是很大。表3可不这么认为。

表三

实践证明三 表4表明了84种期刊的IF、AI的排序，在davis的研究中这是最优的一半。前几位期刊的位次改变并不明显。后面的改变较大。前10名的期刊在位次上只改变了一两位。比如内科医学从18位到了19位，而疼痛医学从35到了80位。且在医学这个领域的相关系数为0.955。这些大的改变当然应该得到编辑们的注意。

表四

Davis的论点 提出疑问本文观点举例提出质疑检验分析实践证明结论统计上伪相关 Davis的伪相关实践一实践二结论一结论二结论三

结论一 相关系数是一个统计学上很有用的工具。它可以帮我们确定变量之间的关系，正相关还是负相关。但是，当从相关度中得出结论时就要小心了。尤其是在伪相关和没有假设检验的情况下。当两个变量的相关系数为0.8、0.9时，不能轻易得出两个变量是一回事的结论。测量指标的比较研究对于选择一个合适的计量学工具是很有用的。在这里我们给一些关于哪种类型适合什么样测量指标的建议。面对相关度时要小心，相关系数越高并不能说明俩个变量就一样，相关系数低不能说明两个变量就没关系。

结论二 数据的形象化可视化可以使简单的统计资料变得更加清晰。不同形式的数学图解法更加适合一定的任务。

结论三 在确定我们数据的本质的时候，认真的观察比简单的应用统计公式更加有效果。比如，汉堡例子中前三名国家的实际工资的中位数是后三位国家实际工资中位数的5倍。这表明国家间的购买力的差异是很大的。前三位期刊的EF/TC的比值的中位数是后三位的2.4倍。这说明由特征因子评估的期刊的差异有很大区别，还可以帮我们了解到为什么特征因子比其他指标更能说明期刊威望的差别。

Thank you！

Big Macs and Eigenfactor Scores: Don’t Let Correlation Coefficients FoolYou