发现科学领域中的拐点一种新的知识域可视化法

发现科学领域中的拐点一种新的知识域可视化法发现科学领域中的拐点一种新的知识域可视化法 zdh 5.27

科学领域可视化 • 最基本目标是：识别和追踪研究领域的演变 • 研究领域：将“研究前沿”和“知识基础”随着时间相对应地变化加以概括和可视化表现

科学领域可视化 • 研究前沿（Research Fronts）： • 在CiteSpace中，采用Kleinberg的突变检测算法来确定研究前沿中的概念，基本原理就是统计相关领域论文的标题、摘要、系索词和文献记录的标识符中词汇频率，根据这些词的词频增长率来确定哪些是研究前沿的热点词汇。根据这些术语在同一篇文章中共同出现的情况进行聚类分析后，可以得到“研究前沿术语的共现网络”。 • 研究前沿系指临时形成的某个研究课题及其基础研究问题的概念组合，也是正在兴起或突然涌现的理论趋势和新主题，代表一个研究领域的思想现状。

科学领域可视化 • 知识基础（Intellective Base）： • 即含有研究前沿的术语词汇的文献的引文，实际上它们反映的是研究前沿中的概念在科学文献中的吸收利用知识的情况。对这些引文也可以通过它们同时被其他论文引用的情况进行聚类分析，即同被引聚类分析，最后形成了一组被研究前沿所引用的科学出版物的演进网络，即“知识基础文献的同被引网络”。

科学领域可视化 • Ψ(t)表示一组在t时刻与新趋势和突变密切相关的词和短语（如专业术语），这些专业术语被称作研究前沿术语 • Ω(t)是由出现前沿术语的文章引用的大量文献组成 • 一个研究领域可以被概念化成一个从研究前沿Ψ(t)到知识基础Ω(t)的时间映射Φ(t)

科学领域可视化

科学领域可视化 • 本文的研究目的就是介绍一种能够识别和显示Φ(t)随时间发展的新趋势和突变的普适方法

科学领域可视化 • 根据引文半衰期的明显不同，科学文献可分为： • 经典文献（classic articals）：持续高被引的文献 • 过渡文献（transient articals)：在短暂时间内达到被引峰值的文献

科学领域可视化 • 科研前沿：过渡文献 • 知识基础：这些过渡文献的引文

科学领域可视化 • CiteSpace研究的三个网络 • “研究前沿术语的共现” • “知识基础文章的同被引” • “研究前沿术语引用知识基础文章”（过渡文献引用经典文献）

科学领域可视化 • 科学领域中的许多方面都可以用网络的形式来表示： • 科研合作网 • 合作者社会关系网 • 引文网络 • 同被引网络

科学领域可视化 • 科学网络随着时间发生变化，有的比较缓和有的比较剧烈，了解这些变化的意义非常重要。 • 科学网络的范围、多样性、动态性。 • 发现这些变化很困难

科学领域可视化 • 研究者们对用于辨别和追踪学科发展前沿的定量方法已经做了大量的研究 • 本文提出了一种新的方法

科学领域可视化 • 主要特点是采取分治法。将整个时间分成许多段，每一个时间段生成一个同被引网络。然后再将各个时间段的网络融合。在融合网络的全景可视化图中，发生在时间段之间的重要变化很显著。 • 这样做的主要目的是为了简化寻找科学领域中的重要文献，这样我们在可视化网络中就可以清楚地寻找那些具有显著特征的节点

新的可视化方法 • 需解决的三个问题： • 1.提高单个网络的清晰度 • 2.重视网络连接处的过渡 • 3.识别重要的节点

提高网络的清晰度 • 目的： • 提高美感 • 根据感官更有效的识别重要节点 • 方法： • Minimum spanning trees • Pathfinder network scaling

Pathfinder network scaling简单介绍 • 定义：是根据经验性的数据，对不同概念或实体间联系的相似或差异程度做出评估，然后应用图论中的一些基本概念和原理生成的一类特殊的网状模型。 • 基本思想：在于应用一种较最小生成树法更复杂的连接删除算法，经过模型运算删除网络中大部分的连接，而只保留其中最重要的连接，其目标在于将一个复杂网络进行最大程度的简化。

Pathfinder network scaling简单介绍 • 算法：每条路径的权重，由两个参数来决定：r和q 。

Pathfinder network scaling简单介绍 • r参数 • r参数定义为基于闵可夫斯基度(Minkowski)距离的给定网络的空间度量。 • 当r=1时，等于两点间距离之和。 • 当r=2时，Minkowski距离就是欧几里德距离。 • 当r=∞时，这条路径的值定义为是它所有构成连线中的最大值。这一距离被叫做距离的最大值。

Pathfinder network scaling简单介绍 • q参数 q参数具体指两节点间可选路径连线的最大长度 q的值可以设置为2到n一1之间的任何整数，这里n是网络中节点的数量。 • 当q=2时．表示的是三角形不等规则(两边之和大于等于第三边)； • 当q=3时，表示的是四边形不等规则(三边之和大于等于第四条边)。

Pathfinder network scaling简单介绍 • 在通常情况下，取r为无穷大，q为节点总数减1，对应的网络表示为PFNETs(r，q)。

Pathfinder network scaling简单介绍 对于给定的度量空间 Wij是i和j两节点之间的直接路径 W nknk-1是nk和nk-1之间的一条路径的权重，并且 k=1，2，⋯ ，m。

Pathfinder network scaling简单介绍 • 如果Wij比可选路径的权重大，那么i和j之间的直接路径就不满足算法的不均等条件，i和j之间的连线就要被删除，因为算法默认这种连线不能代表节点i和j之间关系的最显著的特点。

重视网络连接处的过渡 • 根据网络的拓扑结构特征、点和边的其他属性将同类的或者是不同类的网络进行融合 • 关键问题将不同网络融合的最有效的方法是什么 • 网络合并可以捕获科学领域的重要变化

识别重要的节点 • Landmark node（高被引论文） • Hub node（度数大，同被引次数高的论文） • Pivot node （连接不同网络的节点，是两个网络的共同节点或者是起桥梁作用的节点）

识别重要的节点

工具 • Citespace是用来分析和可视共引网络的JAVA 应用程序，可以在网上免费下载使用。主要是用来帮助分析知识领域中的新趋势。 • 输入数据：Web of Science • 注意数据必须是download*.txt格式 • 输出数据：可视化的同被引网络图

步骤 • 1.time slicing（时间分割） • 2.threshholding（阈值设定） • 3.modeling（模型化） • 4.pruning（网络精减） • 5.merging（网络合并） • 6.maping（生成可视化图）

1.time slicing（时间分割） • 将研究的整个时间分为长度相同的几个时间段 • 每一个时间段的长度可以是一年或者是整个时间 • 如果有合适的数据，每一个时间段的长度甚至可以是一个月或一周

2.threshholding（阈值设定） • 阈值：Citation Cocitation • 以前一般是设置一个固定的值，选择高被引论文作为代表，这是一种粗略的机制 • 现在通过时间分割可以灵活的改动每一个时间段的阈值 • 可以比较和融合两个不同类的网络

c：citation • cc：cocitation • ccv: cosine coefficient

3.modeling（模型化） • 被引次数的标准化：用发表时间的对数值进行标准化

同被引次数的标准化： • Cosine coefficient • 其他方法：Dice Jaccard Pearson’s correlation

4.pruning（网络精简） • Minimum spanning trees • Pathfinder network scaling（本文选择） • 单个网络 • 融合后的网络 • 两者都可

5.merging（网络合并） • 合并后的网络 • 节点：每一时间段的网络中的所有节点 • 边： • 若按照早期设定的规则选择具有早期标记的边，去掉随后那些连接相同节点对的边 • 若按照后来设定的规则则是保留最新的边去掉那些早期的边 • 如果缺省，则执行早期规则

6.maping（生成可视化图） • 节点的大小与文献被引次数的标准化成比例 • 节点标签的大小与文献被引用次数的标准化成比例 • 边的长度和宽度均与同被引系数成比例 • 边的颜色表示早期出现的边即引用了阈值以上文献

可视化结果的验证和解释 • 突出的关键点的作用可以通过咨询该领域的专家（例如，关键点文章的作者），或是通过查阅文献（比如包含关键点文章引文的段落）来得以验证。

实例：Superstring（超弦理论） • 数据：1985-2003 • 时间分割：每隔三年分为一段， • 1985-1987为开始 • 2000-2002结束 • 2003为一个时间段 • 阈值设定：固定的引文次数和Pearson相关系数

Superstring 高阈值小网络

低阈值大网络

结果分析 • 从可视化图中可以很容易的识别出： • 1984 Green–Schwarz article • 1986 Friedan’s article • 1986 Witten’s article • Small clusters in red（新趋势）

发现科学领域中的拐点 一种新的知识域可视化法