720 likes | 1.32k Views
基于 CANOCO 的数据分析. Multivariate Analysis of Ecological Data using CANOCO. 生态熊 2010.6.25. 内容. 第一章 排序基础 第二章 认识软件 第三章 操作示范 第四章 排序图解 第五章 经典实例 第六章 阅读推荐 后记. 第一章 梯度分析基础. 1 什么是梯度分析?. 群落学物种组成数据的分析方法通常有两种:梯度分析(排序)和分类方法(聚类、 TWINSPAN 等)。这里的梯度分析是广义的梯度分析,泛指任何以揭示物种组成数据与实测或潜在的环境因子之间关系的方法 。.
E N D
基于CANOCO的数据分析 Multivariate Analysis of Ecological Data using CANOCO 生态熊 2010.6.25
内容 • 第一章 排序基础 • 第二章 认识软件 • 第三章 操作示范 • 第四章 排序图解 • 第五章 经典实例 • 第六章 阅读推荐 • 后记
第一章 梯度分析基础 1 什么是梯度分析? 群落学物种组成数据的分析方法通常有两种:梯度分析(排序)和分类方法(聚类、TWINSPAN等)。这里的梯度分析是广义的梯度分析,泛指任何以揭示物种组成数据与实测或潜在的环境因子之间关系的方法。
2 为什么排序? 当考察植物或动物群落沿着一系列环境条件下的变化情况,我们经常发现在不同条件的群落不仅物种组成变化很大,而且这些变化往往具有连续性和可预测性。 通过排序分析,我们可以认识群落格局,也可以将排序轴跟我们已知的环境条件联系起来,看是否代表某一环境梯度。当然,也许我们必须用统计手段来检验排序轴到底是否真能代表环境因子的梯度。
3 专业术语 生态学原始数据一般由两个部分构成,一组是响应变量 (response variable),另外一组是解释变量(explanatory variables)。 (1)解释变量:相当于自变量,又称预测变量,经常分为主环境变量和协环境变量。 (2)响应变量:相当于因变量,又称物种数据。 (3)梯度分析:即通常所说的排序分析,是揭示物种组成数据与实测或潜在环境因子之间关系的方法的总称。包括约束性排序和非约束性排序。
(4)约束性排序(直接排序):在特定的梯度上(环境轴)上探讨物种的变化情况。例如:RDA,CCA,DCCA等。(4)约束性排序(直接排序):在特定的梯度上(环境轴)上探讨物种的变化情况。例如:RDA,CCA,DCCA等。 (5)非约束性排序(间接排序):寻求潜在的或 在间接的环境梯度来解释物种数据的变化。 (6)偏分析:预先剔除物种变化中由协变量产生的效应,再通过排序揭示剩下物种变化的排序方法。 (7)混合排序分析:前面若干轴采用约束排序,而剩下的轴是非约束性排序的梯度分析方法。
(8)非约束性排序方法 • 主成分分析(Principal components analysis, PCA) • 对应分析(Correspondence analysis, CA) • 去趋势对应分析(Detrended Correspondence analysis, DCA) • 主坐标分析(Principal coordinates analysis, PCO) • (9)约束性排序 • 冗余分析(Redundancy analysis, RDA) • 典范对应分析(Canonical Correspondence analysis, CCA) • 去趋势典范对应分析( Detrended Canonical Correspondence analysis, DCCA) • 典型变量分析(Canonical variate analysis, CVA, db-RDA) (10)物种响应环境梯度模型
线性响应模型经常可以通过传统的方法(最小二乘法)回归拟合。线性响应模型经常可以通过传统的方法(最小二乘法)回归拟合。 • 但对于单峰响应模型,估计物种在环境梯度上最适值最简单的方法就是通过基于所有包含该物种的n个样方中环境因子值的加权平均得到。具体算法如下:
上式中,Envi是第i个样方的环境因子值,Abundi是物种在i样方的多度。上式中,Envi是第i个样方的环境因子值,Abundi是物种在i样方的多度。
梯度分析 直接排序 间接排序 RDA CCA PCA CA DCCA DCA
梯度分析 线性模型 单峰模型 直接排序 间接排序 直接排序 间接排序 PCA CCA RDA CA DCCA DCA
第二章 认识CANOCO软件 • CANOCO (CANonical Community Ordination)能够洞察: • (1)生物群落结构 • (2)生物群落与环境间的关系 • (3)生态学的假设检验 • (4)在生物群落中进行的复杂生态学和生态毒理实验的相关处理所产生的影响
1 软件模块 (1 )CANOCO for Window 4.5 这个程序是CANOCO的核心。通过使用它,你可以指定要分析的数据和排序模型,选择分析的类型。 CANOCO for Window带有比较全面的排序方法。核心部分是基于线性模型的PCA和RDA,基于单峰的模型的CA,DCA和CCA。在这些基本排序方法基础上,CANOCO也可以做CVA(典范变量分析),PCoA(主坐标分析)。但NMDS并没有被包括,因为的确用得很少。
(2) WCanoImp 这个程序的功能构建数据。但这个程序用法受到了window的剪贴板和电子表格文件的限制。比如在Excel2003以前的版本,列数仅有256列,这就意味着样方数或物种数不能两个同时超过256个,否则需要分割。当然行数宽松点,但不能超过65536行。如果你的数据超过这个限制,你可以将你的数据分割为几个部分,经过WCanoImp转化后,再用CanoMerge程序拼接起来。
(3)CanoMerge 1) 首要的任务是连接两个或多个包含相同样方但不同变量的数据文件。 2) 可以用来将您的数据文件输出带制表符分隔的ASCII(文本)文件。 3) 最后一个功能是可以过滤掉一些低频率的物种。 (4)CanoDraw for Windows 用来做排序图的程序。
3 CANOCO中的排序方法 • (1)描述单个数据集结构的方法---排序/间接梯度分析。例如描述一个生物群落的结构或者环境变量间的相关结构。 • (2)用一个数据集解释另一个数据集---典范排序/直接梯度分析。例如使用环境数据解释或预测物种的多度。
(3)一个数据集被另一个数据集解释后,再被第三个数据解释---偏典范排序。例如季节效应被校正后,使用环境数据解释或预测物种多度。(3)一个数据集被另一个数据集解释后,再被第三个数据解释---偏典范排序。例如季节效应被校正后,使用环境数据解释或预测物种多度。 • (4)描述一个被一个数据集解释后的数据集结构---偏排序。例如描述季节效应校正后的群落结构。
4 CANOCO中的响应模型 • (1)线性模型 • (2)单峰模型 • (3)去趋势的单峰模型
5 CANOCO的结果 • (1)排序图和一些变异解释的数量描述。 • (2)环境变量解释的变异量。 • (3)环境变量的显著性检验。 • (4)第一排序轴及总体排序轴的显著性检验。
第三章 操作示范 • 1 重点与难点 • (1) 决定排序的模型:单峰还是线性? • (2) PCA或RDA排序:中心化和标准化 • (3) DCA排序:除趋势对应分析 • (4) 排序得分(坐标)的尺度比例
2 分类示范 • 2.1 非限制性排序(只有物种数据) • 2.1.1 PCA • (1) 排序尺度比例
这一步的目的是决定样方得分是如何尺度化?这一步操作的效应是样方和物种的得分范围相对于另一尺度而言,是扩大或者是缩小,对于特征值相似的轴,这一步的选择是不重要的。这一步的目的是决定样方得分是如何尺度化?这一步操作的效应是样方和物种的得分范围相对于另一尺度而言,是扩大或者是缩小,对于特征值相似的轴,这一步的选择是不重要的。 • 对于名义环境变量定义的样方,样方尺度可以通过样方组间的距离解释样方组间的相似性。 • 对于数量型环境变量,物种尺度可以反映环境数据间的相关性。但是环境的效应大小最好通过样方尺度解释。 • 对于既有名义型环境变量又有数量型环境变量的数据,任何一种尺度都是合理的。 • 无论你选择何种尺度,排序图展示如下信息:物种的主要格局、物种和数量型环境变量间的关系以及对于名义型的环境变量,每个组中物种的平均值。
(1)在线性模型中,你需要决定物种的箭头所要表示的意义:物种的多度(多度大的箭头长)或者是要反映由物种多度转化的可比较尺度(所能解释的百分比)。(1)在线性模型中,你需要决定物种的箭头所要表示的意义:物种的多度(多度大的箭头长)或者是要反映由物种多度转化的可比较尺度(所能解释的百分比)。 • (2)如果你选择“divided by the standard deviation”, 物种箭头表示在排序空间内展示的物种变化量的比例,是个相对值;如果你选择“do not post-transform”,物种箭头表示的是物种在排序空间内的多度变化量,是个绝对值。
(1)基于线性模型的排序方法都涉及数据的中性化与标准化。(1)基于线性模型的排序方法都涉及数据的中性化与标准化。 • (2)样方的中心化是让每个样方的平均值为0,物种中性化是让每个物种的平均值为0。 • (3)样方(或物种)的标准化是让每行(或列)的范数等于1。在数值上,范数等于列或行内各值平方和的平方根。 • (4)中心化和标准化不是必须都得进行。几乎基于线性模型的数据都需要中性化,但不一定标准化;如果都进行,中心化必须先进行;物种数据的量纲不同,物种数据必须标准化(样方数据可能不需要)。
(1) DCA一般都用区间去趋势“by segments ” ;DCCA一般用多项式去趋势 “by polynomials” 。 • (2) 多项式去趋势阶数的选择标准:环境因子小于10个,选2阶;小于13个,选3阶,大于13个,选4阶。 • (3) 注意:对于约束排序,去趋势一般是不必要的。
2.2 限制性排序 • 2.2.1 相关知识---蒙特卡罗检验 • (1)主要作用是检验限制性排序模型的显著性。 • (2)置换检验和传统检验的区别是,前者利用自己产生的分不作为零假设的分布,后者利用现成已知的分布作为零假设的分布。
上式nx表示产生的置换数不低于随机置换分析的数量。N代表总的置换数。上式nx表示产生的置换数不低于随机置换分析的数量。N代表总的置换数。 这的λ1代表第一轴的特征根,也代表第一轴所能解释的变化量。而RSS是残差平方和 (the residual sum of square)缩写,代表不能被第一轴所能解释的物种变化量。n是轴的数量,p代表主环境变量的数量,q代表协环境变量的个数。
在样方尺度中,样方得分是物种得分的加权平均,即出现在某个样方中的物种分布于该样方的周围;在物种尺度上,物种得分是样方得分的加权平均,即物种点在该物种生态位的中央。加权平均法的解释采用中心法则。在样方尺度中,样方得分是物种得分的加权平均,即出现在某个样方中的物种分布于该样方的周围;在物种尺度上,物种得分是样方得分的加权平均,即物种点在该物种生态位的中央。加权平均法的解释采用中心法则。
尺度的类型(Hill's scaling Vs. biplot scaling)是解决这样的问题:除了使用中性法则,如何从物种-样方的排序图中推论物种数据? • 如果你选择物种距离,排序图可以准确显示不同物种发生格局的相异性。如果是biplot scaling,相异性通过卡方距离度量;如果是Hill's scaling ,相异性通过the generalized Mahalanobis distance度量。
“Hill's scaling”适用于物种梯度较长的类型(距离法则);“biplot scaling”适用于物种比较集中,梯度较短的类型。一般用后者即可,它能通过biplot rule为排序图提供一个更量化的解释。
第四章 排序图的解读 一个物种与与样方的双序图,将以最佳的方式要么展示物种间的关系或者样方间的关系,而不是两者都展示。两种排序的差异是简单的:一个排序图是另一种排序图的重新线性标度。当然,二者折中的尺度也是可能的(如下图)。
在样方关系图中,每个轴样方得分的变异反映了每个轴的重要性,通过特征值来度量,而每个轴的物种得分都是相等的(或者在Hill's scaling)。因此,第一轴的样方得分较第二轴的分散程度较大。 • 在物种关系图中,每个轴的物种得分变异反映了每个轴的重要性,而该轴上的样方得分都是相等的(或者在Hill's scaling)。因此,第一轴的物种得分较第二轴的分散程度较大。
如何解释排序图呢? 这可以通过样方、物种、环境在每个轴上的得分间的关系实现。这有两种重要的相关关系:中心相关(centroid relations)和回归相关(regression relations),对应的法则叫做centroid principle 和 biplot rule。 • (1)Centroid principle: 在默认的CA或CCA中,物种的得分是样方的加权平均。因此,在CA或CCA排序图中,物种的点在包含该物种的样方点的中央,这样包含该物种的样方点散步在该物种的周围,这种图就叫做joint plots。
(2) Regression rule: 在PCA或RDA中,物种的得分是物种数据对样方得分的回归,这样,物种得分就是一个斜率参数,连接原点与物种点,可以得到物种在每个轴拟合多度值的变化速率。将样方投射到物种线上,可以的得到每个样方中物种的拟合多度值。 • (3)Distance rule: 距离规则是中心法则的扩展。距离规则说明靠近该物种的样方较远离该物种的样方包含该物种的可能性更大。样方中物种的多度的排序值可以通过样方和物种点间的距离获得。距离法则适用于长梯度的DCA排序(>3-4SD)。
1 线性排序图的解读 在线性排序图(PCA或RDA)中物种和数量型环境因子用箭头表示,定性环境因子和样方用符号表示(质心)。 在线性排序图中(如PCA排序图),如果我们从代表每个样方的点投影到某一物种的箭头,投影点的相对位置可以代表该物种这些样方中多度值排序情况。如果是在RDA图中,投影点代表的是拟合的多度值(即能够被排序模型所解释的部分,非观测值)的排序情况。在PCA图中,物种箭头的起始点的位置表示物种多度平均值位置,如果样方的投影点在箭头的反向延长线上,则表示该物种在此样方内多度小于平均值;反之,则大于平均值。
(1)物种和样方间的关系 样方中物种2的多度值排序:Sa4>Sa2>Sa3>Sa1>Sa5
(2)样方间关系 样方间的距离为欧几里得距离,长度越短表示差异越小,反之越大。
(3)物种间关系 夹角的余弦值
(4)物种与数量型环境变量间关系 夹角的余弦值