510 likes | 669 Views
方差、相关与回归分析. 主要内容. 方差分析 方差分析的过程 单因素方差分析 二因素方差分析 相关分析 相关分析的过程 回归分析 一元回归 多元回归. 9.2 方差方析. 方差分析是检验两个或两个以上样本均数间差异是否显著的方法。 在比较几个组时, H 0 假设通常是设各组平均值相等 。 检验两个均数间差别的显著性可以用 t 检验法,也可用方差分析法。. 方差分析的基本概念. 样本均数间所以有差别,可能有两 种原因造成: 首先它们必须有抽样误差(个体间变异的影响; 其次,如果各组所接受的不同处理方法是有不同的作用的,那么,它也是由于处理不同所造成的。.
E N D
主要内容 • 方差分析 • 方差分析的过程 • 单因素方差分析 • 二因素方差分析 • 相关分析 • 相关分析的过程 • 回归分析 • 一元回归 • 多元回归
9.2 方差方析 • 方差分析是检验两个或两个以上样本均数间差异是否显著的方法。 在比较几个组时,H0假设通常是设各组平均值相等。 • 检验两个均数间差别的显著性可以用t检验法,也可用方差分析法。
方差分析的基本概念 • 样本均数间所以有差别,可能有两 种原因造成: • 首先它们必须有抽样误差(个体间变异的影响; • 其次,如果各组所接受的不同处理方法是有不同的作用的,那么,它也是由于处理不同所造成的。
方差分析的基本概念 如果处理是没有作用的,即各样本均数来自同一总体,那么用方差分析的方法可以算出个体间变异σ2的估计值组内均方(M.S组内)。这时,由方差分析法算出的组间均方(M.S组间),也是个体间变异σ2的估计值。如以组内均方除组间均方,称之为F值,即F=M.S组间/M.S组内,则由于组间和组内均方都是个体间变异σ2的估计值,因之,如无抽样误差则F应该等于1。但由于组间和组内均方都只是σ2的估计值,由于抽样误差的关系,组间均方和组内均方都不正好等于σ2,因之F也不正好等于1,而可以大于或小于1。
方差分析的基本概念 但由于样本来自相同总体,F值一般不会距1很远,其分布情况(F分布)与组间和组内自由度有关。 与此相反,如果处理是确有作用的,即各样本均数不是取自相同总体,这时用方差分析计算出来的组内均方仍是个体间变异σ2的估计值。但组间均方则不仅是个体变异所致,同时也由于处理的作用不同所致。
9.2 方差方析 • 方差分析的基本思想是把全部数据关于总均值的离均差平方和分解成几个部分,每一部分表示某因素或交互作用所产生的效应,将各部分均方与误差均方相比较,从而确认或否认某些因素或交互作用的重要性。
方差分析公式概括为: • 总变异=组间变异+组内变异 其中:组间变异由各因素所引起;组内变异由个体差异或者说由误差引起的。
常用的方差分析法有以下4种: • 完全随机设计资料的方差分析(单因素方差分析) • 随机区组设计资料的方差分析(两因素方差分析) • 拉丁方设计资料的方差分析(三因素方差分析) • R*C析因设计资料的方差分析(有交互因素的方差分析)
SAS系统中,ANOVA过程可以处理以上情形的方差分析,但它要求每个分类因子的组合观察数相等,即数据是均衡的。若不均衡,就要求用GLM过程进行处理。SAS系统中,ANOVA过程可以处理以上情形的方差分析,但它要求每个分类因子的组合观察数相等,即数据是均衡的。若不均衡,就要求用GLM过程进行处理。
9.2.1 均衡数据的方差方析 1. 过程格式: • PROC ANOVA [DATA=数据集]; • CLASS 变量; • MODEL 因变量=效应; • MEANS 效应[/选择项];
2. 说明 (1)程序中,CLASS语句和MODEL语句是必需的,并且CLASS语句必须出现在MODEL语句之前。 (2)CLASS语句中的变量是分类变量,可以是数值型,也可以是字符型。
(3)MODEL语句指明因变量和自变量(因子变量)效应,其效应可以是主效应、交互效应、嵌套效应和混合效应。(3)MODEL语句指明因变量和自变量(因子变量)效应,其效应可以是主效应、交互效应、嵌套效应和混合效应。
常用MODEL语句效应模型如下: 1)主效应模型 MODEL y=a ;(单因素方差分析模型) MODEL y=a b;(二因素方差分析模型) MODEL y=a b c;(三因素方差分析模型) 模型中,a ,b ,c 是主效应,y 是因变量。
2)交互效应模型 MDOEL y=a b a*b MDOEL y=a b c a*b a*c b*c a*b*c; 模型中, a ,b ,c 是主效应, a*b,a*c,b*c,a*b*c 是交互效应,y 是因变量。
(4) MEANS语句是选择语句,计算并输出所列的效应对应的因变量均数,若指明了选择项,则将进行主效应均数间的检验。常用的选择项如下: SNK(Q检验)均数间两两比较 DUNCAN 一组均数与其余各组比较 ALPHA=p用以确定检验的显著性水平。缺省值是0.05。
3.举例 例1.完全随机设计资料的方差分析(单因素方差分析) 某劳动卫生教研组研究棉布、府绸、的确凉、尼龙四种衣料内棉花吸附十硼氢量。每种衣料各做五次测量,所得数据如表9-4。试检验各种衣料间棉花吸附十硼氢量有没有显著差别?
程序如下: DATA an; DROP i; DO i=1 TO 5; DO a=1 TO 4; INPUT x @@; OUTPUT; END; END; CARDS; 2.33 2.48 3.06 4.00 2.00 2.34 3.06 5.13 2.93 2.68 3.00 4.61 2.73 2.34 2.66 2.80 2.33 2.22 3.06 3.60
PROC ANOVA; CLASS a; MODEL x=a; RUN;
例2.随机区组设计资料的方差分析(两因素方差分析)例2.随机区组设计资料的方差分析(两因素方差分析) 用4种不同方法治疗8名患者,其血浆凝固时间的资料如表9-5,试作方差分析。 数据步中,变量a代表不同治疗方法,其水平数是4,变量b代表区组因素,其水平数是8。过程步中,用CLASS语句指明两个因素a和b,用MODEL语句指明二因素的效果模型。
DATA an; DO b=1 TO 8; DO a=1 TO 4; INPUT x @@; OUTPUT; END; END; CARDS; 8.4 9.4 9.8 12.2 12.8 15.2 12.9 14.4 9.6 9.1 11.2 9.8
9.8 8.8 9.9 12.0 8.4 8.2 8.5 8.5 8.6 9.9 9.8 10.9 8.9 9.0 9.2 10.4 7.9 8.1 8.2 10.0 PROC ANOVA; CLASS a b; MODEL x=a b; RUN;
例6.用SNK法(Q检验)作均数间的两两比较 研究酵解作用对血糖浓度的影响,我们从8名健康人中抽取了血液并制备成血滤液。每一个受试者的血滤液又分成4份,然后随机地把各份血滤液分别放置0、45、90、135分钟后测定其中血糖浓度(资料见表9-9)。试比较放置时间对血糖浓度有无影响。
DATA an; DO a=1 TO 8; DO b=0 TO 135 BY 45; INPUT x @@; OUTPUT; END; END; CARDS;
95 95 89 83 95 94 88 84 106 105 97 90 98 97 95 90 102 98 97 88 112 112 101 94 105 103 97 88 95 92 90 80
PROC ANOVA; CLASS a b; MODEL x=a b; MEANS b/SNK; RUN;
第十章 相关与回归 在医学上人的身高与体重、体温与脉搏次数、年龄与血压、药物剂量与疗效等均有一定的联系。说明客观事物或现象相互关系的密切程度并用适当的统计指标表示出来,这是相关分析的任务。把客观事物或现象间的关系用函数形式表示出来,则是回归分析所要解决的问题。
第十章 相关与回归 CORR过程计算变量间的相关系数,包括PEARSON积矩相关系数等,同时给出单变量描述统计。 REG过程是SAS中通用的基本的回归分析过程,它是用最小二乘法原理求解线性回归方程的有效过程。此外,因为逐步回归分析的方法在实际工作中应用甚广,故将其单独提出来介绍如何使用REG过程进行逐步回归分析。
10.1 CORR 过程 10.1.1 相关分析 相关是研究随机变量之间相互关系的统计分析方法,它研究随机变量之间相互关系的密切程度。 线性相关,又称简单相关。其统计指标是PEARSON 相关系数 r 。
当研究多个随机变量之间的相互关系时,可对变量进行多元线性相关分析。多元线性相关的统计量是全相关系数R和各偏相关系数。在多元线性相关分析中,变量之间的关系是错综复杂的,两个变量间的简单线性相关系数往往不能正确说明两者的真实关系,只有在其它变量固定,即扣除了其它变量的影响后,计算两变量间的偏相关系数才能反映此两变量的真实情况。当研究多个随机变量之间的相互关系时,可对变量进行多元线性相关分析。多元线性相关的统计量是全相关系数R和各偏相关系数。在多元线性相关分析中,变量之间的关系是错综复杂的,两个变量间的简单线性相关系数往往不能正确说明两者的真实关系,只有在其它变量固定,即扣除了其它变量的影响后,计算两变量间的偏相关系数才能反映此两变量的真实情况。
当变量不服从正态分布时,例如按等级分类或相对数资料,这时需用非参数相关分析方法,如等级相关分析法等。当变量不服从正态分布时,例如按等级分类或相对数资料,这时需用非参数相关分析方法,如等级相关分析法等。
10.1.2 语句说明 1. 过程格式 PROC CORR [选择项]; VAR 变量表; WITH 变量表; PARTIAL 变量表; WEIGHT 变量; FREQ 变量; BY 变量表;
2.说明 (1) PROC CORR 语句 PROC CORR [选择项]; PROC CORR 语句的选择项主要有: PEARSON 计算通常的PEARSON积矩相关,是缺省值。 KENDALL 计算肯德尔τ-b系数。 SPEARMAN 计算斯皮尔曼等级相关系数。
HOEFFDING 计算霍夫丁D统计量。 OUTP=dataset 产生含有PEARSON 相关的一个新数据集。 NOMISS 将带有某一变量缺项值的观测值从所有计算中除去。 NOSIMPLE 抑制简单统计。
(2) VAR 语句 (3) WITH 语句 WITH 变量表; 指明特别配对的变量名, 与VAR语句配对使用,VAR语句列出相关矩阵上部出现的变量,WITH语句列出左侧出现的变量。 (4) PARTIAL 语句 PARTIAL 变量表; 指明求偏相关系数时需要固定的偏变量名。
DATA ABC; INFILE 'd:\panyan\corr.dat'; INPUT NO HEIGHT WEIGHT VITAL; PROC CORR; VAR HEIGHT WEIGHT VITAL; PROC CORR NOSIMPLE; VAR HEIGHT WEIGHT; WITH VITAL; PROC CORR NOSIMPLE; VAR HEIGHT VITAL; PARTIAL WEIGHT; RUN;
10.2 REG 过程 10.2.1 简介 回归是研究随机变量和非随机变量之间的数量依存关系的统计分析方法。当自变量X与因变量Y之间呈直线关系时,称为直线回归。直线回归要求因变量Y是服从正态分布的且方差相等。
当自变量不只一个时,可进行多元线性回归分析。研究一个因变量与多个自变量之间的线性依存关系,称为多元线性回归。当自变量不只一个时,可进行多元线性回归分析。研究一个因变量与多个自变量之间的线性依存关系,称为多元线性回归。 REG 过程是用最小二乘法原理求解线性回归方程的过程。
10.2.2 语句说明 1. 过程格式 PROC REG [选择项]; MODEL 因变量=自变量 /[选择项]; VAR 变量; FREQ 变量; WEIGHT 变量; BY 变量;
(1)PROC REG 语句 PROC REG [选择项];(略) (2)MODEL 语句 MODEL 因变量=自变量表/[选择项]; 指明因变量和自变量, 选择项是有关回归计算、估计、预测值和残差,常用的选择项有:
STB 打印标准回归系数 CORRB 打印估计的相关矩阵 COLLINOINT 请求进行自变量的共线 性分析 P 计算预测值及残差 R 请求分析残差 CLM 打印因变量均值95%的 置信界限的上下限 CLI 对各预测值打印95%的 置信界限的上下限
3. 举例 (1) 简单线性回归分析 仍以上节相关分析资料为例,进行以身高估计肺活量的线性回归分析,同时要求打印出各观测点上因变量均值的95%置信区间。
DATA ABC; INFILE 'd:\panyan\corr.dat'; INPUT NO HEIGHT WEIGHT VITAL @@; PROC REG; MODEL VITAL=HEIGHT/CLM; RUN;
(2)多元线性回归分析 仍以表10-1的资料为例,进行身高、体重与肺活量的多元线性回归分析,程序如下:
DATA ABC; INFILE 'd:\panyan\corr.dat'; INPUT NO HEIGHT WEIGHT VITAL @@; PROC REG; MODEL VITAL=HEIGHT WEIGHT / COLLINOINT; RUN;
10.3 逐步回归分析 在进行逐步回归分析时,应用MODEL语句中的SELECTION=name选择项,来选择用于进行逐步回归分析时模型; 其中name可以是FORWARD(或F); BACKWARD(或B); STEPWISE ;MAXR; MINR; RSQUARE; ADJRSQ; CP; NONE(使用全回归模型)。缺省时使用NONE。
10.3.3 举例 有一个29例儿童的血红蛋白与微量元素的实测资料如表10-3所示,试以钙、镁、铁、铜为自变量对因变量血红蛋白作逐步回归分析。假设此资料已经被建立在 A:BLOOD.DAT中,则可编制程序如下,结果如图10-4所示。