500 likes | 711 Views
第十章 线性相关与回归 (Linear Correlation & Regression ). 线性相关与回归. 第一节 线性相关 第二节 线性回归 第三节 线性相关与回归的区别和联系 第三节 等级相关. 线性相关 ( linear correlation). 一、线性相关的基本概念 二、线性相关系数 三、相关系数的显著性检验 四、进行线性相关分析的注意事项. 一、线性相关的基本概念.
E N D
第十章 线性相关与回归 (Linear Correlation & Regression )
线性相关与回归 第一节 线性相关 第二节 线性回归 第三节 线性相关与回归的区别和联系 第三节 等级相关
线性相关(linear correlation) 一、线性相关的基本概念 二、线性相关系数 三、相关系数的显著性检验 四、进行线性相关分析的注意事项
一、线性相关的基本概念 为直观地判断两个变量之间的关系,可在直角坐标系中把每对(Xi,Yi)值所代表的点绘出来,形成散点图。例如12名男青年身高与前臂长资料绘制的散点图如图所示:
若一个变量X由小到大(或由大到小),另 一变量Y亦相应地由小到大或由大到小,则两个 变量的散点图呈直线趋势,我们称这种现象为 共变,也就是这两个变量之间有“相关关系”。 男青年身高与前臂长散点呈直线趋势,即男青年身材高,前臂亦长,说明身高与前臂长之间存在线性相关关系我们把这种关系称为直线相关。
线性相关用于双变量正态资料。它的性质可由散点图直观地说明。散点图中点的分布即线性相关的性质和相关之间的密切程度,可分为以下几种情况:线性相关用于双变量正态资料。它的性质可由散点图直观地说明。散点图中点的分布即线性相关的性质和相关之间的密切程度,可分为以下几种情况: 1.正相关 2.负相关 3.无相关
二、线性相关系数 在分析两个变量X与Y之间关系时,常常要了解X与Y之 间 有无相关关系,相关是否密切,是呈正相关还是负相 关。相关系数就是说明具有直线关系的两个变量间相关 密切程度和相关方向的统计量。 皮尔森(Pearson)相关系数的计算公式为: 相关系数r没有测量单位,其数值为-1≤≤+1
相关系数的计算方法计算时分别可用下面公式带入相关系数r的计算公式中相关系数的计算方法计算时分别可用下面公式带入相关系数r的计算公式中
例10.1 从男青年总体中随机抽取11名男青年组成样 本,分别测量每个男青年的身高和前臂长,身高和前臂长 均以cm为单位,测量结果如下表所示,试计算身高与前 臂长之间的相关系数。
三、相关系数的显著性检验 与前面讲的其它统计量一样,根据样本资料计算出来的相关系数同样存在抽样误差。即假设在一个X与Y无关总体中作随机抽样,由于抽样误差的影响,所得的样本相关系数也常常不等于零。 因此要判断两个变量X与Y是否真的存在相关关系,仍需根据作总体相关系数ρ是否为零的假设检验。
2.用假设检验法,计算统计量 ,其公式为: 常用的检验方法有两种: 1.按自由度直接查附表11的界值表,得到P 值。
例10.1所得的 值检验男青年身高与 前臂长之间是否存在相关关系?
四、进行线性相关分析的注意事项 ⒈ 线性相关表示两个变量之间的相互关系是双向的,分析两个变量之间到底有无相关关系可首先绘制散点图,散点图呈现出直线趋势时,再作分析。 ⒉ 相关系数的计算只适用于两个变量都服从正态分布的情形,如果资料不服从正态分布,应先通过变量变换,使之正态化,再根据变换值计算相关系数。
四、进行线性相关分析的注意事项 ⒊ 依据公式计算出的相关系数仅是样本相关系数,它是总体相关系数的一个估计值,与总体相关系数之间存在着抽样误差,要判断两个事物之间有无相关及相关的密切程度,必须作假设检验。
四、进行线性相关分析的注意事项 ⒋ 相关分析是用相关系数来描述两个变量间相互关系的密切程度和方向,而两个事物之间的关系既可能是依存因果关系,也可能仅是相互伴随的数量关系。决不可因为两事物间的相关系数有统计学意义,就认为两者之间存在着因果关系,要证明两事物间确实存在因果关系,必须凭借专业知识加以阐明。
第二节 线性回归(linear regression) 一、线性回归的基本概念 二、线性回归方程的计算 三、线性回归方程的显著性检验 四、进行线性回归分析的注意事项
一、线性回归的基本概念 相关是分析两个正态变量X与Y之间的互相关系。在相关分析中,分不清X与Y何者为自变量,何者为因变量。现在假设两个变量X 、Y 中,当一个变量X 改变时,另一个变量 Y 也相应地改变,当这样的两个变量之间存在着直线关系时,不仅可以用相关系数 r 表示变量Y与X线性关系的密切程度,也可以用一个直线方程来表示 Y 与 X 的线性关系。 根据大量实测数据,寻找出其规律性,寻求一个直线方程来描述两个变量间依存变化的近似的线性数量关系,即线性回归关系,这样得出的直线方程叫做线性回归方程。
二、线性回归方程的计算 例10.3 有人研究了温度对蛙的心率的影响,得到了表10-2中所示的资料,试进行回归分析。
2.计算回归系数与常数项 在本例中: 则,回归方程为
三、线性回归方程的显著性检验 • 对线性回归方程要进行假设检验,就是要检验b是否为β=0的总体中的一个随机样本。该假设检验通常用方差分析或者t检验,两者的检验效果等价。
线性回归方程的显著性检验-方差分析 • 检验的基本思想: 如果 X 与 Y 之间无线性回归关系, 则 SS回归 与 SS剩余 都是其它随机因素对Y的影响,由此描写变异的 MS回归 与 MS剩余 应近似相等,总体回归系数β=0,反之,β≠0。于是,可用 F 检验对 X 与 Y 之间有无回归关系进行检验。
对例10.3的回归方程用方差分析进行假设检验 (1)建立检验假设 β=0 β≠0 α=0.05 (2)计算统计量 SS总 SS回归 SS剩余= SS总-SS回归=88.31
(3)确定P值得出统计结论 查F界值表, V回归= 1, V剩余= 9, 拒绝 可以认为温度与蛙的心率之间存在线性回归关系。
细心的读者可以发现统计量 F 与 t 之间存在着关系 。本例 。 对例10.3的回归方程用t 检验进行假设检验 (1)建立假设检验 β=0 β≠0 α=0.05 (2)计算统计量 V =11-2=9 (3)确定P值作结论 根据V =9, 3.250, P <0.01,拒绝H0, 结论与F 检验相同。
四、进行线性回归分析的注意事项 ⒈ 只有将两个内在有联系的变量放在一起进行回归分析才是有意义的。 ⒉ 作回归分析时,如果两个有内在联系的变量之间存在的是一种依存因果的关系,那么应该以“因”的变量为X ,以“果”的变量为Y 。如果变量之间并无因果关系,则应以易于测定、较为稳定或变异较小者为X 。 ⒊ 在回归分析中,因变量是随机变量,自变量既可以是随机变量(II型回归模型,两个变量应该都服从正态分布),也可以是给定的量(I型回归模型,这时,与每个X 取值相对应的变量Y必须服从正态分布),如果数据不符合要求,在进行回归分析前,必须先进行变量的变换。
四、进行线性回归分析的注意事项 ⒋ 回归方程建立后必须作假设检验,只有经假设检验拒绝了无效假设,回归方程才有意义。 ⒌ 使用回归方程计算估计值时,不可把估计的范围扩大到建立方程时的自变量的取值范围之外。
第三节 线性相关和回归的区别与联系
一、线性相关与回归的区别 ⒈ 相关系数的计算只适用于两个变量都服从正态分布的情形,而在回归分析中,因变量是随机变量,自变量既可以是随机变量(II型回归模型,两个变量都应该服从正态分布),也可以是给定的量(I型回归模型,这时,与每个X 取值相对应的变量Y必须服从正态分布)。 ⒉ 线性相关表示两个变量之间的相互关系是双向的,回归则反映两个变量之间的依存关系,是单向的。
二、线性相关与回归的联系 ⒊ 如果对同一资料进行相关与回归分析,则得到的相关系数r与回归方程中的b正负号是相同的。 ⒋ 在相关分析中,求出r后要进行假设检验,同样,在回归分析中,对b也要进行假设检验。实际上,通过数学推导,对同一样本可以得出r与b互化的公式,同一样本的这两种假设检验也是等价的。因此,由于r的假设检验可以直接查表,较为简单,所以可以用其代替对b的假设检验。
二、线性相关与回归的联系 ⒌ 相关回归可以互相解释。 R 的平方称为确定系数 (coefficient of determination) 应用确定系数,也可以从回归的角度对相关程度做进一步的了解。
第四节 等级相关 • 如果观测值是等级资料,则可以用等级相关来 表达两事物之间的关系。 • 等级相关是分析X、Y 两变量等级间是否相关的一种非参数方法。 • 常用的等级相关方法是Spearman等级相关。 • 与线性相关系数r 一样,等级相关系数 rs的数值亦在 -1与 +1之间,数值为正表示正相关,数值为负表示负相关。
一、等级相关系数的计算 Spearman 等级相关系数 rs可由公式计算 式中,n 表示样本含量; d 表示 X、Y 的秩次之差。
例10.4 某医生做一种研究,欲了解人群中氟骨症患病率(%)与饮用水中氟含量(mg/l)之间的关系。随机观察8个地区氟骨症患病率与饮用水中氟含量,数据如表10-4(2)、(4)两栏。试计算等级相关系数rs。
称 2.差数d,见(6)栏,注意 3.算d2见(7)栏,本例 4.代入公式(10-18)计算 rs
若资料中相同观察值的例数较多时,计算的结果偏差较大,若资料中相同观察值的例数较多时,计算的结果偏差较大, 此时可由公式 计算校正的 rs 值 rs′。
二、等级相关系数的显著性检验 rs 是由样本资料计算出的相关系数,亦存在抽样误差问题,故要推断总体中两变量间有无线性相关关系,须经假设检验。
检验步骤 1. 建立假设检验 无效假设:ρs=0;备择假设:ρs ≠0; 2. 计算统计量 3. 给出结论 当n≤50时,查附表12中的等级相关系数rs界值表。 当n> 50时,可查附表11(r界值表),取自由度 ν=n-2,查 rα(n-2), 若rs>rα(n-2),则P<α拒绝H0, 若 rs<rα(n-2),则P>α不拒绝H0。
(2)计算统计量 P < 0.05 例10.4 的假设检验 (1)建立假设检验 无效假设:ρs=0 备择假设:ρs ≠0 (3)确定P 值作出结论 查附表12中的等级相关系数界值表 拒绝H0,接受H1
注意: 当n> 50时, 可查附表11(r界值表),取自由度ν=n-2,查 , 若 rs > ,P<α,则拒绝H0, 若 rs < ,P>α,则接受H1。