430 likes | 1.06k Views
第十章 线性相关与回归 ( Linear Correlation & Regression ). 要求: 掌握: 直线相关的概念、相关系数的意义、相关系数假设检验的意义;直线回归的概念、回归系数假设检验的意义;相关与回归的区别;直线相关与回归的注意事项。 了解: 相关系数及相关系数假设检验的计算方法;回归方程建立的方法与回归系数假设检验的方法。. 第一节 线性相关( linear correlation ). 一、线性相关的基本概念 二、线性相关系数 三、相关系数的显著性检验 四、进行线性相关分析的注意事项.
E N D
第十章 线性相关与回归 (Linear Correlation & Regression ) 要求: 掌握:直线相关的概念、相关系数的意义、相关系数假设检验的意义;直线回归的概念、回归系数假设检验的意义;相关与回归的区别;直线相关与回归的注意事项。 了解:相关系数及相关系数假设检验的计算方法;回归方程建立的方法与回归系数假设检验的方法。
第一节 线性相关(linear correlation) 一、线性相关的基本概念 二、线性相关系数 三、相关系数的显著性检验 四、进行线性相关分析的注意事项
例 从男青年总体中随机抽取11名男青年组成样本, 分别测量每个男青年的身高和前臂长
一、线性相关的基本概念 为直观地判断两个变量之间的关系,可在直角坐标系中把每对(Xi,Yi)值所代表的点绘出来,形成散点图。例如12名男青年身高与前臂长资料绘制的散点图如图所示:
若一个变量X由小到大(或由大到小),另 一变量Y亦相应地由小到大或由大到小,则两个 变量的散点图呈直线趋势,我们称这种现象为 共变,也就是这两个变量之间有“相关关系”。 男青年身高与前臂长散点呈直线趋势,即男青年身材高,前臂亦长,说明身高与前臂长之间存在线性相关关系,我们把这种关系称为直线相关。
线性相关用于双变量正态资料。它的性质可由散点图直观地说明。散点图中点的分布即线性相关的性质和相关之间的密切程度,可分为以下几种情况:线性相关用于双变量正态资料。它的性质可由散点图直观地说明。散点图中点的分布即线性相关的性质和相关之间的密切程度,可分为以下几种情况: 1.正相关 2.负相关 3.无相关
二、线性相关系数 在分析两个变量X与Y之间关系时,常常要了解X与Y之 间有无相关关系,相关是否密切,是呈正相关还是负相 关。相关系数就是说明具有直线关系的两个变量间相关 密切程度和相关方向的统计量。 皮尔森(Pearson)相关系数的计算公式为: 相关系数r没有测量单位,其数值为-1≤ r≤1
相关系数的计算方法计算时分别可用下面公式带入相关系数r的计算公式中相关系数的计算方法计算时分别可用下面公式带入相关系数r的计算公式中
例 从男青年总体中随机抽取11名男青年组成样本, 分别测量每个男青年的身高和前臂长,身高和前臂长 均以cm为单位,测量结果如下表所示,试计算身高与前 臂长之间的相关系数。
三、相关系数的显著性检验 与前面讲的其它统计量一样,根据样本资料计算出来的相关系数同样存在抽样误差。即假设在一个X与Y无关总体中作随机抽样,由于抽样误差的影响,所得的样本相关系数也常常不等于零。 因此要判断两个变量X与Y是否真的存在相关关系,仍需根据作总体相关系数ρ是否为零的假设检验。
2.用假设检验法,计算统计量 ,其公式为: 常用的检验方法有两种: 1.按自由度直接查附表11的界值表,得到P 值。
例10.1所得的 r 值检验男青年身高与 前臂长之间是否存在相关关系?
四、进行线性相关分析的注意事项 ⒈ 线性相关表示两个变量之间的相互关系是双向的,分析两个变量之间到底有无相关关系可首先绘制散点图,散点图呈现出直线趋势时,再作分析。 ⒉ 相关分析要求x、y是来自双变量正态总体的随机变量,一个变量的数值人为选定时不能作相关。
四、进行线性相关分析的注意事项 ⒊ 依据公式计算出的相关系数仅是样本相关系数,它是总体相关系数的一个估计值,与总体相关系数之间存在着抽样误差,要判断两个事物之间有无相关及相关的密切程度,必须作假设检验。
四、进行线性相关分析的注意事项 ⒋ 相关分析是用相关系数来描述两个变量间相互关系的密切程度和方向,而两个事物之间的关系既可能是依存因果关系,也可能仅是相互伴随的数量关系。决不可因为两事物间的相关系数有统计学意义,就认为两者之间存在着因果关系,要证明两事物间确实存在因果关系,必须凭借专业知识加以阐明。
出现异常值时慎用相关 分层资料盲目合并易出假象
第二节 线性回归(linear regression) 一、线性回归的基本概念 二、线性回归方程的计算 三、线性回归方程的显著性检验 四、进行线性回归分析的注意事项
一、线性回归的基本概念 相关是分析两个正态变量X与Y之间的互相关系。在相关分析中,分不清X与Y何者为自变量,何者为因变量。现在假设两个变量X 、Y 中,当一个变量X 改变时,另一个变量 Y 也相应地改变,当这样的两个变量之间存在着直线关系时,不仅可以用相关系数 r 表示变量Y与X线性关系的密切程度,也可以用一个直线方程来表示 Y 与 X 的线性关系。 根据大量实测数据,寻找出其规律性,寻求一个直线方程来描述两个变量间依存变化的数量关系,即线性回归关系,这样得出的直线方程叫做线性回归方程linear regression equation。
a 为回归直线在 Y 轴上的截距x取0时,y的平均估计值 • a > 0,表示直线与纵轴的交点在原点的上方 • a < 0,则交点在原点的下方 • a = 0,则回归直线通过原点
b为回归系数,即直线的斜率 • b>0,直线从左下方走向右上方,Y 随 X 增大而增大 • b<0,直线从左上方走向右下方,Y 随 X 增大而减小 • b=0,表示直线与 X 轴平行,X 与Y 无直线关系 b 的统计学意义是:X 每增加(减)一个单位,Y 平均改变b个单位
直线回归 Method of least square 最小二乘法原理: 各点到回归线的纵向 距离的平方和最小。 使计算出的回归直线最能代表实测数据所反映出的直线趋势
二、线性回归方程的计算 例10.3 有人研究了温度对蛙的心率的影响,得到了表10-2中所示的资料,试进行回归分析。
2.计算回归系数与常数项 在本例中: 则,回归方程为
三、线性回归方程的显著性检验 • 对线性回归方程要进行假设检验,就是要检验b是否为β=0的总体中的一个随机样本。该假设检验通常用方差分析或者t检验,两者的检验效果等价。
H0: β=0(两变量之间无直线关系) H1:β≠0 α=0.05 ν=n-2
对例10.3的回归方程用t 检验进行假设检验 (1)建立假设检验 β=0 β≠0 α=0.05 (2)计算统计量 V =11-2=9 (3)确定P值作结论 根据V =9, 3.250, P <0.01,拒绝H0,
直线回归方程的应用 1. 描述两个变量之间的数量依存关系。 2. 利用回归方程进行预测 (1)由现在已知的变量值预测将来未知的变量值 (父母身高预测子女身高) (2)由易测的变量值估算难测的变量值 (体重预测体表面积) 3. 利用回归方程进行控制 利用回归方程进行逆估计
四、进行线性回归分析的注意事项 ⒈ 只有将两个内在有联系的变量放在一起进行回归分析才是有意义的。 ⒉ 作回归分析时,如果两个有内在联系的变量之间存在的是一种依存因果的关系,那么应该以“因”的变量为X ,以“果”的变量为Y 。如果变量之间并无因果关系,则应以易于测定、较为稳定或变异较小者为X 。 ⒊ 在回归分析中,因变量是随机变量,自变量既可以是随机变量(II型回归模型,两个变量应该都服从正态分布),也可以是给定的量(I型回归模型,这时,与每个X 取值相对应的变量Y必须服从正态分布),如果数据不符合要求,在进行回归分析前,必须先进行变量的变换。
四、进行线性回归分析的注意事项 ⒋ 回归方程建立后必须作假设检验,只有经假设检验拒绝了无效假设,回归方程才有意义。 ⒌ 使用回归方程计算估计值时,不可把估计的范围扩大到建立方程时的自变量的取值范围之外。
第三节 线性相关和回归的区别与联系 1. 应用情况不同 说明两变量依存变化的数量关系用回归 说明两变量间的相关关系用相关 区别
2.资料要求不同 回归: Ⅰ型回归 y是随机正态变量, x是一般变量,可以精确测量和控制的变量 Ⅱ型回归 双变量均为随机正态变量, 可计算两个回归方程 由x推y的回归方程 由y推x的回归方程 相关:双变量均为随机正态变量 区别
区别 3.意义: b表示X每增(减)一个单位时,Y平均改变b个单位;r说明具有直线关系的两个变量间关系的密切程度与相关方向。 4.计算: 5.取值范围: -∞<b<+∞; -1≤r≤1
联系 1.假设检验等价 对同一样本,r和b的假设检验得到的t值是相等的,实际应用中常以r的假设检验代替b的假设检验。 2.方向一致 对一组数据,若同时计算b、r, 则它们的正负号是一致的
一、线性相关与回归的区别 ⒈ 相关系数的计算只适用于两个变量都服从正态分布的情形,而在回归分析中,因变量是随机变量,自变量既可以是随机变量(II型回归模型,两个变量都应该服从正态分布),也可以是给定的量(I型回归模型,这时,与每个X 取值相对应的变量Y必须服从正态分布)。 ⒉ 线性相关表示两个变量之间的相互关系是双向的,回归则反映两个变量之间的依存关系,是单向的。
二、线性相关与回归的联系 ⒊ 如果对同一资料进行相关与回归分析,则得到的相关系数r与回归方程中的b正负号是相同的。 ⒋ 在相关分析中,求出r后要进行假设检验,同样,在回归分析中,对b也要进行假设检验。实际上,通过数学推导,对同一样本可以得出r与b互化的公式,同一样本的这两种假设检验也是等价的。因此,由于r的假设检验可以直接查表,较为简单,所以可以用其代替对b的假设检验。
二、线性相关与回归的联系 ⒌ 相关回归可以互相解释。 R 的平方称为确定系数 (coefficient of determination) 应用确定系数,也可以从回归的角度对相关程度做进一步的了解。