720 likes | 828 Views
第八章 简单相关与直线回归. 上一张. 下一张. 主 页. 退 出. 基本内容. 一、简单相关分析 二、一元线性回归分析 三、注意事项. 上一张. 下一张. 首 页. 退 出. 相关与回归分析. 变量间关系问题:. 仔猪出生重与断奶重的关系 猪瘦肉率与背膘厚度、眼肌面积、胴体长等的关系 动物实验中动物进食量与增加体重的关系 药物剂量与动物死亡率等。. 两个关系: 互依关系:应变量 Y 与自变量 X 间 的彼此关系 —— 相关分析
E N D
第八章 简单相关与直线回归 上一张 下一张 主 页 退 出
基本内容 一、简单相关分析 二、一元线性回归分析 三、注意事项 上一张 下一张 首 页 退 出
相关与回归分析 变量间关系问题: • 仔猪出生重与断奶重的关系 • 猪瘦肉率与背膘厚度、眼肌面积、胴体长等的关系 • 动物实验中动物进食量与增加体重的关系 • 药物剂量与动物死亡率等。 • 两个关系: • 互依关系:应变量Y与自变量 X间的彼此关系 ——相关分析 • 依存关系:应变量(dependent variable)Y随自变量(independent variable)X变化而变化 —回归分析 上一张 下一张 首 页 退 出
双变量计量资料 总体:无限或有限对变量值 样本:从总体随机抽取的n对变量值 (X1,Y1), (X2,Y2), …, (Xn,Yn) 目的:研究X和Y的数量关系 方法:相关与回归 简单、基本——直线回归、直线相关 上一张 下一张 首 页 退 出
名词解释 相关分析 就是用一个指标来表明现象间相互依存关系的密切程度。 回归分析 就是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。 上一张 下一张 首 页 退 出
区别 ①相关分析所研究的变量是对等关系(平行);回归分析所研究的两个变量不是对等关系(因果) 。 ②对两个变量来说,相关分析只能计算出一个相关系数,而回归分析,可建立不同的回归方程。 ③相关分析要求两个变量都必须是随机的,而回归分析的要求,自变量是给定的,因变量是随机的。 上一张 下一张 首 页 退 出
历史背景 十九世纪英国人类学家 F.Galton首次在《自然遗传》一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家 Karl Pearson对上千个家庭的身高、臂长、拃长(伸开大拇指与中指两端的最大长度)做了测量, 发现: 上一张 下一张 首 页 退 出
儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系:儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系: 即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”。 上一张 下一张 首 页 退 出
上一张 下一张 首 页 退 出
小插曲——F.Galton Galton(1822-1911)是一位人类学家,著名生物学家达尔文的表兄弟,早年学医,曾在剑桥大学念书。尽管他的数学不是很好,但在人类学和优生学研究中萌发的统计学思想,对生物统计的发展产生了深远影响,如“回归”、 “双变量正态分布”的概念等。他没有子女,但一生写了9部书,发表了近200篇论文。1860年当选英国皇家学会会员,1909年被封为爵士,1910年获得英国皇家学会Copley奖。 上一张 下一张 首 页 退 出
第一节 相关性分析 上一张 下一张 首 页 退 出
基本内容 一、函数关系与相关关系 二、相关种类 三、相关图和相关表 四、相关分析 上一张 下一张 首 页 退 出
函数关系与相关关系 在自然界和人类社会中,许多现象之间都是相互联系、相互制约的,这种现象之间的关系可以概括为两种不同类型,即:函数关系和相关关系。 1、函数关系: y=f(x) 两个变量的关系是确定的,可以用一个数学表达式表示出来。 例:圆的面积与半径的关系 S=πR2 2、相关关系: y=f(x)+ε 例:药物剂量与动物死亡率 相关关系的理解应把握二点: 1、变量之间确实存在数量上的互依关系; 2、变量之间互依关系的具体数值是不确定的。 由此可知,函数关系与相关关系之间的区别就是变量之间的具体关系值是否确定。 上一张 下一张 首 页 退 出
相关种类 (一)根据自变量的多少划分 ⒈单相关:只有一个自变量。 ⒉复相关:有两个及两个以上的变量。 (二)根据相关关系的表现形态不同划分 ⒈线性相关(直线相关) ⒉非线性相关(曲线相关) (三)根据相关关系的方向划分 ⒈正相关:两个变量之间的变化方向一致 ⒉负相关:两个变量变化趋势相反 (四)按相关的程度来分 完全相关、不完全相关、无相关。 上一张 下一张 首 页 退 出
r = 1 r = -1 y y x x 相关图和相关表 相关图又称散点图,用直角坐标系的x轴代表自变量,y轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。 (a)完全正相关 (b)完全负相关 上一张 下一张 首 页 退 出
0 < r < 1 -1 < r < 0 y y x x (a)不完全正相关 (b)不完全负相关 上一张 下一张 首 页 退 出
将现象之间的相互关系,用表格的形式来反映。将现象之间的相互关系,用表格的形式来反映。 相关表 适用于所观察的样本单位数较少,不需要分组的情况 简单 相关表 适用于所观察的样本单位数较多标志变异又较复杂,需要分组的情况 分组 相关表 上一张 下一张 首 页 退 出
(一)、相关分析的主要内容 相关分析 1. 判断变量之间是否存在相互依存的关系,是直线相关,还是曲线相关,这是相关分析的出发点; 2. 确定相关关系的密切程度; 3. 测定两个变量之间的一般关系值; 4. 相关系数的显著性检验。 上一张 下一张 首 页 退 出
相关关系的确定 是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断 定性分析 在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数与决定系数等方法,来判断现象之间相关的方向、形态及密切程度 定量分析 上一张 下一张 首 页 退 出
用以说明具有直线关系的两个变量间相关关系的密切程度和相关方向的指标,称为相关系数(correlation coefficient),直线相关系数又称积差相关系数(coefficient of product-moment correlation)或Pearson相关系数 。样本相关系数用r表示,总体相关系数用ρ表示。 相关系数 上一张 下一张 首 页 退 出
(二)、相关系数的计算与分析 根据x、y的实际观测值,计算表示两个相关变量x、y间线性相关程度和性质的统计量r并进行显著性检验。 X 7 7 1 6 5 3 8 9 3 1 Y 5 9 6 1 3 1 9 4 6 8 X 9 8 7 7 6 5 3 3 1 1 Y 9 9 8 6 6 5 4 3 1 1 X 1 1 3 3 5 6 7 7 8 9 Y 9 9 8 6 6 5 4 3 1 1 上一张 下一张 首 页 退 出
1、积差法 r=SPxy/(SSxSSy) 1/2 SSx (x的离均差平方和 ) SSy (y的离均差平方和 ) SPxy (x和y的离均差乘积和,简称乘积和) (8-1) 上一张 下一张 首 页 退 出
2、积差法简化 根据定义公式计算相关系数, r运算量大,过程繁锁,实践中多用简捷式: 上一张 下一张 首 页 退 出
r>0 为正相关,r < 0 为负相关; |r|=0 表示不存在线性关系; |r|=1 表示完全线性相关; 0<|r|<1表示存在不同程度线性相关: |r|<0.4 为低度线性相关; 0.4≤ |r| <0.7为显著性线性相关; 0.7≤|r| <1.0为高度显著性线性相关。 相关系数r的特点:-1≤r≤1 上一张 下一张 首 页 退 出
是相关系数的平方, 用 表示,其大小表示了回归方程估测可靠程度的高低 决定系数取值范围: 越接近于1,表明x与y之间的相关性越强; 越接近于0,表明两个变量之间几乎没有直线相关关系. 决定系数 上一张 下一张 首 页 退 出
3、实例分析 【例8.1】 计算10只绵羊的胸围(cm)和体重(kg) 的相关系数。 表8-1 10只绵羊胸围和体重资料 上一张 下一张 首 页 退 出
根据表8-1所列数据先计算出: 代入(公式8-1)式得: 即绵羊胸围与体重的相关系数为0.8475。 上一张 下一张 首 页 退 出
4、相关系数的显著性检验 上述根据实际观测值计算得来的相关系数r是样本相关系数, 它是双变量正态总体中的总体相关系数ρ的估计值。样本相关系数r是否来自ρ≠0的总体,还须对样本相关系数r进行显著性检验。 此 时, 无 效 假 设:HO:ρ=0; 备 择 假 设:HA:ρ≠0。 常采用t检验法与F检验法对相关系数r的显著性进行检验。 上一张 下一张 首 页 退 出
t 检验的计算公式为: t= , df=n-2 (8-2) 其中 ,叫做相关系数标准误。 F检验的计算公式为: F= , df1=1,df2=n-2 (8-3) 上一张 下一张 首 页 退 出
统计推断 一、查t值表或F值表进行统计推断 二、统计学家已根据相关系数r显著性t检验法计算出了临界r值并列出了表格。 所以 可以直接采用查表法对相关系数r进行显著性检验。 上一张 下一张 首 页 退 出
对于【例8-1】,因为 df =n-2=10-2 =8,查r值附表得: =0.632, =0.765,而r=0.8475> ,P<0.01,表明绵羊胸围与体重的相关系数极显著。 上一张 下一张 首 页 退 出
第二节 一元线性回归分析 上一张 下一张 首 页 退 出
基本内容 一、概念与特点 二、类型与基本思想 三、散点图 四、回归分析 上一张 下一张 首 页 退 出
(一)概念与特点 1.回归分析的概念 当一个变量X改变时,另一个变量Y也相应地改变,此时称X为自变量(independent variable),Y为应变量(dependentvariable)。 自变量X:可随机变动亦可人为取值。 因(应)变量Y:被视为依赖于X而变化的反应变量。在X的数值确定时按某种规律随机变动。 • 回归分析就是对具有相关关系的变量之间数量变化的一般关系进行测定,确定一个相关的数学表达式,以便于进行估计或预测的统计方法。 上一张 下一张 首 页 退 出
上一张 下一张 首 页 退 出
可见,各散点通常并不会恰好在一条直线上,但反映出两变量的线性趋势。我们可以假定,相对于X各个取值, 相应的Y位于一条直线上,与X之间数量上的线性依存关系就称为线性回归。这样我们就可以用某个恰当的线性回归方程(linear regression equation)来描述Y依赖于X的数值变化: 总体 样本 上一张 下一张 首 页 退 出
2.回归分析的特点 • (1)在变量之间,必须根据研究目的具体确定哪些是自变量,哪个是因变量。 • (2)回归方程的作用在于,在给定自变量的数值情况下来估计因变量的可能值,回归方程的结果表明变量之间具体的变动关系。 • (3)直线回归方程中,自变量的系数为回归系数。回归系数的符号为正时,表示正相关;回归系数的符号为负时,表示负相关。 • (4)确定回归方程时,只要求因变量是随机的,而自变量是给定的数值。 上一张 下一张 首 页 退 出
(二)类型与基本思想 回归类型 上一张 下一张 首 页 退 出
上一张 下一张 首 页 退 出
0 0 Y Y Y 0 0 0 X X X Y Y Y X X X (三)几类散点图 上一张 下一张 首 页 退 出
1、直线回归方程 (四)回归分析 • Y 应变量,响应变量 (dependent variable, response variable) • X 自变量,解释变量 (independent variable, explanatory variable) • b 回归系数 (regression coefficient, slope) • a 截距 (intercept,constant) 上一张 下一张 首 页 退 出
截距a几何、统计意义 • a > 0,表示直线与纵轴的交点在原点的上方; • a < 0,则交点在原点的下方; • a = 0,则回归直线通过原点。 Y a < 0 a = 0 a > 0 X 上一张 下一张 首 页 退 出
回归系数b的几何、统计意义 • b>0,直线从左下方走向右上方,Y 随 X 增大而增大; • b<0,直线从左上方走向右下方,Y 随 X 增大而减小; • b=0,表示直线与 X 轴平行,X 与Y 无直线关系。 Y b>0 b=0 b<0 X 上一张 下一张 首 页 退 出
2、一元线性回归方程的建立 总体 样本 最小二乘法 选出一条最能反 映Y与X之间关系 规律的直线 Y与X之间 为线性关系 a是α的估计值,b是β的估计值。 a、b应使回归估计值 与实际观测值y的偏差平方和最小 上一张 下一张 首 页 退 出
一般而言,所求的a和b应能使每个样本观测点(X i,Y i) 与回归直线之间的偏差尽可能小,即使观察值与拟 合值的误差平方和Q达到最小。 最小二乘法 回归方程原理图 上一张 下一张 首 页 退 出
最小二乘法 最小二乘法的理论基础是样本的n个实际值 与其相应的理论值的离差平方和达到最小,即: 式中,a,b是待定参数,Q是a,b的函数,要使Q达到最小,依据函数求极限的原理,则先求Q对a和b的偏导数,再令其为0。即: 上一张 下一张 首 页 退 出
正规方程 上一张 下一张 首 页 退 出 解正规方程得: (8-4) (8-5)
【例8.2】在太湖白鹅的生产性能研究中,得到如下一组关于雏鹅重(g)与70日龄重(g)的数据,试建立70日龄重(y)与雏鹅重(x)的直线回归方程。 3、实例分析 上一张 下一张 首 页 退 出
表8-2 太湖白鹅雏鹅重与70日龄重测定结果(单位:g) 上一张 下一张 首 页 退 出
图s 太湖白鹅的雏鹅重与70日龄重散点图和回归直线图 (1)、作散点图 以雏鹅重(x)为横坐标,70日龄重(y)为纵坐标作散点图,见下图。 上一张 下一张 首 页 退 出