630 likes | 839 Views
第六章相关与回归. 序言. 化学中的分析测试过程究其本质而言,即是要研究建立被测物理量与被测物质含量之间的关系,也可以说 分析测试的最终目的就是为了能用回归分析方法去求得被测物质的含量从而得以解决实际问题 。相关指的就是变量与变量之间的某种关系,相关是研究回归的前提。 回归 在统计上指的 是利用一个变量对另一个变量所进行的的预测 , 回归分析 就是 确定自变量和因变量所存在的函数关系 。只有在确定了函数关系之后,才可能从一个变量预测或推算另一个变量,这在化学研究中有着极其广泛的应用。. 回归的来历.
E N D
第六章相关与回归 数理统计在化学中的应用
序言 化学中的分析测试过程究其本质而言,即是要研究建立被测物理量与被测物质含量之间的关系,也可以说分析测试的最终目的就是为了能用回归分析方法去求得被测物质的含量从而得以解决实际问题。相关指的就是变量与变量之间的某种关系,相关是研究回归的前提。回归在统计上指的是利用一个变量对另一个变量所进行的的预测,回归分析就是确定自变量和因变量所存在的函数关系。只有在确定了函数关系之后,才可能从一个变量预测或推算另一个变量,这在化学研究中有着极其广泛的应用。 数理统计在化学中的应用
回归的来历 • 早在19 世纪后期, 英国生物学家Golton 在研究家族成员的相似性时发现:虽然一般说来高个子的父代会有高个子的子代,但是子代的身高比他们的父代更趋向一致,即若父代身材高大,则他们的子代会趋向矮一些,而若父代身材矮小,他们的子代会趋向高一些。他把子代的身高向平均值靠拢的趋势称为“向平庸的回归”。 • Karl Pearson 观察了1078 个家庭中父亲身高x和儿子身高y, 建立了一个线性方程y = 33. 8 + 0. 51x 数理统计在化学中的应用
$6.1 相关关系和相关系数 在分析测试中,所研究的变量之间的关系,由于常存在着不可避免的随机误差,因此就使得变量之间的关系具有某种不确定性,这种变量之间既有着相互影响,又不甚明了和肯定的关系,在统计上就称为相关关系。相关关系与函数关系之间并没有严格的界限。两个变量之间的相关关系,如达到一定的紧密程度时,就一定会发现它们之间有着确定的函数关系。在统计学上研究变量之间是否存在一定的相关关系,就称为相关分析。相关分析的目的就是要求出相关系数。 数理统计在化学中的应用
统计上常用一变量对另一变量的回归方程的离散程度来表示相关系数,并用字母 r来表示,定义如下: 从上式可见,残余差方和 Q越小,回归方程的离散程度越小,回归系数越接近 1 ,也就越意味着存在着确定的函数关系。 Q: 残余方差 y的回归估计值 数理统计在化学中的应用
相关系数的另一种表示 Sxy (Cov(x,y)): 变量x和y的样本协方差 数理统计在化学中的应用
$6.2 相关系数的显著性检验 当两变量间确实具有高度紧密的相关性时,我们才能说据此所求得的回归方程才有实际意义。为此在进行回归分析之前,往往需要先进行线性相关的假设检验。 $6.2.1 相关系数的 t检验 适合于小样本的 t 检验的步骤如下: 1. H0 : = 0(二变量无显著相关关系) H1: 0(0为相关系数的真值) 2. 计算检验统计量 t计:当 r = 0.90 时,其分布并不是正态分布,但研究表明其修正值是满足t分布的. 数理统计在化学中的应用
$6.2.1 相关系数的 t检验 2. 计算检验统计量 t计: 3. 若 t计> t/2,n-2,则拒绝 H 0,反之,则接受 数理统计在化学中的应用
$6.2.1 相关系数的 z检验 当样本容量n > 30时,可以进行两种z检验,一种是检验有没有相关性,另一种是检验两个相关系数之间有无显著性。 数理统计在化学中的应用
例6-1:用相关分析求出某一化学反应速度与光照时间的相关系数r = 0.68,样本容量为24,问相关关系是否显著?( = 0.05) 解: 1. H0: =0=0; H1: 0 2. 计算统计量: 3. 查表t0.05,22 = TINV(0.05,22) = 2.07 4. 结论:拒绝H0,即化学反应速度和光照时间的有显著性关系。 数理统计在化学中的应用
例6-2:上题中如果样本容量为30,现已知以往历次试验表明实验数据近似于正态分布,且r的平均值为0.72,试问0.68与它在统计上是否相同?( = 0.05) 解: 1. H0: =0=0.72; H1: 0 2. 计算统计量: 3. 查表z0.05 = TINV(0.05,) = 1.960 4. 结论:接受H0,即r=0.72和r=0.68在统计上是相同的。 数理统计在化学中的应用
$6.3 线性回归和非线性回归 $6.3.1 一元线性回归 y = ax + b, a, b: 回归系数 最小二乘法:定义残余差方和Q。 数理统计在化学中的应用
通过最小二乘法所得到的回归线有着以下几个特点:通过最小二乘法所得到的回归线有着以下几个特点: • 它必定通过x, y的平均值这一点; • 它对所有点来说是误差最小的; • 它常常不是通过实验数据中的任一点; • 不能随意外推。 数理统计在化学中的应用
例6-3 试拟合以下一样品中铀含量和荧光强度的实验数据的线性回归方程 数理统计在化学中的应用
$6.2.2 非线性回归 • 两变量的关系如是非线性的,就叫非线性回归,通常非线性回归均可以通过适当的数学变换将其转化为线性回归。 数理统计在化学中的应用
表6-1 数理统计在化学中的应用
例6-4 数理统计在化学中的应用
$6.3.3 二元线性回归 与一元线性回归相类似,同样可以证明,如果有两个自变量,二元线性回归的回归方程为 y = b0 + b1x1 + b2 x2 , 使用最小二乘法可知, b1、b2分别为y对x1、x2的偏回归系数. 数理统计在化学中的应用
MATLAB软件实现 y =[120 141 124 126 117 125 123 125 132 123 132 155 147]; x2=[50 20 20 30 30 50 60 50 40 55 40 40 20]; x1=[152 183 171 165 158 161 149 158 170 153 164 190 185]; n=13; m=2; X=[ones(n,1), x1',x2']; %ones:生成由1组成的阵. [b,bint]=regress(y',X) b = -62.963 1.0683 0.40022 bint = -100.84 -25.086 0.87294 1.2636 0.21481 0.58562 数理统计在化学中的应用
$6.3.4 非线性多元回归 数理统计在化学中的应用
例6-6的MATLAB软件实现 • 见讲义 数理统计在化学中的应用
例6-6 Origin实现 数理统计在化学中的应用
例6-6 Gnuplot实现 • 建立数据文件test.dat • f(x) = b1*x + b2*x**2 + b3*x**3 • 给初始猜测值 • b1=1.0;b2=1.0;b3=1.0 • Fit f(x) “test.dat” u 1:2 via b1,b2,b3 • 作图: • plot f(x),”test.dat” 数理统计在化学中的应用
$6.4 回归线的置信区间 或 需要解决的问题: 1) 在回归模型中如何估计参数a、b和2? 2) 模型的假设是否正确?需要检验。 3)利用回归方程对试验指标y进行预测或控制? 数理统计在化学中的应用
最小二乘法: 解出的参数记为 则回归方程: 数理统计在化学中的应用
一元回归的方差分析 数理统计在化学中的应用
残余方差和,偏差平方和,残余方差 残余方差和 偏差平方和 残余方差 残余标准差 数理统计在化学中的应用
$6.4.2 回归线的置信区间 给定的自变量x0,如何给出对应的y0的区间? 数理统计在化学中的应用
$6.4.2 回归线的置信区间 y0的置信度为(1)%的预测区间为: 数理统计在化学中的应用
$6.4.2 回归线的置信区间 y0的置信度为(1)%的预测区间为: 数理统计在化学中的应用
$6.4.3 回归系数的置信区间 a和b的置信度为(1)%的预测区间为: 数理统计在化学中的应用
$6.4.4 回归模型的假设检验 模型:Y= a + bx+ε 提出假设: 1、相关系数检验 | r |≤1 | r |→1,线性相关 | r |→0,非线性相关 数理统计在化学中的应用
F-检验法 数理统计在化学中的应用
$6.5 回归预测和回归估计的置信区间 $6.5.1 回归方程预测值的置信区间: 数理统计在化学中的应用
$6.5.2 回归方程回归估计值的置信区间: f=n-2, m次重复分析 数理统计在化学中的应用
决定系数R2,F-统计量和与F对应的概率p。 回归系数a,b以及它们的置信区间 残差向量e=Y-Y及它们的置信区间 一元线性回归的Matlab软件实现 使用命令regress实现一元线性回归模型的计算 默认值是0.05 c = regress (Y, X) 或 [c, cint, r, rint, stats] = regress(Y, X, alpha) 残差及其置信区间可以用rcoplot(r,rint)画图。 数理统计在化学中的应用
例 输入: x=[1097 1284 1502 1394 1303 1555 1917 2051 2111 2286 2311 2003 2435 2625 2948 3155 3372]; y=[698 872 988 807 738 1025 1316 1539 1561 1765 1762 1960 1902 2013 2446 2736 2825]; X=[ones(size(x')),x'],pause [c,cint,r,rint,stats]=regress(y',X,0.05),pause rcoplot(r,rint) 数理统计在化学中的应用
输出: c = -460.5282 (参数a) 0.9840 (参数b) cint = -691.8478 -229.2085 ( a的置信区间 ) 0.8779 1.0900 ( b的置信区间 ) r = [ 79.1248 69.1244 -29.3788 -104.1112 -83.5709 -44.5286 -109.7219 -18.5724 -55.6100 -23.8029 -51.4019 449.6576 -33.4128 -109.3651 5.8160 92.1364 -32.3827]’(残差向量) rint=(略)(参见残差分析图) stats = 0.9631(R2) 391.2713( F ) 0.0000 ( P{χ0} ) 数理统计在化学中的应用
第12个数据点异常,可删除 数理统计在化学中的应用
多元线性回归的Matlab实现 1、确定回归系数的点估计值: b=regress( Y, X ) 对一元线性回归,取p=1即可 数理统计在化学中的应用
置信区间 显著性水平 (缺省时为0.05) 回归系数的区间估计 残差 • 用于检验回归模型的统计量, • 有三个数值:相关系数r2、 • F值、与F对应的概率p • 2、求回归系数的点估计和区间估计、并检验回归模型: • [b, bint, r, rint, stats]=regress(Y,X,alpha) • 3、画出残差及其置信区间:rcoplot(r, rint) 数理统计在化学中的应用
例 解: • 1、输入数据: • x=[143 145 146 147 149 150 153 154 155 156 157 158 159 • 160 162 164]'; • X=[ones(16,1) x]; • Y=[88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102]'; • 2、回归分析及检验: • [b,bint,r,rint,stats]=regress(Y,X) 数理统计在化学中的应用
3、残差分析,作残差图: • rcoplot(r,rint) • 从残差图可以看出,除第二个数据外,其余数据的残差离零点均较近,且残差的置信区间均包含零点,这说明回归模型 y=-16.073+0.7194x能较好的符合原始数据,而第二个数据可视为异常点. • 4、预测及作图: • z=b(1)+b(2)*x • plot(x,Y,'k+',x,z,'r') 数理统计在化学中的应用
多项式回归的Matlab实现 (一)一元多项式回归: y=a1xm+ a2xm-1+ … + amx + am+1 1、回归: (1)确定多项式系数的命令:[p, S]=polyfit(x, y, m) 其中x=(x1, x2, …, xn),y=(y1, y2, …, yn);p=(a1, a2, …, am+1)是多项式的系数;S是一个矩阵,用来估计预测误差. (2)一元多项式回归命令:polytool(x, y, m) • 2、预测和预测误差估计: • Y=polyval(p, x)求polyfit所得的回归多项式在x处的预测值Y; • [Y,DELTA]=polyconf(p, x, S, )求polyfit所得的回归多项式在x处的预测值Y及预测值的显著性为1-的置信区间YDELTA; 缺省时为0.05. 数理统计在化学中的应用
得回归模型为 : 法一 • 直接作二次多项式回归: • t=1/30:1/30:14/30; • s=[11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90 • 85.44 99.08 113.77 129.54 146.48]; • [p,S]=polyfit(t,s,2) 数理统计在化学中的应用
法二 • 化为多元线性回归: • t=1/30:1/30:14/30; • s=[11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90 • 85.44 99.08 113.77 129.54 146.48]; • T=[(t.^2)'t' ones(14,1)]; • [b,bint,r,rint,stats]=regress(s',T); • b,stats 得回归模型为 : 预测及作图 Y=polyconf(b,t,s') plot(t,s,'k+',t,Y,'r') 数理统计在化学中的应用
例:试分析年龄与运动(旋转定向)能力 数理统计在化学中的应用
假设模型 输入: x1=17:2:29; x=[x1,x1]; y=[20.48 25.13 26.15 30.0 26.1 20.3 19.35 24.35 28.11 26.3 31.4 26.92 25.7 21.3]; [p,S]=polyfit(x,y,2); p 数理统计在化学中的应用