slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
第六章相关与回归 PowerPoint Presentation
Download Presentation
第六章相关与回归

Loading in 2 Seconds...

play fullscreen
1 / 63

第六章相关与回归 - PowerPoint PPT Presentation


  • 143 Views
  • Uploaded on

第六章相关与回归. 序言. 化学中的分析测试过程究其本质而言,即是要研究建立被测物理量与被测物质含量之间的关系,也可以说 分析测试的最终目的就是为了能用回归分析方法去求得被测物质的含量从而得以解决实际问题 。相关指的就是变量与变量之间的某种关系,相关是研究回归的前提。 回归 在统计上指的 是利用一个变量对另一个变量所进行的的预测 , 回归分析 就是 确定自变量和因变量所存在的函数关系 。只有在确定了函数关系之后,才可能从一个变量预测或推算另一个变量,这在化学研究中有着极其广泛的应用。. 回归的来历.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '第六章相关与回归' - tori


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

第六章相关与回归

数理统计在化学中的应用

slide2
序言

化学中的分析测试过程究其本质而言,即是要研究建立被测物理量与被测物质含量之间的关系,也可以说分析测试的最终目的就是为了能用回归分析方法去求得被测物质的含量从而得以解决实际问题。相关指的就是变量与变量之间的某种关系,相关是研究回归的前提。回归在统计上指的是利用一个变量对另一个变量所进行的的预测,回归分析就是确定自变量和因变量所存在的函数关系。只有在确定了函数关系之后,才可能从一个变量预测或推算另一个变量,这在化学研究中有着极其广泛的应用。

数理统计在化学中的应用

slide3
回归的来历
  • 早在19 世纪后期, 英国生物学家Golton 在研究家族成员的相似性时发现:虽然一般说来高个子的父代会有高个子的子代,但是子代的身高比他们的父代更趋向一致,即若父代身材高大,则他们的子代会趋向矮一些,而若父代身材矮小,他们的子代会趋向高一些。他把子代的身高向平均值靠拢的趋势称为“向平庸的回归”。
  • Karl Pearson 观察了1078 个家庭中父亲身高x和儿子身高y, 建立了一个线性方程y = 33. 8 + 0. 51x

数理统计在化学中的应用

slide5
$6.1 相关关系和相关系数

在分析测试中,所研究的变量之间的关系,由于常存在着不可避免的随机误差,因此就使得变量之间的关系具有某种不确定性,这种变量之间既有着相互影响,又不甚明了和肯定的关系,在统计上就称为相关关系。相关关系与函数关系之间并没有严格的界限。两个变量之间的相关关系,如达到一定的紧密程度时,就一定会发现它们之间有着确定的函数关系。在统计学上研究变量之间是否存在一定的相关关系,就称为相关分析。相关分析的目的就是要求出相关系数。

数理统计在化学中的应用

slide6
统计上常用一变量对另一变量的回归方程的离散程度来表示相关系数,并用字母 r来表示,定义如下:

从上式可见,残余差方和 Q越小,回归方程的离散程度越小,回归系数越接近 1 ,也就越意味着存在着确定的函数关系。

Q: 残余方差

y的回归估计值

数理统计在化学中的应用

slide7
相关系数的另一种表示

Sxy (Cov(x,y)): 变量x和y的样本协方差

数理统计在化学中的应用

slide8
$6.2 相关系数的显著性检验

当两变量间确实具有高度紧密的相关性时,我们才能说据此所求得的回归方程才有实际意义。为此在进行回归分析之前,往往需要先进行线性相关的假设检验。

$6.2.1 相关系数的 t检验

适合于小样本的 t 检验的步骤如下:

1. H0 :  = 0(二变量无显著相关关系)

H1:  0(0为相关系数的真值)

2. 计算检验统计量 t计:当 r = 0.90 时,其分布并不是正态分布,但研究表明其修正值是满足t分布的.

数理统计在化学中的应用

6 2 1 t
$6.2.1 相关系数的 t检验

2. 计算检验统计量 t计:

3. 若 t计> t/2,n-2,则拒绝 H 0,反之,则接受

数理统计在化学中的应用

6 2 1 z
$6.2.1 相关系数的 z检验

当样本容量n > 30时,可以进行两种z检验,一种是检验有没有相关性,另一种是检验两个相关系数之间有无显著性。

数理统计在化学中的应用

6 1 r 0 68 24 0 05
例6-1:用相关分析求出某一化学反应速度与光照时间的相关系数r = 0.68,样本容量为24,问相关关系是否显著?( = 0.05)

解:

1. H0: =0=0; H1: 0

2. 计算统计量:

3. 查表t0.05,22 = TINV(0.05,22) = 2.07

4. 结论:拒绝H0,即化学反应速度和光照时间的有显著性关系。

数理统计在化学中的应用

6 2 30 r 0 72 0 68 0 05
例6-2:上题中如果样本容量为30,现已知以往历次试验表明实验数据近似于正态分布,且r的平均值为0.72,试问0.68与它在统计上是否相同?( = 0.05)

解:

1. H0: =0=0.72; H1: 0

2. 计算统计量:

3. 查表z0.05 = TINV(0.05,) = 1.960

4. 结论:接受H0,即r=0.72和r=0.68在统计上是相同的。

数理统计在化学中的应用

slide13
$6.3 线性回归和非线性回归

$6.3.1 一元线性回归

y = ax + b,

a, b: 回归系数

最小二乘法:定义残余差方和Q。

数理统计在化学中的应用

slide14
通过最小二乘法所得到的回归线有着以下几个特点:通过最小二乘法所得到的回归线有着以下几个特点:
  • 它必定通过x, y的平均值这一点;
  • 它对所有点来说是误差最小的;
  • 它常常不是通过实验数据中的任一点;
  • 不能随意外推。

数理统计在化学中的应用

slide15
例6-3 试拟合以下一样品中铀含量和荧光强度的实验数据的线性回归方程

数理统计在化学中的应用

6 2 2
$6.2.2 非线性回归
  • 两变量的关系如是非线性的,就叫非线性回归,通常非线性回归均可以通过适当的数学变换将其转化为线性回归。

数理统计在化学中的应用

slide17
表6-1

数理统计在化学中的应用

slide18
例6-4

数理统计在化学中的应用

6 3 3
$6.3.3 二元线性回归

与一元线性回归相类似,同样可以证明,如果有两个自变量,二元线性回归的回归方程为 y = b0 + b1x1 + b2 x2 , 使用最小二乘法可知, b1、b2分别为y对x1、x2的偏回归系数.

数理统计在化学中的应用

matlab
MATLAB软件实现

y =[120 141 124 126 117 125 123 125 132 123 132 155 147];

x2=[50 20 20 30 30 50 60 50 40 55 40 40 20];

x1=[152 183 171 165 158 161 149 158 170 153 164 190 185];

n=13;

m=2;

X=[ones(n,1), x1',x2']; %ones:生成由1组成的阵.

[b,bint]=regress(y',X)

b =

-62.963

1.0683

0.40022

bint =

-100.84 -25.086

0.87294 1.2636

0.21481 0.58562

数理统计在化学中的应用

6 3 4
$6.3.4 非线性多元回归

数理统计在化学中的应用

6 6 matlab
例6-6的MATLAB软件实现
  • 见讲义

数理统计在化学中的应用

6 6 origin
例6-6 Origin实现

数理统计在化学中的应用

6 6 gnuplot
例6-6 Gnuplot实现
  • 建立数据文件test.dat
  • f(x) = b1*x + b2*x**2 + b3*x**3
  • 给初始猜测值
  • b1=1.0;b2=1.0;b3=1.0
  • Fit f(x) “test.dat” u 1:2 via b1,b2,b3
  • 作图:
  • plot f(x),”test.dat”

数理统计在化学中的应用

slide26
$6.4 回归线的置信区间

需要解决的问题:

1) 在回归模型中如何估计参数a、b和2?

2) 模型的假设是否正确?需要检验。

3)利用回归方程对试验指标y进行预测或控制?

数理统计在化学中的应用

slide27

最小二乘法:

解出的参数记为

则回归方程:

数理统计在化学中的应用

slide28
一元回归的方差分析

数理统计在化学中的应用

slide29
残余方差和,偏差平方和,残余方差

残余方差和

偏差平方和

残余方差

残余标准差

数理统计在化学中的应用

6 4 2
$6.4.2 回归线的置信区间

给定的自变量x0,如何给出对应的y0的区间?

数理统计在化学中的应用

6 4 21
$6.4.2 回归线的置信区间

y0的置信度为(1)%的预测区间为:

数理统计在化学中的应用

6 4 22
$6.4.2 回归线的置信区间

y0的置信度为(1)%的预测区间为:

数理统计在化学中的应用

6 4 3
$6.4.3 回归系数的置信区间

a和b的置信度为(1)%的预测区间为:

数理统计在化学中的应用

6 4 4
$6.4.4 回归模型的假设检验

模型:Y= a + bx+ε

提出假设:

1、相关系数检验

| r |≤1

| r |→1,线性相关

| r |→0,非线性相关

数理统计在化学中的应用

slide35

F-检验法

数理统计在化学中的应用

slide36
$6.5 回归预测和回归估计的置信区间

$6.5.1 回归方程预测值的置信区间:

数理统计在化学中的应用

6 5 2
$6.5.2 回归方程回归估计值的置信区间:

f=n-2, m次重复分析

数理统计在化学中的应用

matlab1

决定系数R2,F-统计量和与F对应的概率p。

回归系数a,b以及它们的置信区间

残差向量e=Y-Y及它们的置信区间

一元线性回归的Matlab软件实现

使用命令regress实现一元线性回归模型的计算

默认值是0.05

c = regress (Y, X)

或 [c, cint, r, rint, stats] = regress(Y, X, alpha)

残差及其置信区间可以用rcoplot(r,rint)画图。

数理统计在化学中的应用

slide39

输入:

x=[1097 1284 1502 1394 1303 1555 1917 2051 2111

2286 2311 2003 2435 2625 2948 3155 3372];

y=[698 872 988 807 738 1025 1316 1539 1561

1765 1762 1960 1902 2013 2446 2736 2825];

X=[ones(size(x')),x'],pause

[c,cint,r,rint,stats]=regress(y',X,0.05),pause

rcoplot(r,rint)

数理统计在化学中的应用

slide40

输出:

c = -460.5282 (参数a) 0.9840 (参数b)

cint = -691.8478 -229.2085 ( a的置信区间 )

0.8779 1.0900 ( b的置信区间 )

r = [ 79.1248 69.1244 -29.3788 -104.1112 -83.5709 -44.5286

-109.7219 -18.5724 -55.6100 -23.8029 -51.4019 449.6576

-33.4128 -109.3651 5.8160 92.1364 -32.3827]’(残差向量)

rint=(略)(参见残差分析图)

stats = 0.9631(R2) 391.2713( F ) 0.0000 ( P{χ0} )

数理统计在化学中的应用

slide41

第12个数据点异常,可删除

数理统计在化学中的应用

matlab2
多元线性回归的Matlab实现

1、确定回归系数的点估计值:

b=regress( Y, X )

对一元线性回归,取p=1即可

数理统计在化学中的应用

slide43

置信区间

显著性水平

(缺省时为0.05)

回归系数的区间估计

残差

  • 用于检验回归模型的统计量,
  • 有三个数值:相关系数r2、
  • F值、与F对应的概率p
  • 2、求回归系数的点估计和区间估计、并检验回归模型:
  • [b, bint, r, rint, stats]=regress(Y,X,alpha)
  • 3、画出残差及其置信区间:rcoplot(r, rint)

数理统计在化学中的应用

slide44

解:

    • 1、输入数据:
    • x=[143 145 146 147 149 150 153 154 155 156 157 158 159
    • 160 162 164]';
    • X=[ones(16,1) x];
  • Y=[88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102]';
  • 2、回归分析及检验:
  • [b,bint,r,rint,stats]=regress(Y,X)

数理统计在化学中的应用

slide45

3、残差分析,作残差图:

  • rcoplot(r,rint)
  • 从残差图可以看出,除第二个数据外,其余数据的残差离零点均较近,且残差的置信区间均包含零点,这说明回归模型 y=-16.073+0.7194x能较好的符合原始数据,而第二个数据可视为异常点.
  • 4、预测及作图:
    • z=b(1)+b(2)*x
  • plot(x,Y,'k+',x,z,'r')

数理统计在化学中的应用

matlab3
多项式回归的Matlab实现

(一)一元多项式回归: y=a1xm+ a2xm-1+ … + amx + am+1

1、回归:

(1)确定多项式系数的命令:[p, S]=polyfit(x, y, m)

其中x=(x1, x2, …, xn),y=(y1, y2, …, yn);p=(a1, a2, …, am+1)是多项式的系数;S是一个矩阵,用来估计预测误差.

(2)一元多项式回归命令:polytool(x, y, m)

  • 2、预测和预测误差估计:
    • Y=polyval(p, x)求polyfit所得的回归多项式在x处的预测值Y;
    • [Y,DELTA]=polyconf(p, x, S, )求polyfit所得的回归多项式在x处的预测值Y及预测值的显著性为1-的置信区间YDELTA; 缺省时为0.05.

数理统计在化学中的应用

slide47

得回归模型为 :

法一

  • 直接作二次多项式回归:
    • t=1/30:1/30:14/30;
      • s=[11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90
      • 85.44 99.08 113.77 129.54 146.48];
  • [p,S]=polyfit(t,s,2)

数理统计在化学中的应用

slide48

法二

  • 化为多元线性回归:
  • t=1/30:1/30:14/30;
  • s=[11.86 15.67 20.60 26.69 33.71 41.93 51.13 61.49 72.90
    • 85.44 99.08 113.77 129.54 146.48];
  • T=[(t.^2)'t' ones(14,1)];
  • [b,bint,r,rint,stats]=regress(s',T);
  • b,stats

得回归模型为 :

预测及作图

Y=polyconf(b,t,s')

plot(t,s,'k+',t,Y,'r')

数理统计在化学中的应用

slide50

假设模型

输入: x1=17:2:29; x=[x1,x1];

y=[20.48 25.13 26.15 30.0 26.1 20.3 19.35

24.35 28.11 26.3 31.4 26.92 25.7 21.3];

[p,S]=polyfit(x,y,2);

p

数理统计在化学中的应用

slide51

还可计算y的拟合值:

输入:[Y,delta]=polyconf(p,x,S);Y

结果: Y= 22.5243 26.0582 27.9896 28.3186 27.0450 24.1689 19.6904 22.5243 26.0582 27.9896 28.3186 27.0450 24.1689 19.6904

拟合效果图:

数理统计在化学中的应用

origin
Origin

数理统计在化学中的应用

slide53

显著性水平

  • (缺省时为0.05)

nm矩阵

n维列向量

(二)多元二项式回归

命令:rstool(x, y, ’model’, alpha)

数理统计在化学中的应用

slide54

例3 设某商品的需求量与消费者的平均收入、商品价格的统计数据如下,建立回归模型,预测平均收入为1000、价格为6时的商品需求量.

法一

  • 直接用多元二项式回归:
    • x1=[1000 600 1200 500 300 400 1300 1100 1300 300];
    • x2=[5 7 6 6 8 7 5 4 3 9];
    • y=[100 75 80 70 50 65 90 100 110 60]';
    • x=[x1' x2'];
  • rstool(x,y,'purequadratic')

数理统计在化学中的应用

slide55

先在作图的窗口export beta和rmse,再在Matlab工作区中输入命令: beta, rmse

数理统计在化学中的应用

slide56

法二

结果为: b =

110.5313

0.1464

-26.5709

-0.0001

1.8475

stats =

0.9702 40.6656 0.0005

数理统计在化学中的应用

6 7 g ml
例6-7 用紫外吸光光度法测定若干个乙醇样品中的苯含量(g/ml)。测得试样的吸光度为下列结果:
  • 试求出回归方程;
  • 求出回归系数的置信区间;
  • 如果测量三次某未知试样溶液得到吸光度为1.21,1.23,1.26,试求该未知试样含量和回归估计的置信区间。(=0.05)

数理统计在化学中的应用

slide58
$6.6 回归方程的拟合检验

$6.6.1 影响回归效果的因素

总偏差平方和

v=nm-1 = N-1,n:测量次数,m:重复次数

误差差方和(vR=N-n)

回归差方和(vU=1)

残余差方和(vQ=N-2)

失拟差方和(vV=n-2)

数理统计在化学中的应用

6 6 2
$6.6.2 失拟检验和回归检验

一、失拟检验

检验失拟方差与误差方差之间的显著性

1)如F1 > F(vV,vR):失拟情况显著

2)如F1 F(vV,vR):失拟并不显著

数理统计在化学中的应用

6 6 21
$6.6.2 失拟检验和回归检验

二、回归检验

检验回归方差U与残余方差Q之间的显著性

1)如F1F(vV,vR)而 F2 F(vU, vQ):回归显著

2)如F1 F(vV,vR)而 F2< F(vU, vQ) :回归不显著

数理统计在化学中的应用

slide61
回归的问题
  • 数据点要比回归参数多,否则会出现过拟合

数理统计在化学中的应用

slide62

是事先用m-文件定义的非线性函数

残差

输入数据x、y分别为

矩阵和n维列向量,对一元非线性回归,x为n维列向量。

回归系数的初值

估计出的回归系数

非线性回归

1、回归:

(1)确定回归系数的命令:

[beta, r, J]=nlinfit(x, y, ’model’, beta0)

Jacobian矩阵

(2)非线性回归命令:nlintool(x, y, ’model’, beta0, alpha)

数理统计在化学中的应用

slide63

2、预测和预测误差估计:

    • [Y, DELTA]=nlpredci(’model’, x, beta, r, J)
  • 求nlinfit 或nlintool所得的回归函数在x处的预测值Y及预测值的显著性为1-alpha的置信区间YDELTA.
    • 3、作图:
    • [YY,delta]=nlpredci(‘model', x', beta, r, J);
  • plot(x, y, 'k+', x, YY, 'r')

数理统计在化学中的应用