slide1
Download
Skip this Video
Download Presentation
第七讲 回归分析

Loading in 2 Seconds...

play fullscreen
1 / 69

第七讲 回归分析 - PowerPoint PPT Presentation


  • 210 Views
  • Uploaded on

第七讲 回归分析. 一、线性回归分析. 线性回归是统计分析方法中最常用的方法之一。如果所研究的现象有若干个影响因素,且这些因素对现象的综合影响是线性的,则可以使用线性回归的方法建立现象 (因变量)与影响因素(自变量)之间的线性函数关系式。 由于多元线性回归的计算量比较大,所以有必要应用统计分析软件实现。. SPSS 软件中进行线性回归分析的选择项为 Analyze→Regression→Linear 。如图所示。. (一)双变量线性回归.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' 第七讲 回归分析' - lahela


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide2
一、线性回归分析
  • 线性回归是统计分析方法中最常用的方法之一。如果所研究的现象有若干个影响因素,且这些因素对现象的综合影响是线性的,则可以使用线性回归的方法建立现象 (因变量)与影响因素(自变量)之间的线性函数关系式。
  • 由于多元线性回归的计算量比较大,所以有必要应用统计分析软件实现。
slide3
SPSS软件中进行线性回归分析的选择项为Analyze→Regression→Linear。如图所示。SPSS软件中进行线性回归分析的选择项为Analyze→Regression→Linear。如图所示。
slide4
(一)双变量线性回归
  • 某医师测得10名3岁儿童的身高(cm)、体重(kg)和体表面积(cm2)资料如下。试用多元回归方法确定以身高、体重为自变量,体表面积为应变量的回归方程。
slide5
1、数据准备
  • 激活数据管理窗口,定义变量名:体表面积为Y,保留3位小数;身高、体重分别为X1、X2,1位小数。输入原始数据,结果如图8.1所示。
slide6
2、统计分析
  • 激活Analyze菜单选Regression中的Linear...项,弹出Linear Regression对话框。
  • 选y,点击钮使之进入Dependent框;
  • 选x1、x2,点击钮进入Indepentdent(s)框;
  • 在Method处下拉菜单,共有5个选项:Enter(全部入选法)、Stepwise(逐步法)、Remove(强制剔除法)、Backward(向后法)、Forward(向前法)。
  • 本例选用Enter法,点击OK钮即完成分析。
slide8
点击Statistics...钮选择是否作变量的描述性统计、回归方程应变量的可信区间估计等分析;点击Statistics...钮选择是否作变量的描述性统计、回归方程应变量的可信区间估计等分析;
  • 点击Plots...钮选择是否作变量分布图(本例要求对标准化Y预测值作变量分布图);
  • 点击Save...钮选择对回归分析的有关结果是否作保存(本例要求对根据所确定的回归方程求得的未校正Y预测值和标准化Y预测值作保存);
  • 点击Options...钮选择变量入选与剔除的α、β值和缺失值的处理方法。
slide10

本例以X1、X2为自变量,Y为应变量,采用全部入选法建立回归方程。本例以X1、X2为自变量,Y为应变量,采用全部入选法建立回归方程。

  • 回归方程的复相关系数为0.94964,决定系数(即r2)为0.90181,经方差分析,F=34.14499,P=0.0003,回归方程有效。
  • 回归方程为Y=0.0687101X1+0.183756X2-2.856476。
slide11
本例要求按所建立的回归方程计算Y预测值和标准化Y预测值(所谓标准化Y预测值是指将根据回归方程求得的Y预测值转化成按均数为0、标准差为1的标准正态分布的Y值)并将计算结果保存入原数据库。本例要求按所建立的回归方程计算Y预测值和标准化Y预测值(所谓标准化Y预测值是指将根据回归方程求得的Y预测值转化成按均数为0、标准差为1的标准正态分布的Y值)并将计算结果保存入原数据库。
  • 系统将原始的X1、X2值代入方程求Y值预测值(即库中pre_1栏)和标准化Y预测值。
slide16

(二)多元线性回归分析

  • 例:为了考察火柴销售量的影响因素,选择煤气户数、卷烟销量、蚊香销量、打火石销量作为影响因素,得数据表。
  • 建立火柴销售量对于相关因素煤气户数、卷烟销量、蚊香销量、打火石销量的线性回归模型,通过对模型的分析,找出合适的线性回归方程。
slide18
1、打开数据文件,单击Analyze  Regression  Linear打开Linear 对话框如图所示。
slide19

2、从左边框中选择因变量Y进入Dependent 框内,选择一个或多个自变量进入Independent框内。

  • 从Method 框内下拉式菜单中选择回归分析方法:

强行进入法(Enter),消去法(Remove),向前选择法(Forward),向后剔除法(Backward)及逐步回归法(Stepwise)五种。

  • 本例中选择逐步回归法(Stepwise)。
slide20
Enter(强迫引入法默认选择项) 定义的全部自变量均引入方程;
  • Remove(强迫剔除法) 定义的全部自变量均删除;
  • Forward(向前引入法) 自变量由少到多一个一个引入回归方程,直到不能按检验水准引入新的变量为止。该法的缺点是:当两个变量一起时效果好单独时效果不好,有可能只引入其中一个变量或两个变量都不能引入。
slide21
Backward(向后剔除法) 自变量由多到少一个一个从回归方程中剔除,直到不能按检验水准剔除为止。能克服向前引入法的缺点,当两个变量一起时效果好单独时效果不好,该法可将两个变量都引入方程。
  • Stepwise(逐步引入一剔除法) 将向前引入法和向后剔除法结合起来,在向前引入的每一步之后都要考虑从已引入方程的变量中剔除作用不显著者,直到没有一个自变量能引入方程和没有一个自变量能从方程中剔除为止。缺点同向前引入法,但选中的变量比较精悍。
slide22

3、单击Statistics,打开Linear Regression: Statistics对话框,可以选择输出的统计量。

slide23

Regression Coefficients栏,回归系数选项栏:

Estimates (系统默认): 输出回归系数的相关统计量。

Confidence intervals:输出每一个非标准化回归系数95%的置信区间。

Covariance matrix: 输出协方差矩阵。

slide24

Model fit是默认项。能够输出复相关系数R、R2及R2修正值,(R2 判定系数在判定一个线性回归直线的拟合优度的好坏时,是一个重要的判定指标)

R squared change:引入或剔除一个变量时,R2的变化。

Descriptives: 基本统计描述。

Part and Partial correlations:相关、偏相关系数。

Collinearity diagnostics:共线性诊断。

slide25

Residuals 残差栏:

Durbin-Watson:D.W检验.

Casewise diagnostics: 奇异值诊断,有两个选项:

Outliers outside( )standard deviations:奇异值判据,默认项标准差≥3。

All case 输出所有观测量的残差值。

本例中选择D.W检验及奇异值诊断,选择标准差为2,即置信度约为95%。

slide26
4、如果需要观察图形,可单击Plots按纽,打开Linear Regression:Plots对话框如图所示。在此对话框中可以选择所需要的图形。
slide27

在左上角的源变量框中,选择Dependent 进入X(或Y)轴变量框,选择其它变量进入Y(或X)轴变量框,除因变量外,其客观存在变量依次是:ZPRED:标准化预测值,ZRESID:标准化残差,DRESID:剔除残差,ADJPRED:修正后预测值,SRESID学生化残差,SDRESID:学生化剔除残差。

slide28

Standardized Residual Plots栏,标准化残差图类型:

  • Histogram: 标准化残差直方图
  • Normal probability plot 标准化残差序列的正态分布概率图.
  • Produce all partial plots 依次绘制因变量和所有自变量的散布图
  • 本例中选择因变量Dependent与标准化残差ZRESID的残差图。
slide29

5、单击Options按纽,打开Linear Regression:Options对话框,如图所示。可以从中选择模型拟合判断准则Stepping Method Criteria 及缺失值的处理方式。

slide30

Stepping Method Criteria 栏:

  • Use probability of F:采用F检验的概率为判别依据。
  • Use F value: 采用F值作为检验标准。
  • Include constant in equation 回归方程中包括常数项。
  • Missing Values 缺失值处理方式。
slide31

6、如果要保存预测值等数据,可单击Save按纽打开Linear Regression:Save对话框。选择需要保存的数据种类作为新变量存在数据编辑窗口。其中有预测值、残差,预测区间等。本例中不做选择。

  • 7、当所有选择完成后,单击OK,得到分析结果
model summary d
Model Summary(d) 模型综合分析表
  • 表模型综合分析中有模型的复相关系数R,样本决定系数R2,修正的可决系数,估计标准误,模型变化导致的可决系数及F值的变化,D.W检验值等。由上表中知模型3的修正的可决系数为0.993,其模型的拟合程度最好,DW值为2.066,显然通过DW检验,说明残差项不存在一阶自相关。
slide33
方差分析表
  • 方差分析表同时给出了3个模型的方差分析表。其中模型3的F值最大,说明模型3的回归效果最显著。
slide38
回归系数表的输出结果Model栏可以看出:
  • 模型1是先将卷烟销量作为自变量进入模型;
  • 模型2将卷烟销量与打火石销量两个自变量进入模型;
  • 模型3是将卷烟、打火石和煤气户数三个自变量进入模型,自变量蚊香销量没有通过检验自动剔除,得回归模型为:
slide39
回归系数表的输出结果可以看出,回归系数都通过检验,模型中自变量与因变量的偏相关系数都在0.7以上,说明进入模型的自变量对因变量的影响都比较显著。回归系数表的输出结果可以看出,回归系数都通过检验,模型中自变量与因变量的偏相关系数都在0.7以上,说明进入模型的自变量对因变量的影响都比较显著。
  • 由最后两列的容忍度Tolerance和方差膨胀因子VIF的值来看,自变量之间不存在强烈的共线性。
slide40
相关系数表
  • 相关分析表中表示的相关系数是全部变量(自变量与因变量)两两变量之间的简单相关系数和相关性检验。
slide41
残差统计
  • 残差统计表表示了预测值、残差、标准化预测值和标准化残差的特征值。其中包括预测值及残差项的最小值和最大值、均值、标准误和样本容量。
slide42
共线性诊断表

共线性诊断表中第二列是特征值,第三列是条件指数,最后一列是方差比。最大的条件指数小于20,说明自变量之间不存在比较强烈的共线性。

slide43
练习1
  • 15例儿童的血液中血红蛋白(y,g)与钙(x1) 镁(x2) 铁(x3) 锰(x4)及铜(x5)的含量如下图所示用,逐步回归方法筛选对血红蛋白有显著作用的微量元素(ug)。
slide45
二、曲线估计
  • 上面介绍了线性回归模型的分析和检验方法。
  • 如果某对变量数据的散点图不是直线,而是某种曲线的形式时,可以利用曲线估计的方法为数据寻求一条合适的曲线,也可用变量代换的方法将曲线方程变为直线方程,用线性回归模型进行分析和预测。
  • SPSS提供了多种曲线方程。
slide46
例:下表表示的是全国1990年至2002年人均消费支出与教育支出的统计数据,试以人均消费性支出为解释变量,教育支出作为被解释变量,拟合用一条合适的函数曲线。例:下表表示的是全国1990年至2002年人均消费支出与教育支出的统计数据,试以人均消费性支出为解释变量,教育支出作为被解释变量,拟合用一条合适的函数曲线。
slide49

1、单击Analyze  Regression  Curve Estimation打开Curve Estimation对话框。

2、选择估计曲线:SPSS有多条曲线形式供选择。

slide51

3、单击Save按纽,打开Save对话框如图所示。

4、所有选择完成后,单击OK,得到输出结果如表

选择需要保存到数据表中的项目。在Save Variables栏中,复选项依次是:Predicted Values预测值、Residuals残差、Prediction intervals预测区间,可以在下方框中选择置信度,默认值为95%。

slide54
从表中可以看出,可决系数接近1的模型是Com复合函数;也可通过图形验证这三个模型对观察值的拟合程度。从表中可以看出,可决系数接近1的模型是Com复合函数;也可通过图形验证这三个模型对观察值的拟合程度。
  • 对以上三个模型进一步分析。在主对话框下方选择输出方差分析表Display AMOVA table, 可得到方差分析表详细结果。
slide55
通过比较各种估计模型的样本决定系数,标准误,F值,拟合程度最好的复合函数曲线,并且其模型的回归系数的检验也通过。通过比较各种估计模型的样本决定系数,标准误,F值,拟合程度最好的复合函数曲线,并且其模型的回归系数的检验也通过。
  • 故可以选择复合函数曲线作为拟合曲线,其回归方程为:
logistic
三、 Logistic回归分析
  • 使用多元线性回归来分析多个自变量与一个因变量的关系,因变量要求正态分布的连续随机变量。
  • 所谓Logistic 回归是指因变量为二级计分或二类评定的回归分析。
slide58
某医师研究男性胃癌患者发生术后院内感染的影响因素,资料如下表,请通过Logistic回归统计方法对主要影响因素进行分析。某医师研究男性胃癌患者发生术后院内感染的影响因素,资料如下表,请通过Logistic回归统计方法对主要影响因素进行分析。
slide60
激活数据管理窗口,定义变量名:术后感染为Y(字符变量,有输入Y、无输入N),年龄为X1,手术创伤程度为X2,营养状态为X3,术前预防性抗菌为X4(字符变量,有输入Y、无输入N),白细胞数为X5,癌肿病理分度为X6。激活数据管理窗口,定义变量名:术后感染为Y(字符变量,有输入Y、无输入N),年龄为X1,手术创伤程度为X2,营养状态为X3,术前预防性抗菌为X4(字符变量,有输入Y、无输入N),白细胞数为X5,癌肿病理分度为X6。
slide61
激活Analyze菜单选Regression中的Logistic..项,弹出Logistic Regression对话框。
  • 选y,点击钮使之进入Dependent框;
  • 选x1、x2、x3、x4、x5和x6,点击钮使之进入Covariates框;
slide63
1、Enter:所有自变量强制进入回归方程;
  • 2、Forward: Conditional:以假定参数为基础作似然比概率检验,向前逐步选择自变量;
  • 3、Forward: LR:以最大局部似然为基础作似然比概率检验,向前逐步选择自变量;
  • 4、Forward: Wald:作Wald概率统计法,向前逐步选择自变量;
  • 5、Backward: Conditional:以假定参数为基础作似然比概率检验,向后逐步选择自变量;
  • 6、Backward: LR:以最大局部似然为基础作似然比概率检验,向后逐步选择自变量;
  • 7、Backward: Wald:作Wald概率统计法,向后逐步选择自变量。
  • 本例选用Forward: Conditional法,以便选择有主要作用的影响因素
slide64
点击Options钮,弹出Logistic Regression: Options 对话框,在Display框中选取At last step项,要求只显示最终计算结果,点击Continue钮,返回Logistic Regression对话框。
  • 再点击OK钮即可。
slide66
系统先对字符变量进行重新赋值,对于应变量Y,回答是(Y)的赋值为0,回答否(X)的赋值为1;系统先对字符变量进行重新赋值,对于应变量Y,回答是(Y)的赋值为0,回答否(X)的赋值为1;
  • 对于应变量X4,回答是(Y)的赋值为-1,回答否(X)的赋值为1。
slide69

结果表明,第一步自变量X3入选,方程分类能力达80.00%;第二步自变量X6入选,方程分类能力达93.33%(参见结果中的分类分析表);方程有效性经χ2检验,χ2=15.276,P=0.0005。

Logistic回归的分类概率方程为:

e(123.4053-30.5171X3-10.2797X6)

P = ——————————————

1+ e(123.4053-30.5171X3-10.2797X6)

根据该方程,若一胃癌患者营养状态评分(X3)为3,癌肿病理分度(X6)为9,则其P=4.5×10-27≈0,这意味着术后将发生院内感染;另一胃癌患者营养状态评分(X3)为1,癌肿病理分度(X6)为4,则其P=0.98105≈1,这意味着术后将不会发生院内感染。

ad