650 likes | 947 Views
曲 线 回 归. 吴库生 汕头大学医学院预防医学教研室. 回归分析的概念. 寻求有关联(相关)的变量之间的关系 主要内容: 从一组样本数据出发,确定这些变量间的定量关系式 对这些关系式的可信度进行各种统计检验 从影响某一变量的诸多变量中,判断哪些变量的影响显著,哪些不显著 利用求得的关系式进行预测和控制. 回归分析的模型. 按是否线性分:线性回归模型和非线性回归模型 按自变量个数分:简单的一元回归,多元回归. 常见回归分析的模型. 在回归种类中包括: Liner :线性回归 Curve Estimation :曲线估计
E N D
曲 线 回 归 吴库生 汕头大学医学院预防医学教研室
回归分析的概念 • 寻求有关联(相关)的变量之间的关系 • 主要内容: • 从一组样本数据出发,确定这些变量间的定量关系式 • 对这些关系式的可信度进行各种统计检验 • 从影响某一变量的诸多变量中,判断哪些变量的影响显著,哪些不显著 • 利用求得的关系式进行预测和控制
回归分析的模型 • 按是否线性分:线性回归模型和非线性回归模型 • 按自变量个数分:简单的一元回归,多元回归
常见回归分析的模型 • 在回归种类中包括: • Liner:线性回归 • Curve Estimation:曲线估计 • Binary Logistic: 二分变量逻辑回归 • Multinomial Logistic:多分变量逻辑回归 • Ordinal 序回归 • Probit:概率单位回归 • Nonlinear:非线性回归 • Weight Estimation:加权估计 • 2-Stage Least squares:二段最小平方法 • Optimal Scaling 最优编码回归
一、曲线拟合 Curve fitting
医学研究中,X与Y两变量的数量关系并非总是线性的,如医学研究中,X与Y两变量的数量关系并非总是线性的,如 • 毒物剂量——动物死亡率 • 年龄——身高 • 时间——血药物浓度 • 可用曲线直线化估计(Curve estimation) 或非线性回归(Nonlinear regression) 方法进行统计学分析。
曲线估计(Curve Estimation) 对于一元回归,若散点图的趋势不呈线性分布,可以利用曲线估计方式方便地进行各种方程拟合,如:指数拟合(Exponential)、二次拟合(Quadratic)、三次拟合(Cubic)等。 采用哪种拟合方式更合理主要取决于各种拟合模型对数据的充分描述(看校正Adjusted R2 →1)
选择曲线的基本方法 • 根据专业知识和过去经验(或文献)选择曲线类型 • 利用算术格纸、半对数格纸等,将实测数据绘制散点图。根据散点图的特点选择曲线类型 • 先在普通格纸上绘制散点图,再根据各点分布趋势用试配法来选择曲线类型。
曲线拟合方式 • 曲线直线化估计 • 曲线直接拟合
曲线直线化估计的步骤 • 绘制散点图,根据图形和专业知识选取曲线类型(可同时选取几类) • 按曲线类型,作曲线直线化变换 • 建立变换数据间的直线回归方程 (假设检验,计算决定系数) • 比较决定系数选取“最佳”方程 • 写出曲线方程
二、常见的几种曲线 Y b>0 b<0 X 0 对数曲线
及其变换形式 Y b<0 b>0 0 X 指数曲线
Y = b0 + b1 X + b2 X2 Y b2>0 b2<0 0 X 抛物线
Y = b0 + b1 X + b2 X2 + b3 X3 Y X 0 3次多项式曲线
SPSS回归分析的过程 • 基本的步骤:利用SPSS得到模型关系式,是否是我们所要的,要看回归方程的显著性检验(F 检验)和回归系数b的显著性检验(t 检验),还要看拟合程度R2 (相关系数的平方,一元回归用R Square,多元回归用Adjusted R Square)
常见的曲线回归方程 ①幂函数: 或 ②对数: ③指数函数: 或 ④多项式: ⑤logistic: 或
利用线性回归拟合曲线(例1) 例 上海医科大学微生物学教研室以已知浓度X的免疫球蛋白A(IgA, μg/ml)作火箭电泳, 测得火箭高度Y(mm)如表1所示。试拟合Y关于X的非线性回归方程。
(一)绘制散点图,决定曲线类型(二)曲线直线化变换=a+blnX(一)绘制散点图,决定曲线类型(二)曲线直线化变换=a+blnX
利用线性回归拟合曲线(例2) 15名重伤病人的住院天数X与预后指数Y
(三)建立线性回归方程 • 回归方程为: 4.037-0.038X • 方差分析有统计学意义,P=0.0000,F=276.38,表明回归方程有贡献。 • 确定系数为0.9551,表明回归拟合原资料较好。 • 转换为原方程的另一种形式:
曲线直线化 非线性最小二乘法 比较两个回归方程可见,对同一份样本采用不同估计方法得到的结果并不相同。 主要因为曲线直线化以后的回归只对变换后的Y*(=lnY)负责, 得到的线性方程可使Y*与其估计值 之间的残差平方和最小,并不保证原变量Y与其估计值 之间的残差平方和也是最小。
问题:前一个例子只对自变量作对数变换的对数曲线拟合,能否保证原变量Y与其估计值 之间的残差平方和也是最小?幂函数曲线拟合呢?
问题:如何判断哪个曲线拟合方程更佳? 对于前例,几个常见曲线拟合得到的决定系数R2如下(曲线直线化): 线性(直线)R2:0.8856 (y = 46.4604 -0.7525 x) 幂曲线 R2:0.8293 (y = 159.9297 x-0.7191) 对数曲线 R2:0.9654 (y = 72.2829 -15.9662 Ln(x)) 指数曲线 R2:0.9551(y = 56.6651 e-0.0380 x) 二项式曲线 R2:0.9812(y = 55.8221- 1.7103 x +0.0148 x2)
问题:如何判断那个曲线拟合方程更佳? 对于例2,几个常见曲线拟合得到的决定系数R2如下(非线性回归——迭代法): 线性(直线)R2:0.8856 (y = 46.4604 -0.7525 x) 幂曲线 R2:0.8413 (y = 88.7890 x-0.4662) 对数曲线 R2:0.9654 (y = 72.2829 -15.9662 Ln(x)) 指数曲线 R2:0.9875(y = 58.6066 e-0.0396 x) 二项式曲线 R2:0.9812(y = 55.8221- 1.7103 x +0.0148 x2)
如果条件允许最好采用非线性回归(Nonlinear Regression)拟合幂函数曲线与指数函数曲线 注意绘制散点图,并结合专业知识解释
非线性回归方程 • 非线性回归与一般线性回归的求解方法不同在于: • 需要给定参数(a、b)的初始值 • 采用迭代方法,不断更新估计的参数,直至稳定在某一值为止。 • 优点:在需要变换Y时,结果更可靠。 • 缺点:a.计算复杂;b.初始值不适当时,估计不准确.
采用SPSS进行曲线拟合 曲线直线化 Analyze Regression Curve Estimation …可选Power 、Logarithmic、Exponential、Quadratic、Cubic 等 非线性回归 Analyze Regression Nonlinear …设置模型: Model Expression 参数赋初值:Parameters…
SPSS曲线拟合实例 一只红铃虫的产卵数与温度有关,下面是有关数据: 温 度 21 23 25 27 29 32 35 产卵数 7 11 21 24 66 115 325 试找出一种较佳的经验回归函数?