1 / 37

Logistic 回归分析

Logistic 回归分析. Logistic Regression Analysis. 翟景花 公共卫生学院. 复习: 线性回归分析对反应变量的要求. 反应变量 y. 自变量 x. 数值型 与 Y 呈线性关系. 连续型 服从正态分布. 年龄. 胆固醇含量. 例如:. 舒张压. 医学研究中经常遇到分类型变量,例如:. 二分类变量: 生存与死亡 有病与无病 有效与无效 感染与未感染 多分类有序变量: 疾病程度(轻度、中度、重度) 治愈效果(治愈、显效、好转、无效) 多分类无序变量: 手术方法( A 、 B 、 C )

prema
Download Presentation

Logistic 回归分析

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Logistic回归分析 Logistic Regression Analysis 翟景花 公共卫生学院

  2. 复习: 线性回归分析对反应变量的要求 反应变量 y 自变量 x 数值型 与Y呈线性关系 连续型 服从正态分布 年龄 胆固醇含量 例如: 舒张压

  3. 医学研究中经常遇到分类型变量,例如: • 二分类变量: • 生存与死亡 • 有病与无病 • 有效与无效 • 感染与未感染 • 多分类有序变量: • 疾病程度(轻度、中度、重度) • 治愈效果(治愈、显效、好转、无效) • 多分类无序变量: • 手术方法(A、B、C) • 就诊医院(甲、乙、丙、丁)

  4. 医学研究者经常关心的问题诸如: • 吸烟是否影响肺癌的发病? • 年龄和糖尿病的发病有无关系? • 哪些因素导致了手术后有的人感染,而有的人不感染? • 哪些因素导致了某种治疗方法出现治愈、显效、好转、无效等不同的效果? 是回归分析问题吗?

  5. YES! 这些应该是属于回归分析问题! • 但是这种回归分析问题不能借助于线性回归模型,因为反应变量的假设条件遭到破坏 • 能否找到一种其他形式的模型y=f(x)来描述分类变量y和x之间依存关系呢? • 因为从数学角度看,使得x取任意值而y仅 • 取1和0两个值的函数不存在。 NO

  6. “转换一个角度来解决这个问题” 不存在 不能直接分析 变量y与x的关系 y=f(x) y=1,0 x任意 转换为分析 y取某个值的概率 变量p与x的关系 p=p(y=1|x)=p(x) 0≤p≤1, x任意 Logistic回归模型 存在

  7. 主要内容 • Logistic 回归模型的基本概念 • Logistic回归的参数估计及假设检验 • Logistic回归分析的分类 • Logistic回归的应用

  8. 第一节 Logistic 回归模型的基本概念 • 一、 Logistic 回归的实例

  9. 二、 Logistic 回归模型的基本结构 AMI抢救后死亡率与影响因素关系的回归模型 P值大于1或小于0 变量变换

  10. 1970年,Cox引入了Logit变换 • 请注意其右侧仍然可以写成线性的形式! • 大量实践证明,LogitP往往和自变量呈线性关系。 • 已经成为了分类变量的标准建模方法。 Logistic 回归模型 Logistic 函数

  11. 多变量的Logistic回归模型

  12. Logistic 回归概念 • 是分类数据统计分析的一种重要方法,研究多水平(包括2个水平)的应变量与其影响因子间关系的回归分析。即用于分析某类事件发生概率与自变量之间依存关系的回归,即Logistic回归。 • Logistic这个名称来源于它所采用的Logit变换,和英文单词Logistic的含义(后勤的)一点关系都没有,与逻辑就更不相干了。 • 自从传入国内以来,Logistic回归就一直采用英文写法,从没有使用过译名。

  13. 第二节 Logistic回归的参数估计及假设检验 • 引发的新特点 • 由于反应变量为二分类,所以误差项应当服从二项分布,而不是正态分布。 • 误差项的分布规律应当和所预测的反应变量相同 • 由于上述原因,最小二乘法也不再适用, • 最大似然法的优越性和重要性一举凸现出来。

  14. 一、Logistic回归的参数估计及意义 • 最大似然法(maximum likelihood,ML)的基本思想是先建立似然函数或对数似然函数,求似然函数或对数似然函数达到极大时参数的取值,称为参数的最大似然估计值。 • 计算方法来自于概率分布。 • 似然(L, likelihood):某种结局组合出现的概率,由于总体率不同L也不同,所以又被称为似然函数。

  15. 常数项表示在自变量取值均为0时,死亡优势(比数)的自然对数值。常数项表示在自变量取值均为0时,死亡优势(比数)的自然对数值。 exp( )=0.124是无休克、无心衰和抢救及时组死亡的优势。 当死亡率很低时,该值近似等于自然死亡率。

  16. β为Logistic回归系数,表示其它自变量取值固定时,该自变量增加一个单位引起优势比自然对数的变化量。β=lnOR, OR=eβ或OR=exp(β) OR表示暴露组的疾病危险是非暴露组的多少倍。 OR>1为危险因素;OR<1为保护因素。

  17. logistic回归模型系数β的意义解释: 从 e=OR≈RR,说明当发病率很低时,e近似地表示了相对危险度,即暴露下的发病率与非暴露下的发病率之比。 例如,在例20-1中得到1=1.110, 因此,RR ≈OR= e=3.034, 表明心梗发生后抢救前有休克的死亡危险是没有休克的3.034 倍。

  18. 一般地,logistic回归模型系数的意义是: 1)如果X=1、0,则OR近似表示在X=1条件下的发病率与X=0条件下发病率之比。(见例20-1) 2)如果X是连续变量,则OR近似表示在X相邻两个单位上的相对危险度。 3)如果X是分类变量,则要将X的哑变量放入模型,则OR表示两个类之间的相对危险度。

  19. 二、假设检验和回归系数的区间估计 1.似然比检验(likelihood ratio test) ⑴检验整个模型是否有统计学意义,即检验所有的偏回归系数是否均为0。检验假设为 • H0:β1=…= βm=0 • H1 :β1,…,βm 不全为0 统计量 • G=- [2lnL (-1,…,-m) ] --2lnL ’ • 其中L是不包含m个自变量的模型的似然函数。 • L’是包含所有自变量的模型似然函数,G反映的是后一个模型较前一个模型拟和优度提高的程度。 • 大样本, H0成立的条件下,G服从自由度为m的卡方检验。

  20. ⑵分别检验各个自变量是否有意义,即单个总体回归系数是否为零。检验假设为⑵分别检验各个自变量是否有意义,即单个总体回归系数是否为零。检验假设为 • H0:βi=0 • H1 :βi≠0 统计量 • G=-2lnL-[-2lnL’ (i)] • 其中L是扣除Xi的模型似然函数,L’是包含Xi的模型的似然函数。 • 大样本, H0成立的条件下,G服从自由度为1的卡方检验。

  21. 2.Wald检验 • 常用于回归系数的假设检验,检验假设为 • H0:βi=0 • H1 :βi≠0 统计量 该检验是通过比较β值来进行的,它是基于β值服从正态分布的假设。

  22. 3.优势比的区间估计 总体回归系数的的(1-α)置信区间为

  23. 第三节 Logistic回归分析的分类 Logistic回归分析 • 按数据的类型: • 非条件logistic回归分析(成组数据) • 条件logistic回归分析(配对病例-对照数据) • 按反应变量取值个数: • 二值logistic回归分析 • 多值logistic回归分析 • 按自变量个数: • 一元logistic回归分析 对应四格表资料卡方检验 • 多元logistic回归分析 ★

  24. 条件logistic回归 • 研究中有N个配比组,每组中n个病例配m个对照者。这时,各个研究对象发生某事件的概率即为条件概率。 • 适用于 • 配比设计的病例-对照研究 • 精细分层设计的队列研究

  25. 条件Logistic回归 • 1:1条件Logistic回归及模型 在1:1配对设计的病例-对照研究中,若y=1表示得病,y=0表示未得病;A表示病例,B为对照,一对病例和对照中只有1人得病的条件下恰好是A得病的概率为:

  26. 条件Logistic回归模型

  27. 第四节 Logistic回归的应用 • 筛选危险因素:如例20-1 • 校正混杂因素 • 预测与判别

  28. 筛选危险因素 • 病因学研究 • 病例-对照研究 • 队列研究 • 影响因素的研究 • 横断面调查

  29. 校正混杂因素 • 一般采用Mantel-Haenszel分层分析 • 分层较细或存在格子零频数时,M-H法无法采用。 • logistic回归分析可综合校正多个混杂因素的影响

  30. 预测与判别 • logistic回归模型作为一种概率模型,非条件logistic回归方程可计算相应的概率预测值,对个体所属类别作出概率性的判别。但由于条件logistic回归模型不能估计常数项,不能用于预测。

  31. 注意问题 • 个体间的独立性 • 足够的样本量 • 模型评价 • 标准化回归系数

  32. 注意问题 • 筛选自变量时,临床和流行病学意义和生物学机制在模型结果解释中占更重要的地位。 • 自变量可以是无序分类变量、有序分类变量和数值变量。无序分类变量常用多个0-1假(哑)变量来代替,使结果更容易解释。数值变量可以转换成等级变量,使参数意义更明确。 • 大多数情况下,不需对常数项做解释和假设检验。条件Logistic回归模型无常数项,不能用于预测。

  33. Logistic回归分析和线性回归分析的异同点 • 相同点: • 都可以利用模型来筛选危险因子; • 都可以校正混杂因子的影响; • 都可以用来做预测。 • 不同点: • 前者对因变量无分布要求,后者要求因变量是正态分布变量; • 前者要求因变量必须是分类型变量,后者要求因变量必须是连续型数值变量。 • 前者不要求自变量和因变量呈线性关系,后者要求自变量和因变量呈线性关系; • 前者是分析因变量取某个值的概率与自变量的关系,后者是直接分析因变量与自变量的关系。

  34. 小结 • Logistic回归为概率型的非线性模型 • 反应变量为分类变量,自变量可以是任意类型 • 一元logistic回归分析对应四格表资料卡方检验 • 对模型的检验采用的是似然比检验,对单个偏回归系数的检验可采用似然比检验或Wald卡方检验 • 回归系数β表示其它自变量取值固定时,该自变量增加一个单位引起优势比自然对数的变化量 • β=lnOR, OR=eβ • OR表示联系强度

  35. 对资料分析结果的正确解释至关重要

  36. Thank You

More Related