1 / 54

王建明

医学研究数据管理与分析. SPSS 软件应用 (五). 王建明. 公共卫生学院流行病与卫生统计学系 jmwang@njmu.edu.cn. 常用回归与生存分析比较. 常用回归与生存分析比较. 传统方法能否用于分析随访资料?. 除了生存结局作为判定标准以外,生存时间延长也认为有效。 如果将两者均作为应变量拟合一般多元回归模型,则由于时间分布不明(肯定不呈正态分布,在不同情况下的分布规律也不同),拟合一般多元回归模型极为困难。. 存在失访. 随访资料存在大量失访,原因包括: 失去联系(病人搬走,电话号码改变) 竞争性风险(死于其他原因) 整个研究终止

todd-moore
Download Presentation

王建明

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 医学研究数据管理与分析 SPSS软件应用(五) 王建明 公共卫生学院流行病与卫生统计学系 jmwang@njmu.edu.cn

  2. 常用回归与生存分析比较

  3. 常用回归与生存分析比较

  4. 传统方法能否用于分析随访资料? • 除了生存结局作为判定标准以外,生存时间延长也认为有效。 • 如果将两者均作为应变量拟合一般多元回归模型,则由于时间分布不明(肯定不呈正态分布,在不同情况下的分布规律也不同),拟合一般多元回归模型极为困难。

  5. 存在失访 • 随访资料存在大量失访,原因包括: • 失去联系(病人搬走,电话号码改变) • 竞争性风险(死于其他原因) • 整个研究终止 • 显然,将失访数据无论是算作死亡还是存活似乎都不大合理,剔除失访资料也会损失大量信息。

  6. 生存分析的主要研究内容 (1)描述生存过程 • 研究人群生存状态的规律 • 研究生存率曲线的变动趋势 (2)分析生存过程的影响因素及结局预测 • 了解哪些因素会影响生存过程 • 对生存结局加以预测

  7. 常用术语 • 失效事件(Failure event) 也被称为称“死亡”事件或失败事件,表示观察到随访对象出现了我们期望观察到的结局事件。

  8. 常用术语 • 截尾值、删失值(Censored value) • 中途失访:包括拒绝访问、失去联系或中途退出试验。 • 死于其它与研究无关的原因:如胃癌患者死于心机梗塞、自杀或因车祸死亡。 • 随访截止:整个研究结束时观察对象仍存活。

  9. 常用术语 • 生存时间(Survival time) • 随访观察持续的时间,按失效事件发生或失访前最后一次的随访时间记录,常用符号t表示。 随访开始出现结局(失效事件) 随访开始失访前最后一次随访

  10. 常用术语 • 生存率(Survival rate) 生存概率,指某个观察对象活过t时刻的概率,常用P(x>t)表示。 根据失效事件的定义,生存率可以是缓解率、有效率等。

  11. SPSS中生存分析模块 Life tables过程 • 分析分组生存资料 • 主要用于计算寿命表 Kaplan-Meier过程 • 用于分组生存资料 Cox Regression过程 • 最重要的一个分析方法 Cox w/Time-Dep Cov过程 • 对比例风险模型的扩展,允许影响因素的影响程度随时间而变化。

  12. Life Tables • 寿命表 • 将整个观测时间划分为很多小的时间段,对于每个时间段,计算所有活到某时间段起点的病例在该时间段内死亡(出现结局)的概率。 • 也被称为分组资料的生存分析。

  13. Life Tables • 346例大肠癌患者的随访资料,试描述其生存情况 例11-1-1.sav

  14. Life Tables 1=死亡 0=删失

  15. Intrvl Start Time:生存时间的组段下限 • Number Entrng this Intrvl:进入该组段的观察例数,即活到该组段下限的例数 • Number Wdrawn During Intrval:该组段删失例数 • Number Exposed to Risk:暴露于危险因素的例数,即有效观察例数,或校正人数,等于进入该组段的观察例数减去1/2删失人数。 • Number of Terminal Events:出现结局事件的例数,即死亡(复发、恶化)数。 • Proportion Terminating:终结事件比例,即各组的死亡概率。 • Proportion Surviving:各组的生存概率,等于1-死亡概率。 • Cumul Proportion Surviving at End of interval:至本组段上限的累积生存率,由各组生存概率累积相乘。

  16. Probability Densty:概率密度。所有个体在时点t后单位时间内死亡概率的估计值。 • Hazard Rate:风险率。活过时点t个体在时点t后单位时间内死亡概率的估计值。 • SE of Cumul Surviving • SE of Probability Densty • SE of Hazard Rate 中位生存时间

  17. Life Tables • 生存曲线

  18. Kaplan-Meier • 基本生存分析方法之一,直接从原理出发计算生存概率。 • 假定病人在各个时段生存的事件独立,生存概率为p,则应用概率乘法得生存率估计的应用公式为:

  19. Kaplan-Meier • 比较KM曲线常采用Log-rank test • Hypothesis test (test of significance) • H0: the curves are statistically the same • H1: the curves are statistically different

  20. Kaplan-Meier • 例:某医生收集甲、乙两种疗法治疗20名患者的生存时间(周),试比较两种疗法生存率有无差异? • 甲:5,7+,13,13,23,30,30+,38,42,45+ • 乙:1,3,3,7,10,15,15,23,30 例11-1-2.sav +:说明存在截尾数据(删失)

  21. Kaplan-Meier • 注意数据录入方法 • 需定义:时间变量和结局变量

  22. Kaplan-Meier 组间比较方法 Logrank test 绘制生存曲线

  23. 甲乙两种疗法生存曲线 • 甲乙两种疗法比较采用Log Rank法,P<0.05, 说明两种疗法患者生存率差异有统计学意义

  24. 练习 • 某研究者欲研究肺癌四种亚型的生存时间有无差别,收集了一些肺癌病例的数据(lung_ca.sav)。问各种病理类型肺癌病人的生存曲线是否相同。 • 绘制生存曲线 • 两两比较 • 调整性别的影响

  25. Cox比例风险模型 • 在比例风险模型中,假设在时点t个体出现观察结局的风险大小可以分解为两个部分。 • 基本(本底)风险量h0(t),代表没有任何自变量影响下的生存状况。 • 第i个影响因素使得在任意一个时点t的死亡风险从h0(t)增加e(biXi)倍而成为h0(t)*e(biXi)。 • 如果在k个因素同时影响生存过程的情况下,在时点t的风险量(常称为风险率hazard rate或风险函数hazard function)就为:

  26. Cox比例风险模型 • h0(t):表示个体在时点t的基准死亡情况(基础风险函数,为发病密度或死亡密度)。 • β:可直接理解为Xi的回归系数,β的实际含义是:当变量X改变一个单位时,引起的死亡风险改变倍数的自然对数值。

  27. Eβ:相对危险度(RR,Relative Risk),表示两种情况下发病密度或者说发病概率之比。 • 如果RR>1则说明相应的自变量取值增 加,会导致个体的发病/死亡风险增加若干倍。 HR:Hazard Ratio 请回忆一下,多元线性回归、Logistic回归模型中回归系数β的意义。联系的大小如何表示? OR、RR、HR

  28. Cox模型 例:随访30例术后大肠癌患者 • Time:生存时间(月) • Status:结局(1=死亡,0=删失) • 协变量:Sex [性别] Age [年龄] Dtime [确诊至手术的时间] 例11-1-3.sav

  29. 生存时间 结局变量 协变量 分层变量

  30. 协变量筛选方法 显示HR的95% CI 仅显示模型拟合的最后一步

  31. 哑变量设置 • 此处性别是两分类变量,是否设置哑变量结果均一致

  32. 绘图 PLOTS

  33. 本结果为ENTER法拟合的模型结果 P 值 风险比 HR EXP(B)即为HR HR的可信区间

  34. Question: • 该例如果采用逐步回归法,如何构建模型?

  35. 条件Logisticl回归模型 • 流行病学中常采用1:1配对病例对照研究设计,该资料需采用条件Logistic回归模型分析,SPSS的logistic回归分析方法中无直接的分析模块。 • 若只有1个自变量可采用非参数检验法中相应模块分析(McNemar)。 • 多因素需借助COX模型来拟合。

  36. 1:1配对病例对照研究 • 例:采用1:1配对病例-对照研究方法分析胃癌危险因素。 • 因变量:state(1=病例,0=对照) • 自变量: • X1:蛋白质摄入(0,1,2,3) • X2:不良饮食习惯(0,1,2,3) • X3:精神因素(0,1,2) • 例10-2-5.sav

  37. 1:1配对病例对照研究 • COX回归模型需要有时间变量,因此在数据库中应新建一虚拟时间变量 outcome,病例=1,对照=2,可取1-100间数字,只要对照>病例即可。 • 虚拟生存变量:即病例与对照的分组变量,要求病例=1,对照=0 • 配对号:拖入strata分层选项中

  38. 此处自变量作为连续性变量纳入模型 • 如果需作哑变量处理,则点击”分类”

  39. 利用COX回归模型进行1:1配对病例对照研究资料分析的结果利用COX回归模型进行1:1配对病例对照研究资料分析的结果 • Q:你会解释该结果吗?

  40. SPSS其它一些内容(1) 重复测量资料的方差分析 • 可以用一般线性模型(General Linear Model)的Repeated Measures过程实现重复测量资料的方差分析,并用Multivariate过程实现组间的两两比较。

  41. 重复测量资料的方差分析 重复测量:如观察某药物疗效,在用药2周、4周、6周、8周分别测量相应的疗效指标。 为何不用普通方差分析? *因为可能存在资料的独立性问题 如果重复测量数据间不存在相关性(符合Huynh-Feldt条件),则多元分析与一元分析的结果一致。 球形检验

  42. 重复测量资料的方差分析(1) • 例:观察Anxiety和Tension对实验结果Trial1-4有无影响 Anxiety 2.sav

  43. ② 改为4,因为有4次重复测量, 然后Click Add ④ ⑤ ③

  44. ⑦ 只分析主效应

  45. 球形检验结果 • P=0.097,说明4次重复测量数据满足一元方差分析的条件。在下面的分析中可以不进行校正

  46. 组间效应的方差分析结果 • 可以看到Anxiety和Tension均无统计学意义

  47. 重复测量资料的方差分析(2) • 也可采用混合线性模型来分析 • 但数据录入格式与前例有所不同 • 长型数据 Anxiety.sav

  48. ⑤ 说明个体间的随机效应大小不同 ④

  49. 可以看到Anxiety和Tension均无统计学意义。与前述方法结果一致。可以看到Anxiety和Tension均无统计学意义。与前述方法结果一致。

More Related