550 likes | 737 Views
医学研究数据管理与分析. SPSS 软件应用 (五). 王建明. 公共卫生学院流行病与卫生统计学系 jmwang@njmu.edu.cn. 常用回归与生存分析比较. 常用回归与生存分析比较. 传统方法能否用于分析随访资料?. 除了生存结局作为判定标准以外,生存时间延长也认为有效。 如果将两者均作为应变量拟合一般多元回归模型,则由于时间分布不明(肯定不呈正态分布,在不同情况下的分布规律也不同),拟合一般多元回归模型极为困难。. 存在失访. 随访资料存在大量失访,原因包括: 失去联系(病人搬走,电话号码改变) 竞争性风险(死于其他原因) 整个研究终止
E N D
医学研究数据管理与分析 SPSS软件应用(五) 王建明 公共卫生学院流行病与卫生统计学系 jmwang@njmu.edu.cn
传统方法能否用于分析随访资料? • 除了生存结局作为判定标准以外,生存时间延长也认为有效。 • 如果将两者均作为应变量拟合一般多元回归模型,则由于时间分布不明(肯定不呈正态分布,在不同情况下的分布规律也不同),拟合一般多元回归模型极为困难。
存在失访 • 随访资料存在大量失访,原因包括: • 失去联系(病人搬走,电话号码改变) • 竞争性风险(死于其他原因) • 整个研究终止 • 显然,将失访数据无论是算作死亡还是存活似乎都不大合理,剔除失访资料也会损失大量信息。
生存分析的主要研究内容 (1)描述生存过程 • 研究人群生存状态的规律 • 研究生存率曲线的变动趋势 (2)分析生存过程的影响因素及结局预测 • 了解哪些因素会影响生存过程 • 对生存结局加以预测
常用术语 • 失效事件(Failure event) 也被称为称“死亡”事件或失败事件,表示观察到随访对象出现了我们期望观察到的结局事件。
常用术语 • 截尾值、删失值(Censored value) • 中途失访:包括拒绝访问、失去联系或中途退出试验。 • 死于其它与研究无关的原因:如胃癌患者死于心机梗塞、自杀或因车祸死亡。 • 随访截止:整个研究结束时观察对象仍存活。
常用术语 • 生存时间(Survival time) • 随访观察持续的时间,按失效事件发生或失访前最后一次的随访时间记录,常用符号t表示。 随访开始出现结局(失效事件) 随访开始失访前最后一次随访
常用术语 • 生存率(Survival rate) 生存概率,指某个观察对象活过t时刻的概率,常用P(x>t)表示。 根据失效事件的定义,生存率可以是缓解率、有效率等。
SPSS中生存分析模块 Life tables过程 • 分析分组生存资料 • 主要用于计算寿命表 Kaplan-Meier过程 • 用于分组生存资料 Cox Regression过程 • 最重要的一个分析方法 Cox w/Time-Dep Cov过程 • 对比例风险模型的扩展,允许影响因素的影响程度随时间而变化。
Life Tables • 寿命表 • 将整个观测时间划分为很多小的时间段,对于每个时间段,计算所有活到某时间段起点的病例在该时间段内死亡(出现结局)的概率。 • 也被称为分组资料的生存分析。
Life Tables • 346例大肠癌患者的随访资料,试描述其生存情况 例11-1-1.sav
Life Tables 1=死亡 0=删失
Intrvl Start Time:生存时间的组段下限 • Number Entrng this Intrvl:进入该组段的观察例数,即活到该组段下限的例数 • Number Wdrawn During Intrval:该组段删失例数 • Number Exposed to Risk:暴露于危险因素的例数,即有效观察例数,或校正人数,等于进入该组段的观察例数减去1/2删失人数。 • Number of Terminal Events:出现结局事件的例数,即死亡(复发、恶化)数。 • Proportion Terminating:终结事件比例,即各组的死亡概率。 • Proportion Surviving:各组的生存概率,等于1-死亡概率。 • Cumul Proportion Surviving at End of interval:至本组段上限的累积生存率,由各组生存概率累积相乘。
Probability Densty:概率密度。所有个体在时点t后单位时间内死亡概率的估计值。 • Hazard Rate:风险率。活过时点t个体在时点t后单位时间内死亡概率的估计值。 • SE of Cumul Surviving • SE of Probability Densty • SE of Hazard Rate 中位生存时间
Life Tables • 生存曲线
Kaplan-Meier • 基本生存分析方法之一,直接从原理出发计算生存概率。 • 假定病人在各个时段生存的事件独立,生存概率为p,则应用概率乘法得生存率估计的应用公式为:
Kaplan-Meier • 比较KM曲线常采用Log-rank test • Hypothesis test (test of significance) • H0: the curves are statistically the same • H1: the curves are statistically different
Kaplan-Meier • 例:某医生收集甲、乙两种疗法治疗20名患者的生存时间(周),试比较两种疗法生存率有无差异? • 甲:5,7+,13,13,23,30,30+,38,42,45+ • 乙:1,3,3,7,10,15,15,23,30 例11-1-2.sav +:说明存在截尾数据(删失)
Kaplan-Meier • 注意数据录入方法 • 需定义:时间变量和结局变量
Kaplan-Meier 组间比较方法 Logrank test 绘制生存曲线
甲乙两种疗法生存曲线 • 甲乙两种疗法比较采用Log Rank法,P<0.05, 说明两种疗法患者生存率差异有统计学意义
练习 • 某研究者欲研究肺癌四种亚型的生存时间有无差别,收集了一些肺癌病例的数据(lung_ca.sav)。问各种病理类型肺癌病人的生存曲线是否相同。 • 绘制生存曲线 • 两两比较 • 调整性别的影响
Cox比例风险模型 • 在比例风险模型中,假设在时点t个体出现观察结局的风险大小可以分解为两个部分。 • 基本(本底)风险量h0(t),代表没有任何自变量影响下的生存状况。 • 第i个影响因素使得在任意一个时点t的死亡风险从h0(t)增加e(biXi)倍而成为h0(t)*e(biXi)。 • 如果在k个因素同时影响生存过程的情况下,在时点t的风险量(常称为风险率hazard rate或风险函数hazard function)就为:
Cox比例风险模型 • h0(t):表示个体在时点t的基准死亡情况(基础风险函数,为发病密度或死亡密度)。 • β:可直接理解为Xi的回归系数,β的实际含义是:当变量X改变一个单位时,引起的死亡风险改变倍数的自然对数值。
Eβ:相对危险度(RR,Relative Risk),表示两种情况下发病密度或者说发病概率之比。 • 如果RR>1则说明相应的自变量取值增 加,会导致个体的发病/死亡风险增加若干倍。 HR:Hazard Ratio 请回忆一下,多元线性回归、Logistic回归模型中回归系数β的意义。联系的大小如何表示? OR、RR、HR
Cox模型 例:随访30例术后大肠癌患者 • Time:生存时间(月) • Status:结局(1=死亡,0=删失) • 协变量:Sex [性别] Age [年龄] Dtime [确诊至手术的时间] 例11-1-3.sav
生存时间 结局变量 协变量 分层变量
协变量筛选方法 显示HR的95% CI 仅显示模型拟合的最后一步
哑变量设置 • 此处性别是两分类变量,是否设置哑变量结果均一致
本结果为ENTER法拟合的模型结果 P 值 风险比 HR EXP(B)即为HR HR的可信区间
Question: • 该例如果采用逐步回归法,如何构建模型?
条件Logisticl回归模型 • 流行病学中常采用1:1配对病例对照研究设计,该资料需采用条件Logistic回归模型分析,SPSS的logistic回归分析方法中无直接的分析模块。 • 若只有1个自变量可采用非参数检验法中相应模块分析(McNemar)。 • 多因素需借助COX模型来拟合。
1:1配对病例对照研究 • 例:采用1:1配对病例-对照研究方法分析胃癌危险因素。 • 因变量:state(1=病例,0=对照) • 自变量: • X1:蛋白质摄入(0,1,2,3) • X2:不良饮食习惯(0,1,2,3) • X3:精神因素(0,1,2) • 例10-2-5.sav
1:1配对病例对照研究 • COX回归模型需要有时间变量,因此在数据库中应新建一虚拟时间变量 outcome,病例=1,对照=2,可取1-100间数字,只要对照>病例即可。 • 虚拟生存变量:即病例与对照的分组变量,要求病例=1,对照=0 • 配对号:拖入strata分层选项中
此处自变量作为连续性变量纳入模型 • 如果需作哑变量处理,则点击”分类”
利用COX回归模型进行1:1配对病例对照研究资料分析的结果利用COX回归模型进行1:1配对病例对照研究资料分析的结果 • Q:你会解释该结果吗?
SPSS其它一些内容(1) 重复测量资料的方差分析 • 可以用一般线性模型(General Linear Model)的Repeated Measures过程实现重复测量资料的方差分析,并用Multivariate过程实现组间的两两比较。
重复测量资料的方差分析 重复测量:如观察某药物疗效,在用药2周、4周、6周、8周分别测量相应的疗效指标。 为何不用普通方差分析? *因为可能存在资料的独立性问题 如果重复测量数据间不存在相关性(符合Huynh-Feldt条件),则多元分析与一元分析的结果一致。 球形检验
重复测量资料的方差分析(1) • 例:观察Anxiety和Tension对实验结果Trial1-4有无影响 Anxiety 2.sav
① ② 改为4,因为有4次重复测量, 然后Click Add ④ ⑤ ③
⑥ ⑦ 只分析主效应
球形检验结果 • P=0.097,说明4次重复测量数据满足一元方差分析的条件。在下面的分析中可以不进行校正
组间效应的方差分析结果 • 可以看到Anxiety和Tension均无统计学意义
重复测量资料的方差分析(2) • 也可采用混合线性模型来分析 • 但数据录入格式与前例有所不同 • 长型数据 Anxiety.sav
② ①
③ ⑤ 说明个体间的随机效应大小不同 ④
可以看到Anxiety和Tension均无统计学意义。与前述方法结果一致。可以看到Anxiety和Tension均无统计学意义。与前述方法结果一致。