王建明

医学研究数据管理与分析 SPSS软件应用（五）王建明公共卫生学院流行病与卫生统计学系 jmwang@njmu.edu.cn

常用回归与生存分析比较

传统方法能否用于分析随访资料？ • 除了生存结局作为判定标准以外，生存时间延长也认为有效。 • 如果将两者均作为应变量拟合一般多元回归模型，则由于时间分布不明（肯定不呈正态分布，在不同情况下的分布规律也不同），拟合一般多元回归模型极为困难。

存在失访 • 随访资料存在大量失访，原因包括： • 失去联系（病人搬走，电话号码改变） • 竞争性风险（死于其他原因） • 整个研究终止 • 显然，将失访数据无论是算作死亡还是存活似乎都不大合理，剔除失访资料也会损失大量信息。

生存分析的主要研究内容 （1）描述生存过程 • 研究人群生存状态的规律 • 研究生存率曲线的变动趋势（2）分析生存过程的影响因素及结局预测 • 了解哪些因素会影响生存过程 • 对生存结局加以预测

常用术语 • 失效事件(Failure event) 也被称为称“死亡”事件或失败事件，表示观察到随访对象出现了我们期望观察到的结局事件。

常用术语 • 截尾值、删失值（Censored value） • 中途失访：包括拒绝访问、失去联系或中途退出试验。 • 死于其它与研究无关的原因：如胃癌患者死于心机梗塞、自杀或因车祸死亡。 • 随访截止：整个研究结束时观察对象仍存活。

常用术语 • 生存时间（Survival time） • 随访观察持续的时间，按失效事件发生或失访前最后一次的随访时间记录，常用符号t表示。随访开始出现结局（失效事件）随访开始失访前最后一次随访

常用术语 • 生存率（Survival rate）生存概率，指某个观察对象活过t时刻的概率，常用P(x>t)表示。根据失效事件的定义，生存率可以是缓解率、有效率等。

SPSS中生存分析模块 Life tables过程 • 分析分组生存资料 • 主要用于计算寿命表 Kaplan-Meier过程 • 用于分组生存资料 Cox Regression过程 • 最重要的一个分析方法 Cox w/Time-Dep Cov过程 • 对比例风险模型的扩展，允许影响因素的影响程度随时间而变化。

Life Tables • 寿命表 • 将整个观测时间划分为很多小的时间段，对于每个时间段，计算所有活到某时间段起点的病例在该时间段内死亡（出现结局）的概率。 • 也被称为分组资料的生存分析。

Life Tables • 346例大肠癌患者的随访资料，试描述其生存情况例11-1-1.sav

Life Tables 1＝死亡 0＝删失

Intrvl Start Time：生存时间的组段下限 • Number Entrng this Intrvl：进入该组段的观察例数，即活到该组段下限的例数 • Number Wdrawn During Intrval：该组段删失例数 • Number Exposed to Risk：暴露于危险因素的例数，即有效观察例数，或校正人数，等于进入该组段的观察例数减去1/2删失人数。 • Number of Terminal Events：出现结局事件的例数，即死亡（复发、恶化）数。 • Proportion Terminating：终结事件比例，即各组的死亡概率。 • Proportion Surviving：各组的生存概率，等于1-死亡概率。 • Cumul Proportion Surviving at End of interval：至本组段上限的累积生存率，由各组生存概率累积相乘。

Probability Densty：概率密度。所有个体在时点t后单位时间内死亡概率的估计值。 • Hazard Rate：风险率。活过时点t个体在时点t后单位时间内死亡概率的估计值。 • SE of Cumul Surviving • SE of Probability Densty • SE of Hazard Rate 中位生存时间

Life Tables • 生存曲线

Kaplan-Meier • 基本生存分析方法之一，直接从原理出发计算生存概率。 • 假定病人在各个时段生存的事件独立，生存概率为p，则应用概率乘法得生存率估计的应用公式为：

Kaplan-Meier • 比较KM曲线常采用Log-rank test • Hypothesis test (test of significance) • H0: the curves are statistically the same • H1: the curves are statistically different

Kaplan-Meier • 例：某医生收集甲、乙两种疗法治疗20名患者的生存时间（周），试比较两种疗法生存率有无差异？ • 甲：5，7+，13，13，23，30，30+，38，42，45+ • 乙：1，3，3，7，10，15，15，23，30 例11-1-2.sav +：说明存在截尾数据（删失）

Kaplan-Meier • 注意数据录入方法 • 需定义：时间变量和结局变量

Kaplan-Meier 组间比较方法 Logrank test 绘制生存曲线

甲乙两种疗法生存曲线 • 甲乙两种疗法比较采用Log Rank法，P<0.05，说明两种疗法患者生存率差异有统计学意义

练习 • 某研究者欲研究肺癌四种亚型的生存时间有无差别，收集了一些肺癌病例的数据（lung_ca.sav）。问各种病理类型肺癌病人的生存曲线是否相同。 • 绘制生存曲线 • 两两比较 • 调整性别的影响

Cox比例风险模型 • 在比例风险模型中，假设在时点t个体出现观察结局的风险大小可以分解为两个部分。 • 基本（本底）风险量h0(t)，代表没有任何自变量影响下的生存状况。 • 第i个影响因素使得在任意一个时点t的死亡风险从h0(t)增加e(biＸi)倍而成为h0(t)*e(biＸi)。 • 如果在k个因素同时影响生存过程的情况下，在时点t的风险量（常称为风险率hazard rate或风险函数hazard function）就为：

Cox比例风险模型 • h0(t)：表示个体在时点t的基准死亡情况（基础风险函数，为发病密度或死亡密度）。 • β：可直接理解为Xi的回归系数，β的实际含义是：当变量X改变一个单位时，引起的死亡风险改变倍数的自然对数值。

Eβ：相对危险度（RR，Relative Risk），表示两种情况下发病密度或者说发病概率之比。 • 如果RR>1则说明相应的自变量取值增加，会导致个体的发病/死亡风险增加若干倍。 HR：Hazard Ratio 请回忆一下，多元线性回归、Logistic回归模型中回归系数β的意义。联系的大小如何表示？ OR、RR、HR

Cox模型 例：随访30例术后大肠癌患者 • Time:生存时间（月） • Status：结局（1＝死亡，0＝删失） • 协变量：Sex [性别] Age [年龄] Dtime [确诊至手术的时间] 例11-1-3.sav

生存时间 结局变量协变量分层变量

协变量筛选方法 显示HR的95% CI 仅显示模型拟合的最后一步

哑变量设置 • 此处性别是两分类变量，是否设置哑变量结果均一致

绘图 PLOTS

本结果为ENTER法拟合的模型结果 P 值风险比 HR EXP（B）即为HR HR的可信区间

Question: • 该例如果采用逐步回归法，如何构建模型？

条件Logisticl回归模型 • 流行病学中常采用1：1配对病例对照研究设计，该资料需采用条件Logistic回归模型分析，SPSS的logistic回归分析方法中无直接的分析模块。 • 若只有1个自变量可采用非参数检验法中相应模块分析（McNemar）。 • 多因素需借助COX模型来拟合。

1：1配对病例对照研究 • 例：采用1：1配对病例－对照研究方法分析胃癌危险因素。 • 因变量：state(1=病例，0＝对照) • 自变量： • X1：蛋白质摄入（0，1，2，3） • X2：不良饮食习惯（0，1，2，3） • X3：精神因素（0，1，2） • 例10-2-5.sav

1：1配对病例对照研究 • COX回归模型需要有时间变量，因此在数据库中应新建一虚拟时间变量 outcome,病例＝1，对照＝2，可取1-100间数字，只要对照>病例即可。 • 虚拟生存变量：即病例与对照的分组变量，要求病例＝1，对照＝0 • 配对号：拖入strata分层选项中

此处自变量作为连续性变量纳入模型 • 如果需作哑变量处理，则点击”分类”

利用COX回归模型进行1：1配对病例对照研究资料分析的结果利用COX回归模型进行1：1配对病例对照研究资料分析的结果 • Q：你会解释该结果吗？

SPSS其它一些内容（1） 重复测量资料的方差分析 • 可以用一般线性模型（General Linear Model）的Repeated Measures过程实现重复测量资料的方差分析，并用Multivariate过程实现组间的两两比较。

重复测量资料的方差分析 重复测量：如观察某药物疗效，在用药2周、4周、6周、8周分别测量相应的疗效指标。为何不用普通方差分析？ *因为可能存在资料的独立性问题如果重复测量数据间不存在相关性（符合Huynh-Feldt条件），则多元分析与一元分析的结果一致。球形检验

重复测量资料的方差分析（1） • 例：观察Anxiety和Tension对实验结果Trial1-4有无影响 Anxiety 2.sav

① ② 改为4，因为有4次重复测量，然后Click Add ④ ⑤ ③

⑥ ⑦ 只分析主效应

球形检验结果 • P＝0.097，说明4次重复测量数据满足一元方差分析的条件。在下面的分析中可以不进行校正

组间效应的方差分析结果 • 可以看到Anxiety和Tension均无统计学意义

重复测量资料的方差分析（2） • 也可采用混合线性模型来分析 • 但数据录入格式与前例有所不同 • 长型数据 Anxiety.sav

② ①

③ ⑤ 说明个体间的随机效应大小不同 ④

可以看到Anxiety和Tension均无统计学意义。与前述方法结果一致。可以看到Anxiety和Tension均无统计学意义。与前述方法结果一致。

王建明

王建明

Presentation Transcript