490 likes | 629 Views
第 9 章. 流行病学研究中的偏倚及其控制. Biases and Their Control. 郑州大学公共卫生学院. 本章要点. 1. 偏倚的概念、方向、种类 2. 常见的偏倚及其经典例子 3. 常见偏倚的控制方法. 第一节 概述. 一、偏倚的概念:指在流行病学调查或推论过程中所获结论系统地偏离真实值,属于系统误差。 二、偏倚的方向: (一)正偏倚和负偏倚: 凡夸大真实效应者为正偏倚。 凡缩小真实效应者为负偏倚。 假如某特征的真实值为 θ ,而测得值为 θ’ 。
E N D
第9章 流行病学研究中的偏倚及其控制 Biases and Their Control 郑州大学公共卫生学院
本章要点 1. 偏倚的概念、方向、种类 2. 常见的偏倚及其经典例子 3. 常见偏倚的控制方法
第一节 概述 一、偏倚的概念:指在流行病学调查或推论过程中所获结论系统地偏离真实值,属于系统误差。 二、偏倚的方向: (一)正偏倚和负偏倚: 凡夸大真实效应者为正偏倚。 凡缩小真实效应者为负偏倚。 假如某特征的真实值为θ,而测得值为θ’。 θ=1.0为零效应; θ>1为危险效应; θ<1为保护效应。
1.θ>1时: (1) θ’>θ>1时,夸大危险效应,为正偏倚。 (2)θ>θ’>1时,缩小危险效应,为负偏倚。 2.θ<1时: (1) θ’<θ<1时,夸大 保护效应,为正偏倚。 (2)θ<θ’<1时,缩小保护效应,为负偏倚。
(二)趋向无效值偏倚、远离无效值偏倚或颠倒偏倚:无效值指产生零效应的值。例如,对于RR或OR等于1时即无效值。就RR或OR而言:(二)趋向无效值偏倚、远离无效值偏倚或颠倒偏倚:无效值指产生零效应的值。例如,对于RR或OR等于1时即无效值。就RR或OR而言: 当θ>1时,若θ’>θ>1,则为远离无效值偏倚。 若θ>θ’>1,则为趋向无效值偏倚。 当θ<1时,若θ’<θ<1,则为远离无效值偏倚。 若θ<θ’<1,则为趋向无效值偏倚。 (三)无论θ>1或θ<1,若θ和θ’在1的两侧,则为颠倒偏倚。
3.举例: (1)RR=1.5 RR’=2.0时,为远离无效值正偏倚。 (2)RR=0.6 RR’=0.8时,为趋向无效值负偏倚。 (3)RR=1.2 RR’=0.9时,为颠倒负偏倚。
三、偏倚的种类 偏倚可发生于设计、实施、分析至推断过程中; 可存在于各种研究类型中,形式各异大致可分为: (一)选择偏倚 (二)信息偏倚 (三)混杂偏倚
第二节 选择偏倚 指被选入到研究中的研究对象与未被选者特征上的差异所造成的偏倚。 多见于现况研究、病例对照研究、历史性队列研究。
一、选择偏倚的种类 (一)入院率偏倚(Berkson’s bias) 指利用医院门诊或住院病人作为研究对象时,由于入院率的不同而导致的偏倚。
社会阶层与颈椎病 假定某人群中有6000人患颈椎病,6000人患冠心病,并且在患这两种疾病的人中各有20%的人属于上等社会阶层。 这两种疾病的病人社会阶层情况: 1.患冠心病并属上等阶层:1200人 2.患颈椎病并属上等阶层:1200人 3.患冠心病不属上等阶层:4800人 2.患颈椎病不属上等阶层:4800人
OR=1200×4800/1200×4800=1 χ2=1 , P>0.05
又假定患冠心病者入院率为60%,颈椎病为25%,上等阶层者因接受保健检查的入院率为40%。那么实际入院人数为:又假定患冠心病者入院率为60%,颈椎病为25%,上等阶层者因接受保健检查的入院率为40%。那么实际入院人数为: 1.患冠心病并属上等阶层:共1200人, 正常入院:1200×60%=720人 接受保健检查入院:480×40%=192人 实际入院人数:720+192=912人 2.患冠心病不属上等阶层:共4800人 正常入院:4800×60%=2880 实际入院人数: 2880
3.患颈椎病并属上等阶层:共1200人, 正常入院:1200×25%=300人 接受保健检查入院:900×40%=360人 实际入院人数:300+360=660人 4.患颈椎病不属上等阶层:共4800人 正常入院:4800×25%=1200 实际入院人数:1200
颈椎病与社会地位的关系: OR=660×2880/912×1200=1.73(P<0.001)
(二)现患病例-新病例偏倚(Neyman bias) 病例对照研究中如选择现患病例作病例,他们是过去一段时间新发病例的幸存着,如果幸存者所反映的暴露情况比新发病例高或低,则会导致此种偏倚的出现。 如性别与结肠癌关系的研究:发病率男性稍高于女性,但生存期女性明显高于男性。现患病例的样本比新发病例样本女病人比例较大。
以医院中心肌梗死病人为病例进行病例对照研究,得到结论:大量饮用咖啡与心肌梗死无关。以医院中心肌梗死病人为病例进行病例对照研究,得到结论:大量饮用咖啡与心肌梗死无关。 而队列研究表明:大量饮用咖啡者心肌梗死发病危险性是对照的2倍。 原因: Neyman bias • 50%的心肌梗死患者入院前死亡。调查对象只是心肌梗死后的幸存者; • 死亡者多是大量饮用咖啡者且时间较长; • 入院的未死亡病例只是一般的饮用者;
此外,现患病例有时会主动改变其对危险因素的暴露,导致对危险因素与疾病关系的低估。此外,现患病例有时会主动改变其对危险因素的暴露,导致对危险因素与疾病关系的低估。 队列研究发现高胆固醇血症与冠心病的RR为2.4。而病例对照研究中,RR为1.16。 原因:病例对照研究中的现患病例已改变了他们高胆固醇的饮食习惯。
(三)检出偏倚:指某因素与某疾病无关联,但由于该因素的存在而引起某些症状或体征的出现,从而使患者及早就医,接受多种检查,导致该人群该病的检出率较高,以致得出该因素与该疾病有关联的错误结论。(三)检出偏倚:指某因素与某疾病无关联,但由于该因素的存在而引起某些症状或体征的出现,从而使患者及早就医,接受多种检查,导致该人群该病的检出率较高,以致得出该因素与该疾病有关联的错误结论。 雌激素与子宫内膜癌 1975年,Ziel和Finkle:口服雌激素是子宫内膜癌危险因素(高度联系,方法病例对照研究)
1978年,Horwitz和Feinstein:口服雌激素与子宫内膜癌的高度关联是虚假的,是一种检出偏倚。 (1)人群中有一定量无症状的子宫内膜癌早期病人。 (2)无症状的子宫内膜癌早期病人如服用雌激素易发生子宫出血而就诊,由此被发现而选入病例组。 (3)对照组为一般住院病人。 结果:雌激素服用率高于对照组。
(四)易感性偏倚:观察结局除与暴露因素有关外,还与观察对象的易感性有关。(四)易感性偏倚:观察结局除与暴露因素有关外,还与观察对象的易感性有关。 有些因素可能直接或间接地影响暴露人群或对照人群的对所研究疾病的易感性,导致偏倚的产生,这种偏倚称为易感性偏倚。 如:当研究某种有毒物质对工人的健康危害时,常发现暴露于有毒物质的工人的死亡率比一般人群还低,这主要是接触该有毒物质的工人,其初始的健康水平要比一般人群要高,其易感性低。
(五)排除偏倚:在研究对象的确定过程中,没有按照对等的原则或标准,而自观察组或对照组中排除某些研究对象,这样导致该因素与疾病之间的错误估计,称为排除偏倚。(五)排除偏倚:在研究对象的确定过程中,没有按照对等的原则或标准,而自观察组或对照组中排除某些研究对象,这样导致该因素与疾病之间的错误估计,称为排除偏倚。 利血平与乳腺癌关系: 病例组含有高血压患者(部分服利血平), 对照组排除高血压患者。 高血压患者增加了病例组利血平的暴露率,可能会导致偏倚。
(六)无应答偏倚: 某个样本中的无应答者的患病状况,以及对某一或某些研究因素的暴露情况与应答者不同,由此产生的偏倚称为无应答偏倚。 安阳县食管癌普查,普查率仅20%左右,不能代表总体。 造成无应答的主要原因: 研究对象不了解研究目的;调查内容不当,过于繁琐,涉及隐私;对象不能正理解调查内容(文化低、高龄等);对象病重、外出。
失访偏倚:是一种无应答,主要发生在前瞻性队列研究和实验研究中。失访偏倚:是一种无应答,主要发生在前瞻性队列研究和实验研究中。 (1)随访过程中因种种原因拒绝继续留在观察组中。 (2)观察对象在出现预期的结果之前死于其他疾病或事故。 如果暴露组与对照组观察对象均有500人,随访过程中均失访100人,其结果是否可靠???
(七)志愿者偏倚 志愿者与非志愿者在关心健康、注意饮食卫生及营养食疗、戒烟戒酒、体育锻炼等方面有系统差别。如选择志愿者为对象,而非志愿者常落选,可能会产生偏倚。 例如:观察体育锻炼预防冠心病的效果 实验组为志愿者,非志愿者为对照组。
(八)时间效应偏倚 潜隐期的病人(特别是慢性病)被纳入健康对照组。 在遗传病中:未到外显年龄的观察对象被分入健康对照组。 可产生负偏倚。
二、选择性偏倚的控制: 主要应通过科学的研究设计和认真的实施,避免其发生。因为存在选择性偏倚的资料一般情况下很难给予纠正。 1.研究者对整个研究中可能出现的各种选择性偏倚应有充分的了解、掌握。 2.严格掌握研究对象纳入与排除的标准。 3.在研究中采取相应措施,尽量取得尽可能高的应答率。 如无应答者比例较高(>10%),应对无应答者进行抽样调查,以判断无应答对研究结果有无影响。
4.随机选择研究对象;多个医院选择研究对象;同时选择医院和社区的对象。4.随机选择研究对象;多个医院选择研究对象;同时选择医院和社区的对象。 5.选择新发病例作为对象。 6.采取严格科学的研究设计。
第三节 信息偏倚 指在研究的实施阶段从研究对象获取研究所需的信息时所产生的偏倚。 可来自研究对象、研究者、也可来自测量的仪器、设备、方法等。 其表现是使研究对象的某特征被错误分类。 又称为观察偏倚或错分偏倚。
一、信息偏倚的种类 (一)回忆偏倚:指研究对象在回忆以往发生的事情或经历时,由于在准确性和完整性上的差异所致的偏倚。 小儿白血病---母亲怀孕时接受x线的回忆 死于白血病的小儿的母亲增加了暴露于x线的回忆。 病例 医院 对照 社区 认真回忆暴露史 暴露经历易遗忘或不重视
类风湿关节炎的家族史 类风湿关节炎患者 比其同胞、对照更能提供阳性家族史
(二)报告偏倚:研究对象有意夸大或缩小某些信息而导致的偏倚。(二)报告偏倚:研究对象有意夸大或缩小某些信息而导致的偏倚。 如隐瞒与隐私有关的暴露史 保护调查对象声誉隐瞒不良暴露史 夸大职业暴露
(三)诊断怀疑偏倚:研究者事先已经知道研究对象的暴露史,怀疑他们已经患某种疾病,于是在对暴露者和未暴露者作诊断或分析时,采取了不可比的做法,从而导致偏倚。(三)诊断怀疑偏倚:研究者事先已经知道研究对象的暴露史,怀疑他们已经患某种疾病,于是在对暴露者和未暴露者作诊断或分析时,采取了不可比的做法,从而导致偏倚。 多见于临床试验、队列研究,特别是在诊断亚临床病例、判断药物的不良反应时最易产生。
研究口服降糖灵治疗2型糖尿病是否导致心血管病死亡率升高研究口服降糖灵治疗2型糖尿病是否导致心血管病死亡率升高 降糖灵组:死亡者均尸体解剖,寻找心血管病的死因。 其他组:(对照组、胰岛素组) 难得解剖
(四)暴露怀疑偏倚:研究者事先知道研究对象的患病情况,而采用不可比的方法在病例组和对照组中探索可疑的致病因素导致的偏倚。(四)暴露怀疑偏倚:研究者事先知道研究对象的患病情况,而采用不可比的方法在病例组和对照组中探索可疑的致病因素导致的偏倚。 (五)测量偏倚:指对研究所需指标或数据进行测量时产生的偏倚。
两种结果 • 无差异性错误分类 暴露或疾病的错误分类同研究分组无关,各比较组间不存在差异;在多数情况下模糊了研究组的差异,使OR偏低 • 差异性错误分类 暴露或疾病的错误分类同研究分组有关,各比较组间存在差异;造成高估或低估效应值
二、信息偏倚的控制 (一)制定明细的资料收集方法和严格的质量控制方法 (二)尽可能采用“盲法” (三)尽量收集客观指标的资料。 (四)收集资料的范围可以适当有意识地扩大些,借以分散调查人员和研究对象对某项因素的注意力,减少某些偏见带来的偏倚。 (五)通过调查知情人或采用相应的调查技术,获取正确信息,避免报告偏倚。 (六)选择一个与暴露史有联系的鲜明的记忆目标帮助其联想记忆或选择新病例作为对象。
第四节 混杂偏倚 一、概述 1.混杂偏倚:当研究暴露于某一因素与疾病的关系时,由于一个或多个既与疾病有制约关系,又与暴露密切相关的外来因素的影响,掩盖或夸大了所研究的暴露因素与疾病的联系,这些影响称为混杂偏倚。
2.混杂因素:指与研究因素和研究疾病均有关,若在比较的人群组中分布不均,可以歪曲因素与疾病之间真正联系的因素。2.混杂因素:指与研究因素和研究疾病均有关,若在比较的人群组中分布不均,可以歪曲因素与疾病之间真正联系的因素。 3.混杂因素的基本特点: (1)必须是所研究疾病有关。 (2)必须与研究因素有关。 (3)一定不是研究因素与研究疾病因果链上的中间变量。 具备基本条件,如果在比较的人群组中分布不均匀,即可导致偏倚。
二、混杂偏倚的测量: (一)测量方法 设含有某可疑混杂因素(f)时,研究因素与研究疾病的效应估计值为cRR或cOR 按该可疑混杂因素调整后的效应估计值为aRR(f)或aOR(f) 1.第一种测量方法 (1)若cRR=aRR(f) f无混杂作用 (2)若cRR≠aRR(f) f有混杂作用 1)若cRR>aRR(f) 为正混杂 2)若cRR<aRR(f) 为负混杂
2.第二种测量方法: 若值=0,为无混杂。 若值≠0,有混杂 若值为正值,为正偏倚 若值为负值,为负偏倚 值的大小表示混杂的程度。
混杂偏倚 假关联 • 继发关联 • 直接因果关联的歪曲 E E E ? ? ? C F F D D D (1)继发关联 (2)直接因果关联的歪曲 (3)直接因果关联的歪曲 图5 混杂偏倚引起假关联
1.继发关联(secondary association) • 纯粹由混杂偏倚产生的关联 • 怀疑的病因(暴露)E与疾病D并不存在因果关系,而由于两者(E,D)有共同的原因C,从而继发产生E与D的关联 • E与C也可以由于相关(因果方向不明)而产生继发关联
冠心病E 高血清胆固醇C ? 例: 黄色瘤D 喝咖啡E 吸烟C ? 胰腺癌D 继发关联
2.直接因果关联的歪曲 • 怀疑的病因(暴露)E与疾病D既存在直接关联,又存在间接关联(图5,(2)) • 或与其他危险(保护)因素F存在相关(图5,(3)) • 直接因果关联程度或方向将可能受到混杂干扰,歪曲估计值
混杂偏倚(7) 例: 静脉吸毒E ? 性乱F HIV感染D 直接因果关联的歪曲
三、混杂偏倚的控制 (一)在设计阶段 1.限制 2.匹配 3.随机化分组 (二)在分析阶段 1.分层分析 2.多因素数学模型分析 3.标准化率分析