科研设计的统计学原则

科研设计的统计学原则 高月求

实验设计 • 实验（Experiment）指由研究者主动地决定给予部分实验对象某种处理，给予另一部分对象某种对照处理的研究设计形式，这种处理的分配常常是随机的。 • 实验设计（Experimental design）是通过对象的选择、处理因素的合理分配、结果指标的准确测量和恰当的资料分析来提高组与组间非处理因素的一致性，使实验结果有较好的可比性，并且较好地控制误差，用较小的样本获取可靠的结论。

实验设计三要素 • 处理 → 对象 → 效应 • ↓ ↓ ↓ • 降压药高血压病人血压值

处理 • 处理（treatment）：研究者根据研究目的欲施加或欲观察的，能作用于受试对象并引起效应的因素。 • 非处理因素：相应的也能使受试对象产生效应的因素，又称混杂因素(confounding factor)。 • 处理因素要标准化，处理水平始终一致。

对象(subjects) • 指根据研究目的确定的观察对象（动物或人体），必须具备同质性和代表性 • 1）动物的选择：种类、品系、年龄、性别、体重、营养 • 2）人的选择：诊断明确、依从性好，反映主观感觉

效应(effect) 是处理因素作用于受试对象的反应和结果，通过观察指标表达。指标要求： • 1）客观性：主观指标和客观指标。 • 2）精确性： • 准确度(accuracy)：观察值与真值的接近程度，受系统误差的影响。 • 精密度(precision)：重复观察时观察值与其均值的接近程度，受随机误差的影响； • 3）灵敏性(sensitivity)：表示指标检出真阳性的能力，可减少假阴性率。 • 4）特异性(specificity):表示指标检出真阴性的能力，减少假阳性率。

实验误差及其特点 • 在实验中，由于实验对象自身特点、实验条件的变化和实验结果测量的不确定性造成实验结果与真值的差别称实验误差（Experimental error）。根据统计分析上的处理不同，实验误差分成两类： • 随机误差（Random error） • 非随机误差

随机误差（Random error） • 随机误差是由大量的、微小的、偶然因素引起的不易控制的误差。如在实验中，温度、湿度、风向、振动、试剂、仪器、操作员等都可能造成结果的偏差。 • 随机变异是没有倾向性的，在大量观察条件下，随机误差的分布呈标准正态分布。随机误差的规律可以用统计方法分析。

非随机误差 • 又称偏倚（bias）或系统误差（Systematic error） • 由于在对象选择、处理因素分配的不随机、测量结果的不准确造成实验结果有倾向性地偏离称之。（无统计规律、可预防、务必控制） • (1)选择偏倚(Selection bias)：指在选择研究对象和分组时的非随机化，造成结果的偏倚。如肝癌手术治疗与化疗的疗效比较中，由于手术对象的选择性造成有利于手术组的结果。 • (2)信息偏倚（Information bias）：指测量方面的误差，特别是主观因素造成的有倾向性的偏倚。如在临床试验中，实验组是在医院测量，对照组是在家中测量。 • (3)混杂偏倚（Confounding）：指实验组与对照组在一些影响实验结果的非处理因素不均衡造成结果的偏倚。如病情轻重、并发症、辅助治疗和护理等因素不均衡。

实验设计的原则 • 对照（Control） • 随机化（Randomization） • 重复（Replication） • 盲法（blind method）

对照（Control） 指设立对照组以排除非处理因素而显示出处理的效应。 • 处理组处理因素+非处理因素=处理和非处理的效应 • 对照组非处理因素= 非处理因素的效应 • 对比处理因素 =处理效应 • 对照组设置的三个条件： • 对等：除处理因素外，两组对等的非处理因素 • 同步：两组始终处于同一空间和同一时间 • 专设：对照组专门设立，一般不能以文献为对照（有时可与“常模”比较）

随机化（Randomization） • 随机原则是指“机会均等”，最简单的方法是抽签 • 随机≠随便，任何随便都不是随机的 • 随机化类型 • 随机抽样：每个个体有同等的机会被抽中 • 分组随机：每个实验对象分配到不同处理组的机会相同 • 随机顺序：每个实验对象接受处理先后的机会相同

重复（Replication） • 重复是指在相同实验条件下进行多次研究或多次观察，以提高实验的可靠性与科学性。 • 广义地讲，重复包括：整个实验的重复、用多个实验单位进行重复、同一实验单位的重复观察。 • 决定重复性的关键是样本含量，故常将重复性简化为“样本含量”

盲法（blind method） • 按实验方案规定，尽量不让参与临床实验的受试者、研究者、医务人员、监视员、数据管理和统计分析人员知道患者接受何种治疗。 • 单盲法（single blind）指受试者不知道自己属于试验组还是对照组 • 双盲法（double blind）指受试者和试验医务人员都不知道病人属于试验组还是对照组 • 非盲法(open label): 采用单盲或非盲法试验应在研究方案中申述理由。 • 盲法的原则应自始至终地贯彻于整个试验之中

针对研究类型选择适当的研究设计

随机对照临床试验(RCT) • 适用RCT解决的临床问题 • 对某一疾病，研究药物在效果上是否优于安慰剂或另一种药物(对照药)？ • 新的手术方法是否优于传统方法？ • 改变生活习惯是否会影响病人血压水平？

RCT的优点 • 在选定的病人组群中，可严格评价单一变量的效果 • 前瞻性设计 • 应用假设—推导进行推理 • 消除偏倚：比较基线指标相同的两个组 • 可作荟萃分析和系统性评价 RCT被认为是临床科研的“金标准”

RCT的缺点 • 耗费又耗时：无法完成、样本量不足、研究时间太短 • 多数由研究机构或药厂(公司)资助，难免不会影响公正 • 常使用“替代终点” • 可出现“潜在的偏倚” 随机化不完善未对所有合格病人进行随机化分配未避免资料评价人员知道病人随机情况 • 其他排除标准的偏倚入选标准的偏倚

不适合进行RCT： • 预后研究适于纵向队列研究 • 筛查研究适于横断面研究 • “保健质量”研究：尚未确定“成功”标准，适于定性研究方法

队列研究 选择≥2组，暴露于某种特定物质(药物、疫苗、环境致病物等)不同的人群，随访，观察每组发生特定疾病结局或人数。研究对象为可能发病或不发病者。关注的是病因，而非疾病治疗

适合采用队列研究的临床问题 • 吸烟导致肺癌吗？ • 高血压随着时间推移会变好吗？ • 避孕药导致“乳腺癌”吗？ • 早产儿在以后的生长发育和学习成绩上情况如何？

病例--对照研究 确定有某种特定疾病的病人并与对照组进行匹配，收集其暴露于某种可疑致病因子的资料。关注的是病因而非疾病治疗。对于罕见病的研究可能是唯一选择。

横断面调查 对某一研究对象中的代表性样本(或病人)进行访问、检查或研究以获得对某一特定临床问题的答案。资料在单一时间点收集，但可回顾性追溯过去有关健康方面的经历。

病例报告 以故事方式描述单一患者病史。可综合形成病例系列，以描述一个以上患有某一特殊情况患者的病史，阐述此种情况的某个方面、治疗情况或对治疗之不良反应。

病例报告之优点 • 可以传递大量在临床试验中或调查中可能丢失的信息 • 易被普通医师或大众理解 • 易于完成(数天内)

统计工作的步骤 • 第一步设计(design)： • 第二步收集资料(collection of data)： • 第三步整理资料(sorting data)： • 第四步分析资料(analysis of data)：

设计（design） • 首先明确研究目的, 根据研究目的，从统计角度对资料的搜集、整理和分析全过程提出全面具体的计划和要求，作为统计工作实施的依据，以便用尽可能少的人力、物力和时间获得准确可靠的结论。 • 1、明确对象 • 2、明确取得原始资料的方法 • 3、如何整理资料 • 4、计算哪些指标 • 5、用何种统计推断方法 • 6、预测结果

搜集资料 • 搜集及时、准确、完整地搜集原始资料是统计工作最重要的一步，它直接关系着统计结论的质量。 • 统计资料的来源主要有： • 1、报表资料。 • 2、医疗、预防机构的日常工作记录。 • 3、专题研究实验数据和现场调查资料。

整理资料（sorting of data） • 整理资料又称统计归纳：是把搜集到的资料进行适当的分组，把性质相同的资料归纳到一起，用表格或图形的方式展示出来，以反映研究对象的规律性。 • 1、审核资料 • 2、设计分组：质量分组和数量分组 • 3、拟整理表 • 4、归纳汇总

分析资料 • 分析资料资料的分析过程是通过计算有关的统计指标，对资料进行概括的、全面的描述，以及从样本信息推断总体特征，分析资料就是从获取的资料中抽取有关信息的过程。 • 1、统计指标的计算 • 2、统计图表的绘制 • 3、估计总体参数 • 4、进行假设检验 • 5、回归与相关 • 6、多元分析

统计资料的类型 • 计量资料 • 计数资料 • 等级资料

计量资料（measurement data) 通过对观察单位测量取得数值，其值一般有度量衡单位。如身高、体重、血压、脉搏、白细胞空气中二氧化碳含量等。此类资料具有计量单位，各观察单位常有量的差别。分析计量资料常用平均数、标准差、t检验、方差分析、相关与回归分析等。

计数资料(enumeration data) 将观察单位按某种属性或类别分组，然后清点各组的观察单位数。如性别、血型、民族、职称、某病的治愈和未愈数等。分属于各组的观察单位间有质的差别，不同质的观察单位不能归在同一组内。分析计数资料常用率、构成比、x2检验等。

等级资料（ranked data) 将观察单位按某种属性的不同程度分组，然后清点各组的观察单位数。如疗效可分为治愈、显效、好转、无效；尿蛋白化验结果分为-、 + 、++ 、+++等。这类资料具有计数资料的性质，但所分各组又是按一定顺序如由轻到重、由小到大排列的。分析等级资料常用率、构成比、秩和检验等。

医学统计中的几个基本概念 • 数据与变量 • 总体和样本 • 随机化 • 统计量与参数 • 抽样误差 • 概率

变量（variable） 具有变异性的数据称为变量。 1．数值变量（numerical variable）：为连续变量，如身高、体重、血压等。数值变量均可通过对观察单位测量取得数值，其值一般有度量衡单位。数值变量资料也称作计量资料。 2．分类变量（categorical variable）：可能取值是离散的，表现为互不相容的类别。比如性别、血型、民族、职称等。分类变量资料又称为计数资料。分类变量有两种：无序分类变量和有序分类变量

总体与样本 总体（population）：是根据研究目的确定的同质的观察单位的某个变量值的全体。分有限总体和无限总体。样本（sample）：通常是从总体中随机抽取有代表性的一部分观察单位。注意其代表性和可靠性。

抽样误差（sampling error） 用于描述样本特征的指标称为统计量，而用于描述总体特征的指标称为参数。我们把由随机抽样引起的样本指标与总体指标的差异称为抽样误差。由于个体变异的普遍存在，抽样误差是不可避免的。只要遵循随机化的原则，抽样误差的大小就可以用统计方法进行估计。一般情况下样本越大，抽样误差越小，反映事物客观规律的准确性越高，反之，样本越小，抽样误差越大。

概率（probability） 描述随机事件发生的可能性大小的数值称概率。随机事件的概率P取值在0 ~1之间，P越接近1，说明某事件发生的可能性越大；P越接近0，说明某事件发生的可能性越小。如果某事件的概率P=0，表示该事件不可能发生，称其为不可能事件；如果P=1，表示该事件必然发生，称其为必然事件。随机事件是可能发生也可能不发生的事件。如果某随机事件发生的概率P〈0.05，或P〈0.01表示该事件发生的可能性很小，我们称其为小概率事件。其意义为在一次试验中不发生事件。

数值变量资料的统计描述 统计图表统计指标

平均数 • 均数 • 几何均数 • 中位数和百分数

均数（mean） 均数是算术平均数(arithmetic mean)的简称。总体均数用希腊字母( )表示，样本均数用( )表示。 1、应用条件：均数反映同质的一组观察值在数量上的平均水平，样本所代表总体为正态分布。

2、计算方法： (1)直接法当样本中观察值个数不多时，通常可用直接法，公式为：式中Σ是希腊字母，读作sigma ，为求和的符号。

(2)加权法 当观察值个数较多时。通常可用加权法，公式为：式中X为各组的组中值，组中值等于该组的上限加下限之和除以2。 f为各组的频数，它相当于‘权数’权衡了各组中值由于频数不同对均数的影响，故本法也称为加权法。

几何均数（geometric mean) 1、应用条件：观察的数据是呈倍数关系的资料，采用几何均数简记为（ G）表示其平均水平。 2、计算方法：如果观察的数据个数不多可以采用直接算法。公式为：如果样本量很大，或只掌握频数表资料可以按下式计算分组资料的几何均数。公式为：

百分位数(percentile) 百分位数是一种位置指标，用于描述一组观察值在某百分位置上的水平。第百分位数以 PX表示。 PX是一个数，其意义是将某变量的观察值按从小到大的顺序排列，比PX小的观察值的个数占x%，比 PX大的观察值的个数占（100-x）%。百分位数用于描述观察值序列在某百分位位置的水平，公式为：

中位数（median） 中位数简记为M，中位数是一个位置指标，用于描述一组资料的平均水平，其含义是将一组观察值按从小到大的顺序排列，位置居中的数就是中位数,中位数即第50百分位数。公式为：应用条件为： ①分布呈明显偏态； ②分布的一端或两端无确定数值； ③分布不清等资料。

变异指标 • 极差(R) • 四分位间距(Q) • 标准差(S) • 变异系数(CV) • 标准误(SE)

极差（range）和四分位间距（quartile） • 极差简记为（R）又称全距。是一组观察值中最大值与最小值之差。四分位数，简记为（Q）是特定的百分位数，是上四分位数与下四分位数之差。可以看成是全部观察值的位于中间的一半的极差。 Q=P75-P25

科研设计的统计学原则

科研设计的统计学原则

Presentation Transcript