1.33k likes | 1.43k Views
统计描述的正确应用. 张菊英 教授 四川大学华西公共卫生学院. 一、定量资料的统计描述. 定量变量 关注测定值的大小. 定量资料的统计描述. 主要内容: 定量资料的频数表 集中位置的统计描述 离散程度的统计描述. 1. 定量资料的频数表和频数分布图. 揭示频数分布的特征:集中趋势、离散程度 揭示频数分布的类型:对称分布、偏态分布 便于进一步计算指标和统计处理 便于发现某些特大或特小的可疑值. 1.1 离散型定量变量的频数表. 表 1.1 2005 年某市 102 名高中男生引体向 上 完成次数的频数分布. 按变量的取值为分组单位.
E N D
统计描述的正确应用 张菊英 教授 四川大学华西公共卫生学院
一、定量资料的统计描述 • 定量变量 • 关注测定值的大小
定量资料的统计描述 主要内容: • 定量资料的频数表 • 集中位置的统计描述 • 离散程度的统计描述
1.定量资料的频数表和频数分布图 • 揭示频数分布的特征:集中趋势、离散程度 • 揭示频数分布的类型:对称分布、偏态分布 • 便于进一步计算指标和统计处理 • 便于发现某些特大或特小的可疑值
1.1离散型定量变量的频数表 • 表1.1 2005年某市102名高中男生引体向 上 完成次数的频数分布 按变量的取值为分组单位
1.2 连续型定量变量的频数表 表1.2 2005年某市120名9岁男孩肺活量(L)频数分布 根据数据划分的组段
1.3 频数分布图 • 用图形的方法能够直观形象地表达频数分布的信息,并可与频数表互为补充 • 连续型定量变量的频数表可绘制成直方图
2.集中位置的统计描述 • 集中趋势(central tendency) • 一组数据向某一个位置聚集或集中的倾向 • 集中位置用平均数描述
2.1均数与中位数 • 均数(mean) 适用条件:对称分布,特别是正态或近似正态分布的定量资料。 • 中位数(median,M) 适用条件:偏态分布资料以及频数分布的一端或两端无确切数据资料 。
某市1974年留驻该市一年以上,无明显肝、肾疾病,无汞作业接触史的居民238人的发汞值(μmol/kg)检测结果如表1.3的第1和3列所示。
表1.3 某市1974年238人得发汞检测结果 应采用何种指标对该数据的集中趋势进行描述?
均数与中位数 • 表1.4 不同级别医院费用比较( ,元) 所使用的指标正确吗?
例 某实验室观察局部温热治疗小鼠移植性肿瘤的疗效,以生存日数(天)作为观察指标,共观察10只老鼠的生存日数(天)为:10,12,15,15,16,17,18,20,23,>90。试描述10只老鼠生存日数的平均水平。
2.2 几何均数(geometric mean) • 适用条件:某些呈正偏态分布,但数据经过对数变换后呈正态分布的资料,也可用于观察值之间呈倍数或近似倍数变化(等比关系)的资料。
表1.5 75名儿童的平均抗体滴度计算表 观察值呈倍数关系
3. 离散程度的统计描述 • 离散度指标反映一组同质观察值的变异度; • 常用的指标有全距、四分位数间距、方差、标准差和变异系数; • 其值越大,表示资料的变异程度越大。
3.1 极差(range,简记为R) • 涵义:也称全距,即全部数据中最大值与最小值之差,用符号表示。极差大,说明变异程度大。 • 适用条件:常由于描述单峰对称分布小样本资料的变异程度或由于初步了解资料的变异程度。 缺点:只考虑最大值与最小值之差异,不能反映组内其它观察值的变异度;
例 试观察三组数据的离散状况 A组:26,28,30,32,34; B组:24,27,30,33,36; C组:26,29,30,31,34。
将三组数据分别点在直线上,如图: 计算三组数据的极差: A组 R=34-26=8 B组 R=36-24=12 C组 R=34-26=8 A、C两组极差相同,但由图3.1可以看出两组观察值的离散程度是不同的。 图1.2 三组数据离散状况比较
3.2 百分位数(percentile) • 涵义:是指将观察值从小到大排列后处于第x百分位置上的数值,用符号表示为 • 百分位数是一个位置指标,其中P50为中位数
3.3 四分位数间距 • 四分位数(quartile,简记为Q) 通过P25,P50,P75这3个点将全部观察值等分为四部分,处于P25和P75分位点上的数值就是四分位数 • P25下四分位数,用 表示 • P75上四分位数,用 表示 • 四分位数间距(inter-quartile range)为上、下四分位数之间的差值,即
四分位数间距的适用条件 • 常用于描述偏态分布资料、两端无确切值或分布不明确资料的离散程度。
表1.6 大鼠头部受伤后1d迷宫实验的结果 某研究者在“清醒状态下大鼠脑震荡动物模型的建 立”一文中,给出了如下的资料,请问:这样表达妥 当么? 对策1 作变量变换,看资料经过变换后是否满足正态性要求 对策2 若未找到合适的变换方法,用中位数或四分位数间距
表1.7 50例链球菌咽峡炎患者潜伏期(小时)的频率分布表 例 50例链球菌咽峡炎患者的潜伏期(小时)如下表第(1)~(3)列, 描述其离散程度应选用何种指标?
优缺点 • 四分位数间距较全距稳定,但仍未考虑全部观察值的变异度。
3.4方差和标准差 • 为了全面考虑每个观察值的变异情况,克服全距和四分位数间距的缺点,引入了方差 。 • 方差的单位是观察值单位的平方,在实际工作中使用不方便,为还原单位,将方差开平方即得到标准差(standard deviation)。总体标准差用 表示,样本标准差用S表示。
方差和标准差的适用条件 • 正态或近似正态分布资料
变异系数(coefficient of variation) • 简记为CV • 适用: • 比较计量单位不同的几组资料的离散程度 • 比较均数相差悬殊的几组资料的离散程度
例 1985年通过十省调查得知,农村刚满周岁的女童体重均数为8.42kg,标准差为0.98kg;身高均数为72.4cm,标准差为3.0cm。 某研究者就此判断十省农村周岁女童身高的变异大于体重的变异,他的判断正确吗? 体重 身高
描述定量变量指标的正确选择 • 正态或近似正态分布的资料 均数和标准差 • 偏态分布的资料 中位数和四分位数间距 • 等比级数或对数正态分布的资料 几何均数
二、定性资料的统计描述 • 常用相对数及其应用 • 应用相对数的注意事项 • 率的标准化
相对数 • 概念:两个有关的数据或指标之比。 例:甲小学有534人,乙小学为313人, 经检查发现, 甲学校学生中患龋齿者57人, 乙学校33人, 问那所学校发现患龋齿的强度高?
常用的相对数 • 率 • 构成比 • 相对比
表2.1 某市某年各区急性传染病发生数及其相对数 相对比 构成比 率
1.率 • 概念: 说明某现象出现的频率或强度。 • 类型:频率(frequency) 、速率(rate)
频率(frequency) • 式中k为比例基数,常取100、1000‰和100000/10万等。 • 特点:分母不引入时间因素、无时间量纲、取值在0~1之间 • 常见频率指标:发病率、患病率、病死率、治愈率等
例 为研究吸烟与肺癌的关系,某医生收集了 2003-2005年286例住院肺癌患者的吸烟史,吸烟者中肺癌患的有166例,而同时期同年龄段的1855名肺癌患者中,吸烟的有407例。试计算该资料中肺癌患者与非肺癌患者的吸烟率。 • 肺癌患者吸烟率=166/286×100%=58.04% • 非肺癌患者吸烟率=407/1855×100%=21.94%
某课题组为研究白细胞减少症与工作环境的关系,用随机抽样的方法于2004年对某市企业中的四个工种共1114名工人进行了调查。依据白细胞减少症的诊断标准判断调查对象是否患者。 表2.2 不同工种的白细胞减少症患病率
速率(rate) • 式中k为比例基数,常取100、1000‰和100000/10万等。 • 特点:包含时间因素、有量纲、取值在[0,+∞) • 常见速率指标:年发病率、某病患者5年生存率
例 在一项随访研究中,对125人追踪随访了2年,结果有2人发生了死亡,试求其年死亡率。 年死亡率=2/(125×2)×100%=0.8% 观察人时数
率是两个数值的比,作为分子和分母的两个数值的内涵决定了所计算出来率的含义,如死亡率、发病率、病死率等。率是两个数值的比,作为分子和分母的两个数值的内涵决定了所计算出来率的含义,如死亡率、发病率、病死率等。
在一篇报道多器官衰竭者监护效果的文章中有如下描述:“累及2个器官的20例,死亡8例,死亡率为40%;累及3个器官的10例,死亡9例,死亡率90%”。在一篇报道多器官衰竭者监护效果的文章中有如下描述:“累及2个器官的20例,死亡8例,死亡率为40%;累及3个器官的10例,死亡9例,死亡率90%”。 • 这里把病死率错当成死亡率进行报道。
2.构成比 • 概念:说明某一事物内部各组成部分所占比重或分布, 常用百分数表示。 • 特点: • 总体内各组构成比的总和应为1或者100%; • 事物内部各组成部分构成比之间呈此消彼长。
表2.3 某医院2003年各科室收治住院患者的构成情况
3.相对比(ratio) • 概念:简称比,是两个有关联的指标的比值,用以说明一个指标是另一指标的几倍或几分之几。 • 分类: • 关系指标:有关的非同类事物指标之比,如医护人员数与病床数之比 • 对比指标:同类事物两个指标之比,如出生性别比
例为了解新生儿的锌的营养状况,分别测量某医院足月儿以及早产儿的脐血血清锌含量,结果显示足月儿及早产儿的脐血血清锌含量的均数分别为1.85 mg/L和1.41 mg/L,则该医院足月儿与早产儿的脐血血清锌含量之比1.85/1.41=1.31,即该医院足月儿脐血血清锌含量是早产儿的1.31倍。
4. 应用相对数时应注意的问题 • 分母观察单位数不能太少 • 不能以构成比代率 • 应当特别注意不能用构成比的动态分析代替率的动态分析 • 对观察单位不等的几个率不能相加求平均率 • 相对数进行比较应注意可比性 • 比较样本率或构成比需作假设检验
4.1 分母观察单位数不能太少 • 某医师应用一种新的手术方法治疗了3例某病病人全部痊愈,此医师由此报道新的手术方法痊愈率为100%,以前的手术方法痊愈率为70%,故得出新的手术方法优于以前的手术方法。 试问该说法是否正确?