330 likes | 524 Views
第二章 平均数与标准差. 2.1 数值变量资料的频数表. 1. 频数表的编制 例 1 某市 1995 年 110 名 7 岁男童的身高 (cm) 资料如下,试编制频数表. 114.4. 119.2. 124.7. 125.0. 115.0. 112.8. 120.2. 110.2. 120.9. 120.1. 125.2. 120.3. 122.3. 118.2. 116.7. 121.7. 116.8. 121.6. 115.2. 122.0. 121.7. 118.8. 121.8. 124.5. 121.7. 122.7.
E N D
2.1数值变量资料的频数表 1.频数表的编制 例1 某市1995年110名7岁男童的身高(cm)资料如下,试编制频数表
114.4 119.2 124.7 125.0 115.0 112.8 120.2 110.2 120.9 120.1 125.2 120.3 122.3 118.2 116.7 121.7 116.8 121.6 115.2 122.0 121.7 118.8 121.8 124.5 121.7 122.7 116.3 124.0 119.0 124.5 121.8 124.9 130.0 123.5 128.1 119.7 126.1 131.3 123.8 114.7 122.2 122.8 128.6 122.0 132.5 122.0 123.5 116.3 126.1 119.2 126.4 118.4 121.0 119.1 116.9 131.1 120.4 115.2 118.0 122.4 114.3 116.9 126.4 114.2 127.2 118.3 127.8 123.0 117.4 123.2 119.9 122.1 120.4 124.8 122.1 114.4 120.5 115.0 122.8 116.8 125.8 120.1 124.8 122.7 119.4 128.2 124.1 127.2 120.0 122.7 118.3 127.1 122.5 116.3 125.1 124.4 112.3 121.3 127.0 113.5 118.8 127.6 125.2 121.5 122.5 129.1 122.6 134.5 118.3 132.8
编制方法如下: ①找出极大值和极小值,并计算极差R 此例R=134.5-110.2=24.3 ②依R分组,确定组数组距组段,常取10-15组,用1/10R取整作组距,这里取2 ③列标划记
身高组段 频数 110~ 1 112~ 3 114~ 9 116~ 9 118~ 15 120~ 18 122~ 21 124~ 14 126~ 10 128~ 4 130~ 3 132~ 2 134~136 1 合计 110 表 110名7岁男童的身高
2. 频数表的用途 ①可揭示资料的分布特征和分布类型分布类型: 对称:均数在正中,左右频数对称 偏态: 正偏态,如以儿童为主的传染病的患者年龄 负偏态, 如一些慢性病的患者年龄 ②进一步计算其它统计指标和统计分析处理。
③便于发现某些可疑值弃却最大一个数Xn,若 r=(Xn-Xn-1)/(Xn-X1)>1/3 弃却最小一个数X1,若 r=(X2-X1)/(Xn-X1)>1/3
2.2集中趋势的描述:平均数(average) 平均数用来说明某种现象或事物数量的中等水平。求平均数必须注意: ①同质的事物或现象才能求平均数 ②用组平均数补充总平均数。 ③由资料的分布选用适当的平均数。
一.算术均数(arithmetic mean) 1.计算方法一:直接法样本观察值X1,X2,…,Xn 例2 10名7岁男童体重(kg)分别为:17.3,18.0,19.4,20.6,21.2,21.8,22.5,23.2,24.0,25.5,求平均体重。
2.计算方法二:加权法 例3 求例1中的平均身高. 用各组段的组中值代替该组段中的任一观察值,该组段的频数是f,即有f个组中值,则
7岁男童的平均身高为121.95cm。 3.加权法与直接法相比较:计算稍微简单,结果相差不大,如上例用直接法求出的=121.72 4.均数的特性: 各离均差Xi-之和=0 即Σ(X-)=0 离均差的平方和小于各观察值X与任何a(a≠x)之差的平方和 即Σ(X-)2<Σ(X-a) 2
5.适用甚广,最适用于对称分布资料,尤其是正态分布资料,对于偏态资料则不理想。5.适用甚广,最适用于对称分布资料,尤其是正态分布资料,对于偏态资料则不理想。
二.几何平均数 (geometric mean) 1.适用范围:某些医学资料,如抗体的滴度、某些传染病的潜伏期、率或比的变化速度及某些物质浓度等,频数分布明显偏态,尤其适用于一些对数正态分布资料,要求观察值中不能有0,且不可正负值均有。 2.计算方法: 直接法
例 5人的血清滴度为1:2,1:4,1:8,1:16,1:32,求平均滴度。 先求平均滴度的倒数, 平均滴度为1:8
加权法(资料中相同观察值的个数f较多时,如频数表资料)加权法(资料中相同观察值的个数f较多时,如频数表资料) 例440名麻疹易感儿接种麻疹疫苗后一个月,血凝抑制抗体滴度如下,求平均滴度。
抗体滴度 抗体滴度 抗体滴度 抗体滴度 人数f 人数f 人数f 人数f 滴度倒数x 滴度倒数x 滴度倒数x 滴度倒数x lgx lgx lgx lgx flgx flgx flgx flgx 1:4 1:4 1:4 1:4 1 1 1 1 4 4 4 4 0.6021 0.6021 0.6021 0.6021 0.6021 0.6021 0.6021 0.6021 1:8 1:8 1:8 1:8 4 4 4 4 8 8 8 8 0.9031 0.9031 0.9031 0.9031 3.6124 3.6124 3.6124 3.6124 1:16 1:16 1:16 1:16 5 5 5 5 16 16 16 16 1.2041 1.2041 1.2041 1.2041 6.0205 6.0205 6.0205 6.0205 1:32 1:32 1:32 1:32 8 8 8 8 32 32 32 32 1.5051 1.5051 1.5051 1.5051 12.0408 12.0408 12.0408 12.0408 1:64 1:64 1:64 1:64 11 11 11 11 64 64 64 64 1.8062 1.8062 1.8062 1.8062 19.8671 19.8671 19.8671 19.8671 1:128 1:128 1:128 1:128 6 6 6 6 128 128 128 128 2.1072 2.1072 2.1072 2.1072 12.6432 12.6432 12.6432 12.6432 1:256 1:256 1:256 1:256 4 4 4 4 256 256 256 256 2.4082 2.4082 2.4082 2.4082 9.6328 9.6328 9.6328 9.6328 1:512 1:512 1:512 1:512 1 1 1 1 512 512 512 512 2.7093 2.7093 2.7093 2.7093 2.7093 2.7093 2.7093 2.7093 40 40 40 40 67.1282 67.1282 67.1282 67.1282
抗体滴度 人数f 滴度倒数x lgx flgx 1:4 1 4 0.6021 0.6021 1:8 4 8 0.9031 3.6124 1:16 5 16 1.2041 6.0205 1:32 8 32 1.5051 12.0408 1:64 11 64 1.8062 19.8671 1:128 6 128 2.1072 12.6432 1:256 4 256 2.4082 9.6328 1:512 1 512 2.7093 2.7093 40 67.1282 G=lg-11.6782=48 平均滴度为1:48
抗体滴度 抗体滴度 抗体滴度 抗体滴度 人数f 人数f 人数f 人数f 滴度倒数x 滴度倒数x 滴度倒数x 滴度倒数x lgx lgx lgx lgx flgx flgx flgx flgx 1:4 1:4 1:4 1:4 1 1 1 1 4 4 4 4 0.6021 0.6021 0.6021 0.6021 0.6021 0.6021 0.6021 0.6021 1:8 1:8 1:8 1:8 4 4 4 4 8 8 8 8 0.9031 0.9031 0.9031 0.9031 3.6124 3.6124 3.6124 3.6124 1:16 1:16 1:16 1:16 5 5 5 5 16 16 16 16 1.2041 1.2041 1.2041 1.2041 6.0205 6.0205 6.0205 6.0205 1:32 1:32 1:32 1:32 8 8 8 8 32 32 32 32 1.5051 1.5051 1.5051 1.5051 12.0408 12.0408 12.0408 12.0408 1:64 1:64 1:64 1:64 11 11 11 11 64 64 64 64 1.8062 1.8062 1.8062 1.8062 19.8671 19.8671 19.8671 19.8671 1:128 1:128 1:128 1:128 6 6 6 6 128 128 128 128 2.1072 2.1072 2.1072 2.1072 12.6432 12.6432 12.6432 12.6432 1:256 1:256 1:256 1:256 4 4 4 4 256 256 256 256 2.4082 2.4082 2.4082 2.4082 9.6328 9.6328 9.6328 9.6328 1:512 1:512 1:512 1:512 1 1 1 1 512 512 512 512 2.7093 2.7093 2.7093 2.7093 2.7093 2.7093 2.7093 2.7093 40 40 40 40 67.1282 67.1282 67.1282 67.1282 三.中位数(median)和百分位数(percentile) 1.将一组观察值从小到大排列,位次居中的观察值就是中位数,记M。 百分位数(记Px)将总体或样本的所有观察值分成两部分,理论上有x%的观察值比它小,有(100-x)%的值比它大,中位数M就是P50,是特殊的百分位数,都是位置指标。
2.适用范围:中位数常用于描述偏态分布资料的集中位置,反映位次居中的观察值水平。当资料呈显著偏态或有个别特大特小值时,中位数的代表性优于平均数。如8,9,9,10,19 M=9 中位数只受居中变量值的影响。
百分位数常用于医学参考值范围,即正常值范围,作为划分正异常的界限,如确定白细胞总数的95%参考值范围,过高过低均属异常,(P2.5,P97.5)→双侧参考值范围。百分位数常用于医学参考值范围,即正常值范围,作为划分正异常的界限,如确定白细胞总数的95%参考值范围,过高过低均属异常,(P2.5,P97.5)→双侧参考值范围。 确定肺活量的95%参考值范围,过低异常,>P5 确定尿铅的95%参考值范围,过高异常, <P95 百分位数法确定医学参考值范围适用于任何分布型的资料,尤其是非特定分布。分布中部的百分位数较稳定,有好的代表性,样本例数少时不宜取近两端的百分位数。
3.计算 ①直接由原始数据计算中位数将观察值依顺序排列 X(1)、X(2)、…、X(n) n奇 M=X((n+1)/2) n偶 M= (X(n/2)+X(n/2+1))/2
②用频数表计算中位数和百分位数 l按所分组段,由小到大计算累计频数和累计频率,找出Px所在的组段 l求百分位数 其中fx为Px所在组段的频数 i为该组段的组距,L为其下限 ΣfL为小于L各组段的累计频数
身高组段 频数f 累计频数 累计频率 110~ 1 1 0.91 112~ 3 4 3.64 114~ 9 13 11.82 116~ 9 22 20.00 118~ 15 37 33.64 120~ 18 55 50.00 122~ 21 76 69.09 124~ 14 90 81.82 126~ 10 100 90.91 128~ 4 104 94.55 130~ 3 107 97.27 132~ 2 109 99.09 134~136 1 110 100.00 例4 求例1中身高的P2.5、P97.5、M
首先找到P2.5所在的组段:112~ 所以P2.5=112+2/3(110*2.5%-1)=113.17 同理P97.5=132+2/2(110*97.5%-107)=132.25 M=122
2.3离散程度的描述 前面一节讲述了一组观察值的集中趋势,但平均数并不能使我们全面地认识事物,试看下例: 例三组同性别、同年龄儿童的体重如下: 甲 26 28 30 32 34 乙 24 27 30 33 36 丙 26 29 30 31 34
一.全距(range)极差R=max-min 例1中,R2=12最大,即乙组数据较离散 优点:简单 缺点: ①只用到最大、最小值,样本信息没能充分利用。 ②当资料呈明显偏态时,最大、最小值不稳 ③样本例数越多,R可能越大,2组观察值例数悬殊时不用R比较。
二.四分位间距(inter-quartile range)Q 极差不稳定,主要是受两端的极值影响,所以有人建议将两端数据截去一定比例,如各去掉25% Q=p75-p25=Qu-QL 四分位间距比R稳定,但仍未考虑每个观察值。
三 . 方差(variance)V, S2, σ2 总体方差 σ2= 在样本中,μ未知,常用替代, S2=
四. 标准差(standard deviation) 总体标准差σ= μ未知,样本标准差
五. 变异系数(coefficient of variation)C.V. 适用于各组观察值单位不同或单位虽同而平均数相差很大的情况。 例如 1同年龄同性别学生的身高和体重两组观察值。 2同年龄同性别学生的身高和胸围两组观察值。 3不同年龄儿童的身高的几组观察值。
年龄组 人数 均数 标准差 变异系数 1~2月 100 56.3 2.1 3.7 5~6月 120 66.5 2.2 3.3 3~3.5岁 300 96.1 3.1 3.2 5~5.5岁 400 107.8 3.3 3.1 例 某地不同年龄女童的身高资料如下,比较不同年龄身高的变异程度。 表 某地不同年龄女童身高(cm)的变异程度