第 2 章统计数据的描述

第 2章统计数据的描述 • 2.1数据的计量尺度 • 2.2 统计数据的来源 • 2.3 统计数据的质量 • 2.4 统计数据的整理 • 2.5 分布集中趋势的测度 • 2.6 分布离散程度的测度 • 2.7 分布偏态与峰度的测度

2.1 数据的计量尺度 一、列名尺度二、顺序尺度三、间隔尺度四、比率尺度

列名尺度 • 也称名义尺度或分类尺度 • 计量层次最低 • 对事物进行平行的分类 • 各类别可以指定数字代码表示 • 使用时必须符合类别穷尽和互斥的要求 • 数据表现为“类别” • 具有=或的数学特性

顺序尺度 • 也称定序尺度 • 对事物分类的同时给出各类别的顺序 • 比定类尺度精确 • 未测量出类别之间的准确差值 • 数据表现为“类别”，但有序 • 具有>或<的数学特性

间隔尺度 • 也称间隔尺度 • 对事物的准确测度 • 比定序尺度精确 • 数据表现为“数值” • 没有绝对零点 • 具有 + 或 - 的数学特性

比率尺度 • 也称比率尺度 • 对事物的准确测度 • 与定距尺度处于同一层次 • 数据表现为“数值” • 有绝对零点 • 具有  或的数学特性

四种计量尺度的比较 计量尺度数学特性 “√”表示该尺度所具有的特性

2.2 统计数据的来源 一、间接获取的数据二、直接获取的数据

Internet http//WWW. 世界发展报告中国人口统计年鉴中国市场统计年鉴世界经济年检工业普查数据中国统计年鉴2001 中国统计出版社间接取得的数据 • 统计部门和政府部门公布的有关资料，如各类统计年鉴 • 各类经济信息中心、信息咨询机构、专业调查机构等提供的数据 • 各类专业期刊、报纸、书籍所提供的资料 • 各种会议，如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料 • 从互联网或图书馆查阅到的相关资料

提供统计数据的部分政府网站

直接取得的数据 • 普查 • 抽样调查 • 重点调查 • 典型调查

普查 1.为特定目的专门组织的非经常性全面调查 2. 通常是一次性或周期性的 3. 一般需要规定统一的标准调查时间 4. 数据的规范化程度较高 5. 应用范围比较狭窄

抽样调查 1. 从总体中随机抽取一部分单位作为样本进行调查，并根据样本调查结果来推断总体特征的数据收集方法 2. 具有经济性、时效性强、适应面广、准确性高等特点

重点调查 • 重点调查：是指在调查对象中，只选择一部分重点单位进行的非全面调查。 • 重点单位：着眼于现象量的方面而言，尽管这些单位在全部单位中只是一部分，但它们在所研究现象的标志总量中却占有绝大的比重，在总体中具有举足轻重的作用。

典型调查 典型调查是一种专门组织的非全面调查。根据调查的目的，在对所研究的对象进行初步分析的基础上，有意识地选取若干具有代表性的单位进行调查和研究，借以认识事物发展变化的规律。有人也认为它是“目的抽样”，以若干具有代表性的单位为样本。

2.3 统计数据的质量

数据的误差

抽样误差 • 由于抽样的随机性所带来的误差 • 所有样本可能的结果与总体真值之间的平均性差异 • 影响抽样误差大小的因素 • 样本量的大小 • 总体的变异性

非抽样误差 • 相对于抽样误差而言 • 除抽样误差之外的，由于其他原因造成的样本观察结果与总体真值之间的差异 • 存在于所有的调查之中 • 概率抽样，非概率抽样，全面性调查 • 有抽样框误差、回答误差、无回答误差、调查员误差、测量误差

误差的控制 • 抽样误差可计算和控制 • 非抽样误差的控制 • 调查员的挑选 • 调查员的培训 • 督导员的调查专业水平 • 调查过程控制 • 调查结果进行检验、评估 • 现场调查人员进行奖惩的制度

2.4 统计数据的整理 一、统计数据的分组二、次数分配三、次数分配直方图

组距分组(要点) • 将变量值的一个区间作为一组 • 适合于连续变量 • 适合于变量值较多的情况 • 需要遵循“不重不漏”的原则 • 可采用等距分组，也可采用不等距分组

组距分组(步骤) • 确定组数：组数的确定应以能够显示数据的分布特征和规律为目的 • 确定组距：组距是一个组的上限与下限之差，可根据全部数据的最大值和最小值及所分的组数来确定，即组距＝( 最大值 - 最小值)÷ 组数 • 统计出各组的频数并整理成频数分布表

下限值+上限值 组中值 = 2 组距分组(几个概念) • 下限：一个组的最小值 • 上限：一个组的最大值 • 组距：上限与下限之差 • 组中值：下限与上限之间的中点值

次数分配直方图 • 用矩形的宽度和高度来表示频数分布的图形，实际上是用矩形的面积来表示各组的频数分布 • 在直角坐标中，用横轴表示数据分组，纵轴表示频数或频率，各组与相应的频数就形成了一个矩形，即直方图 • 直方图下的总面积等于1

分组数据的图示(直方图的绘制) 某车间工人周加工零件直方图

折线图 • 折线图也称频数多边形图 • 是在直方图的基础上，把直方图顶部的中点(组中值)用直线连接起来，再把原来的直方图抹掉 • 折线图的两个终点要与横轴相交，具体的做法是 • 第一个矩形的顶部中点通过竖边中点（即该组频数一半的位置）连接到横轴，最后一个矩形顶部中点与其竖边中点连接到横轴 • 折线图下所围成的面积与直方图的面积相等，二者所表示的频数分布是一致的

分组数据的图示(折线图的绘制) 折线图与直方图下的面积相等！某车间工人周加工零件折线图

左偏分布 对称分布右偏分布 U型分布正J型分布反J型分布次数分配的类型几种常见的频数分布

2.5 分布集中趋势的测度 一、众数二、中位数三、均值四、众数、中位数和均值的比较

众数(mode) 定义：众数是指社会现象总体中最普遍出现的标志值。 • 一组数据中出现次数最多的变量值 • 适合于数据量较多时使用 • 不受极端值的影响 • 一组数据可能没有众数或有几个众数 • 主要用于分类数据，也可用于顺序数据和数值型数据

众数的确定 • 1)单项式分配数列确定众数：出现次数最多的标志值就是众数。 • 2)组距式分配数列确定众数：由组距数列确定众数，先确定众数组，再通过一定的公式计算众数的近似值。

众数(不惟一性) • 无众数原始数据: 10 5 9 12 6 8 一个众数原始数据: 6 5 9 8 5 5 多于一个众数原始数据: 25 28 2836 42 42

组距式数列确定众数的公式 • 下限公式： • 上限公式：

众数的几何意义

中位数 • 定义：中位数是将总体各个单位按其标志值的大小顺序排列，处于数列中点的那个单位的标志值，在总体中，标志值小于中位数的单位占一半；标志值大于中位数的单位也占一半。

50% 50% Me 中位数(median) 1. 排序后处于中间位置上的值 • 不受极端值的影响 • 主要用于顺序数据，也可用数值型数据，但不能用于分类数据 • 各变量值与中位数的离差绝对值之和最小，即

中位数的确定 • (1)未分组资料确定中位数。 • 将总体各单位的标志值按照大小顺序排列， • 当总体单位数n为奇数时： • 当总体单位数n为偶数时,：

(2)单项式分组资料确定中位数 • 当为奇数时： • 当为偶数时,

3) 组距式分组资料确定中位数 • 下限公式： • 上限公式：

均值一、算术平均数二、调和平均数三、几何平均数

均值(mean) • 集中趋势的最常用测度值 • 一组数据的均衡点所在 • 体现了数据的必然性特征 • 易受极端值的影响 • 用于数值型数据，不能用于分类数据和顺序数据

算术平均数 • 算术平均数的基本公式 • 计算平均数的要求：总体标志总量必须是总体各单位标志值的总和，标志值和单位之间一一对应。

算术平均数的计算方法 • （1）简单算术平均数。简单算术平均数主要用于未分组资料，用总体各单位标志值简单加总得到的标志总量除以单位总量而得。计算公式：

算术平均数的计算方法 • （2）加权算术平均数。 A. 加权算术平均数主要用于原始资料已经分组，并得出次数分布的条件。计算公式： fi为各组标志值出现的次数。

B.权数的意义和作用： 权数：各组次数（频数）的大小所对应的标志值对平均数的影响具有权衡轻重的作用。当各组的次数都相同时，即当f1=f2=f3=…=fn时，加权算术平均数就等于简单算术平均数。

算术平均数的数学性质 • （1）算术平均数与标志值个数的乘积等于各标志值的总和。 • 简单算术平均数： • 加权算术平均数：

（2）各个标志值与其算术平均数的离差之和等于零。（2）各个标志值与其算术平均数的离差之和等于零。 • 简单算术平均数： • 加权算术平均数：

（3）各标志值与算术平均数离差的平方和为最小值。（3）各标志值与算术平均数离差的平方和为最小值。 • （4）对被平均的变量实施某种线性变换后，新变量的算术平均数等于对原变量的算术平均数实施同样的线性变换的结果。 • （5）对于任意两个变量x和y，它们的代数和的算术平均数等于两个变量的算术平均数的代数和。

第 2 章 统计数据的描述