590 likes | 778 Views
统计学. 天津财经大学统计系. 第四章 数据的描述性整理. 第一节 数据的汇总 第二节 数据分布状态的描述 第三节 数据分布的位置特征数 第四节 数据分布的离散特征数 第五节 数据分布的偏态特征数和峰度特征数. 第一节 数据的汇总. 汇总的操作方法可分为手工汇总和电子计算机汇总 一 、手工汇总 1. 划记法 2 .过录法 3 .折叠法 二、 电子计算机汇总 利用电子计算机技术进行统计汇总的过程主要有以下五步: 1 .编程序 2 .编码 3 .数据录入 4 .逻辑检查 5 .制表打印. 三、数据汇总的质量控制.
E N D
统计学 天津财经大学统计系
第四章 数据的描述性整理 • 第一节 数据的汇总 • 第二节 数据分布状态的描述 • 第三节 数据分布的位置特征数 • 第四节 数据分布的离散特征数 • 第五节 数据分布的偏态特征数和峰度特征数
第一节 数据的汇总 • 汇总的操作方法可分为手工汇总和电子计算机汇总 • 一 、手工汇总 • 1. 划记法 2.过录法 3.折叠法 • 二、 电子计算机汇总 • 利用电子计算机技术进行统计汇总的过程主要有以下五步: • 1.编程序 • 2.编码 • 3.数据录入 • 4.逻辑检查 • 5.制表打印
三、数据汇总的质量控制 • 1.汇总前对资料的审核 • 2.计算机汇总程序的审核 • 3.编码的质量控制 • 4.数据录入的质量控制 • 5.分组及汇总操作的质量控制
第二节 数据分布状态的描述 • 一、社会经济有限总体分布的概念 • (一)次数分布 • 把统计总体按照某个标准(标志)分组后,形成总体单位在在各个组的分配。 • (二)次数又叫频数。 • (三)用各组次数除以总次数计算的结构相对数叫频率。 • (四)频数分布列:用频数来描述数据的分布状态的分布列。 • (五)频率分布列:用频率来描述数据的分布状态的分布列。 • (六)分布列:统计分组的各组名称与相应的频数或频率结合在一起所形成的数列。
二、品质型数据和数量型数据分布列 (一)品质型数据分布列 品质型数据分布列:对品质型数据资料整理所得到的分布列。或者说是对统计总体按品质标志分组所得到得分布列。 (二)数量型数据的分布列 1.数量型数据分布列:对数量型数据资料整理所得到的分布列。或说是对统计总体按数量标志分组所得到的分布列。 2.类型:数量型数据分布列又由于拟组形式不同分为单项式数列和组距式数列。 • 单项式数列,各组名称应成等差。 • 组距式数列,各组组距应当相等。
有时,我们得到的是一个组距不相等的分组资料,应当把资料中各组的频数(频率)一一换算成统一组距下的频数(频率)。有时,我们得到的是一个组距不相等的分组资料,应当把资料中各组的频数(频率)一一换算成统一组距下的频数(频率)。 • 频数密度:组距式分布列中,各组频数与该组组距的比值叫做; • 频率密度:各组频率与该组组距的比值叫做。频数(频率)密度表明在该组中平均一个单位组距所拥有的频数(频率)。
三、分布图 • 分布列描述了数据的分布状态,但它不够直观。分布图则能更加直观地描述数据的分布状态。 • 数据的分布图有:分布棒图、分布直方图、分布折线图、分布曲线图。 • 四、根据事先作好的分组设计描述分布状态 • 探索式地整理数据来描述分布状态 • 1. 单项式整理 • 单项式数列的应用场合是: • (1)离散型变量; • (2)数量型数据的全部结果集中在为数不多的几个数值上重复出现;
2. 组距式整理 • 组距式整理的步骤。 • (1)将数据按大小作排序整理。 • (2)指定初始分组数和组距 • 组数和组距的关系是 • 组距=全距/组数;全距是数据中最大的数值与最小的数值之差。 • 常见用作组距的是形如1,5,10,15,20,25,30,等等这样一些“整5”、“整10”的数字。
(3)确定组限的位置 • (4)把数据分入各组,计算各组的频数和频率,绘制分布直方图。 • (5)审查直方图是否反映出数据的分布规律 • 对数据作组距式分组整理时确定组数的原则是:在能够反映出数据分布规律的前提下,分组数尽可能多些。
第三节 数据分布的位置特征数 • 一、次数分布特征及与之相对应的特征数 • 二、常见的几种位置特征数 • 三、绝对数统计变量的平均数 • 四、比率型统计变量的平均数 • 五、算术平均数与调和平均数中的加权问题
一、次数分布特征及与之相对应的特征数 • 次数分布的特征数:集中地、概括地说明次数分布(分布直方图)的某种特征的数字。 • 特征 特征数 • 1.位置特征 平均数、众数、中位数 • 2.离散特征 全距、平均差、标准差 • (方差)、离散系数 • 3.偏斜特征 偏态系数 • 4.峰度特征 峰度系数
二、常见的几种位置特征数 • 位置特征数反映了次数分布的集中趋势。即: • 较大和较小的观测值出现的频率比较低,大多数观测值密集分布在中心附近,使得全部数据呈现出向中心聚集或靠拢的态势。 • 位置特征数有两大类: • 数值平均数即平均数——是根据全部数据计算得到的代表值,主要有算术平均数、调和平均数及几何平均数; • 位置代表值——根据数据所处位置直接观察、或根据与特定位置有关的部分数据来确定的代表值,主要有众数和中位数。
(一)平均数 1.平均数的作用 (1)反映变量分布的集中趋势和一般水平。 • 如用平均工资了解职工工资分布的中心,反映职工工资的一般水平。 (2)可用来比较同一现象在不同空间或不同阶段的发展水平。 • 不受总体规模大小的影响, • 在一定程度上使偶然因素的影响相互抵消。 (3)可用来分析现象之间的依存关系。 • 如研究劳动者的文化程度与收入的关系 (4)平均指标也是统计推断中的一个重要统计量,是进行统计推断的基础。
2.平均数的种类 有算术平均数、调和平均数、几何平均数。 (1)算术平均数 • 一组数据的总和除以这组数据的项数所得的结果; • 最常用的数值平均数。
简单算术平均数 • 把每项数据直接加总后除以它们的项数。 • 通常用于对未分组的数据计算算术平均数。 • 计算公式:
分组 例 • 解:采用简单算术平均法计算,即全体队员的平均年龄为(单位:周岁): • 分组数据不能简单平均 !因为各组变量值的次数不等! 若采用简单平均:
加权算术平均数 • 正确的计算是: • 加权算术平均数的计算公式: • 加权—为了体现各变量值轻重不同的影响作用,对各个变量值赋予不尽相同的权数(fi).
权数(fi,也称权重) • 权数——指在计算总体平均数或综合水平的过程中对各个数据起着权衡轻重作用的变量。 • 可以是绝对数形式,也可以是比重形式(如频率)来表示。 • 事实上比重权数更能够直接表明权数的权衡轻重作用的实质。 • 当权数完全相等(f1 =f2 =…= fn)时,加权算术平均数就成了简单算术平均数。
2.调和平均数(Harmonic mean) • 调和平均数也称为倒数平均数。 • 各变量值的倒数(1/xi)的算术平均数的倒数. • 有简单调和平均数和加权调和平均数之分,其计算公式分别为:
3.几何平均数(Geometric mean) • 几何平均数— n个变量值连乘积的n次方根。 • 简单几何平均数 • 加权几何平均数 • 适用于各个变量值之间存在连乘积关系的场合。 • 主要用于计算现象的平均发展速度, • 也适用于对某些具有环比性质的比率求平均.
例 • 某企业产品的加工要顺次经过前后衔接的五道工序。本月该企业各加工工序的合格率分别为88%、85%、90%、92%、96%,试求这五道工序的平均合格率。 • 解:本例中各工序的合格率具有环比的性质,企业产品的总合格率等于各工序合格率之连乘积。所以,所求的平均合格率应为:
f(x) MO x (二)众数 众数是一组数据中出现频数最多、频率最高的变量值,常用 M0 表示。 • 如表3-2中年龄的众数值MO=25。 • 众数代表的是最常见、最普遍的状况,是对现象集中趋势的度量。 • 可用来测度定性变量的集中趋势; • 销售量最大的产品颜色是“白色”,则有M0=“白色” • 可以度量定量变量的集中趋势。 • 从分布曲线的角度看,众数就是变量分布曲线的最高峰所对应的变量值。
Mo 组距数列中众数的确定 • 先找到众数组。 • 在等距数列中,众数组就是次数最多的组; • 在异距数列中,众数组应是频数密度最大的组。 • 根据众数组与其相邻两组的次数差来推算。 • 其近似公式为: 下限公式: 上限公式:
f(x) 50% 50% Me x (三)中位数(Median) • 中位数是将数据由小到大排列后位置居中的数值。 • 由未分组数据计算中位数 • 若数据项数是奇数,则正好位于中间的数值就是中位数; • 如5人收入为: 1200,1450,1500,1600,2000元,则收入的中位数 Me =1500。 • 若数据项数是偶数,则取居中两个数值的平均数为中位数. • 如6人收入为: 1200,1450,1500,1600, 1800,2000元,则收入的中位数 Me =1550。
由组距数据计算中位数 • 先确定中位数组,即中间位置(用Σf/2来计算)所在的组。 • 假定中位数组内次数均匀分布(次数与变量值的区间大小成比例),近似推算中位数的值。 • 计算公式为: 下限公式: 上限公式:
(四)众数、中位数和算术平均数的比较 1.算术平均数综合反映了全部数据的信息,众数和中位数由数据分布的特定位置所确定。 2.算术平均数和中位数在任何一组数据中都存在而且具有惟一性,但计算和应用众数有两个前提条件: • (1)数据项数众多; • (2)数据具有明显的集中趋势。 3.算术平均数只能用于定量(数值型)数据,中位数适用于定序数据和定量数据,众数适用于所有形式(类型、计量层次)的数据
4.算术平均数要受数据中极端值的影响。而众数和中位数都不受极端值的影响。4.算术平均数要受数据中极端值的影响。而众数和中位数都不受极端值的影响。 • 为了排除极端值的干扰,可计算切尾均值,即去掉数据中最大和最小的若干项数值后计算的均值. • 切尾均值是将均值与中位数取长补短的结果。 • 5. 算术平均数可以推算总体的有关总量指标,而中位数和众数则不宜用作此类推算。
x = Me = Mo x< Me< Mo Mo>Me> x 算术平均数和众数、中位数的数量关系 • 在对称分布中,三者相等.即: 均值 = Me =Mo; • 在左偏分布中,一般有: 均值<Me<Mo • 在右偏分布中,一般有:Mo <Me <均值。 • 皮尔生经验公式:在轻微偏态时,三者的近似关系:
(五)算术平均数的主要数学性质 (1)算术平均数与变量值个数的乘积等于各个变量值的总和。 (2)各变量值与算术平均数的离差之总和等于零。 (3)各变量值与算术平均数的离差平方之总和为最小。
三、绝对数统计变量的平均数 • (一)对绝对数统计变量平均数的要求 • 求绝对数统计变量的平均数,一般要求所求的平均数是将各个观察值“截长补短”以后的结果。依这个要求,用平均数代替了各个观察值后,观察值的总和不变。 • (二)未分组原始资料的平均数 • (三)单项式分组资料的平均数 • 用各组变量值以各组的频数或频率为权数的加权算术平均数。(公式如前述) • (四)组距式分组资料的平均数 • 用各组组中值以各组的频数或频率为权数的加权算术平均数。(公式如前述)
由组距数列计算算术平均数 要点: • 各组变量值用组中值来代表。 • 假定条件是各组内数据呈均匀分布或对称分布。 • 计算结果是近似值 . 解:平均使用寿命为:
四、比(率)类型统计变量的平均数 • (一)什么是比(率)类型统计变量 • 1.概念比(率)类型统计变量:平均指标和相对指标的总称。 • 2.基本比式的含义:要弄清比(率)类型统计变量的基本比式,即这个比(率)类型变量的计算公式。指求得这个比值时所依据的分子统计数据和分母统计数据的比式。 • (二)对于比率类型统计变量平均数的要求 • 对于比率类型统计变量平均数的要求是:所求的平均数是各个个体比率的总比率。 • (三)比(率)类型统计变量的平均数
1.若已知资料为基本比式的比值和分母资料,则权数为分母资料,用f表示,采用加权算术平均数。1.若已知资料为基本比式的比值和分母资料,则权数为分母资料,用f表示,采用加权算术平均数。 • 2.若已知资料为基本比式的比值和分子资料,则权数为分自资料,用M表示,采用加权调和平均数。 • 3.当采用同一资料时,加权算术平均数等于加权调和平均数
例:相对数求算术平均数 • 由于各个相对数的对比基础不同,采用简单算术平均通常不合理,需要加权。 • 权数的选择必须符合该相对数本身的计算公式。 • 权数通常为该相对数的分母指标。
五、算术平均数与调和平均数的加权问题 • 1. 权数的确定 • 确定权数的方式有两种:客观方式和主观方式。 • 2. 权数的作用 • 权数的作用是权衡变量的各个被平均数值在平均数中所起作用的轻重。 • 认识到权数的这种作用,在实践中,有时可以通过调整权数的结构来改变算术平均数或调和平均数水平。
在分析算术平均数或调和平均数水平变动的原因时也要注意到这种情况:算术平均数及调和平均数水平的高低,除了受到统计变量观察值水平高低的影响之外,还受到权数结构变化的影响。在分析算术平均数或调和平均数水平变动的原因时也要注意到这种情况:算术平均数及调和平均数水平的高低,除了受到统计变量观察值水平高低的影响之外,还受到权数结构变化的影响。 • 3. 权数的形式 • 算术平均数或调和平均数的权数可以有绝对数和结构相对数两种形式。 • 4. 权数的实质内容 • 权数的实质内容在于它的结构,即权值总和中,各项权值之间的比例。
第四节 数据分布的离散特征数 • 一、离散特征数的作用 • 二、几种重要的离散特征数
一、离散特征数的作用 • (一)离散特征数的概念 • 反映总体中各单位标志值离散程度或变动范围的指标。 • (二)离散特征数的作用 • 1.说明数据的分散程度,反映变量的稳定性、均衡性。 • 2.衡量平均数的代表性。 • 3. 统计推断的重要依据
二、几种重要的离散特征数 (一)全距,又称极差(Range) • 全距是一组数据的最大值(xmax)与最小值(xmin)之差,通常用 R 表示。 • 对于总体数据而言,全距也就是变量变化的范围或幅度大小。 • 组距数列中,全距≈最高组的上限-最低组的下限。 • 优缺点:计算简便、含义直观、容易理解。它未考虑数据的中间分布情况,不能充分说明全部数据的差异程度。在实际工作中,极差常用于工业产品质量的检查和控制。
(二)平均差(Average Deviation) • 平均差——各个数据与其均值的离差绝对值的算术平均数,反映各个数据与其均值的平均差距,通常以A.D表示。计算公式为: • 未分组数据: • 已分组数据: • 平均差含义清晰,能全面地反映数据的离散程度。但取离差绝对值进行平均,数学处理上不够方便,在数学性质上也不是最优的。
(三)方差和标准差 • 1. 方差(Variance)的概念和计算 • 方差是各个数据与其均值的离差平方的算术平均数. • 总体方差(σ2)的计算公式为: • 未分组数据: • 分组数据: • 样本方差(通常用 S2 表示)分母应为(n -1)。
标准差(standard Deviation) • 标准差——方差的算术平方根。 • 总体标准差一般用σ表示。其计算公式为: • 未分组数据: • 分组数据: • 样本标准差(S)分母应为(n-1)。 • 标准差比方差更容易理解。在社会经济现象的统计分析中,标准差比方差的应用更为普遍,经常被用作测度数据与均值差距的标准尺度。
2.方差的主要数学性质 (1)常数的方差等于零。a为常数,则 (2)变量的线性函数的方差等于变量系数的平方乘以变量的方差。设a,b为常数,y=a+bx,则有: (3)分组条件下,总体的方差等于组间方差与各组方差平均数之和。 • 组间方差 • 各组方差平均数
3.标准化值(Z-score) • 标准化值或标准得分也称为Z值。 • 对于来自不同均值和标准差的个体的数据,往往不能直接对比。这就需要将它们转化为同一规格、尺度的数据后再比较。 • 标准化值实际上是将不同均值和标准差的总体都转换为均值为0、标准差为1的总体,将各个体的数据转换为它在其总体中的相对位置。
例 • 假定某班学生先后两个两次进行了难度不同的综合考试,第一次考试成绩的均值和标准差分别为80分和10分,而第二次考试成绩的均值和标准差分别为70分和7分。张三第一、二次考试的成绩分别为92分和80分,那么全班相比较而言,他哪一次考试的成绩更好呢? • 解:由于两次考试成绩的均值和标准差不同,每个学生两次考试的成绩不宜直接比较。 • 利用标准化值进行对比,表明第二次考试的成绩更好一些。
68.27% 95.45% x 99.73% 4. 对称钟形分布中的3σ法则 • 3σ法则——关于钟形分布的一个近似的或经验的法则: • 变量值落在 [-3σ,+3σ]范围以外的情况极为少见。因此通常将落在区间[-3σ,+3σ]之外的数据称为异常数据或称为离群点。
(四)离散系数 • 前面的各变异指标都是有计量单位的,它们的数值大小不仅取决于数据的离散程度,还要受数据本身水平高低和计量单位的影响。 • 对不同变量(或不同数据组)的离散程度进行比较时,只有当它们的平均水平和计量单位都相同时,才能利用上述变异指标来分析;否则,须利用离散系数来比较它们的离散程度。 • 例如,哪个变量的差异较大:体重,还是身高? • 例如,体重的差异哪个较大:父亲,还是婴儿? • 父亲:平均体重=70 kg,标准差=5 kg • 婴儿: 5 kg, 1 kg
离散系数是极差、平均差或标准差等变异指标与算术平均数的比率,以相对数的形式表示变异程度。离散系数是极差、平均差或标准差等变异指标与算术平均数的比率,以相对数的形式表示变异程度。 • 将极差与算术平均数对比得到极差系数, • 将平均差与算术平均数对比得到平均差系数。 • 最常用的离散系数是就标准差来计算的,称之为标准差系数: • 离散系数大,说明数据的离散程度大,其平均数的代表性就差;反之亦然.