240 likes | 447 Views
描写统计方法( 2 ). 语言调查者为了从经验层次上证实自己在研究中得出的概念、假设或理论,就要正确地收集资料或数据,也要会正确地处理这些数据。原始的数据往往是杂乱无章的。下面介绍的三种简单、基本的统计分析方法。 一 . 分布 统计法 统计图 二 . 集中趋势测量法 三 . 离散趋势测量法. 一 . 分布 统计法 统计图. 1. 分布 在统计学中指的是一个概念或一个变量,它的各个情况出现的次数或频次,又称为频次分布。. 一 . 分布 统计表 统计图. 家庭结构是一个概念,由于它的形式不唯一,因此可看作是一价目变量( X )。于是 X 的可能取值有:
E N D
描写统计方法(2) 语言调查者为了从经验层次上证实自己在研究中得出的概念、假设或理论,就要正确地收集资料或数据,也要会正确地处理这些数据。原始的数据往往是杂乱无章的。下面介绍的三种简单、基本的统计分析方法。 一.分布 统计法 统计图 二.集中趋势测量法 三.离散趋势测量法
一.分布 统计法 统计图 1.分布 在统计学中指的是一个概念或一个变量,它的各个情况出现的次数或频次,又称为频次分布。 一.分布 统计表 统计图
家庭结构是一个概念,由于它的形式不唯一,因此可看作是一价目变量(X)。于是X的可能取值有:家庭结构是一个概念,由于它的形式不唯一,因此可看作是一价目变量(X)。于是X的可能取值有: • X1:由父母和子女组成的核心家庭 • X2:由单一已婚子女组成的三代人家庭,即直系家庭。 • X3:由多对已婚子女所组成的三代人家庭,即联合家庭。 一.分布 统计表 统计图
将被调查者的情况归类,就得出: (X1,n1) (X2,n2) (X3,n3) …… (Xn,nn) 当n代表不同的含意时,就表示不同的分布。 n表示频次时,以上的变量值称之为频次分布; n表示概率时,以上的变量值称之为概率分布; n表示百分比时,以上的变量值称之为百分比分布;
统计表 • 统计表就是用表格形式来表示前面所说变量的分布。它不需用文字表述,就能反映出资料的特性以及资料之间的关系。 • 比统计图有更高的精确性,缺点是不及统计图直观。 一.分布 统计表 统计图
统计图 • 统计图就是用图形来表示变量的分布,又称为分布图。比统计表更为直观与形象,缺点是不及统计表精确。 • 例:家庭构成调查 一.分布 统计表 统计图
1.饼形图(圆瓣图) 圆形代表现象的总体,用圆瓣代表现象中的一种情况,大小代表变量在总体中所占的百分数。 一.分布 统计表 统计图
2.条形图 用长条的高度来表示资料类别的次数或百分数。长条的宽度没有意义。 一.分布 统计表 统计图
3.直方图 • 也是由紧挨着的长条组成,但与条形图不同的是,直方图的宽度是有意义的。一般说来,直方图是以长条的面积来表示频次或相对频次。而条形图是以轴的高度表示频密度或相对频次密度。公式: • 频次密度=频次/组距(条宽); • 相对频次密度=相对频次/组距(条宽) • 直方图仅适用于等距变量,不适用于非等距变量。例如: 一.分布 统计表 统计图
非等距变量 显示虚假信息 一.分布 统计表 统计图
变距变量 显示真实信息 频次密度 年龄 频次密度: 30人/(27-26)=30(人/岁) 35人/(50-40)=3.5(人/岁) 26 27 40 50 一.分布 统计表 统计图
4.折线图 • 连接直方图中条形顶端的中点,就得到折线图。折线图可使资料频次分布的趋势一目了名胜古迹。 一.分布 统计表 统计图
5.XY散点图 6.曲面图 7.气泡图 8.圆环图 9.面积图 10.气泡图 11.股价图 12.圆柱图 一.分布 统计表 统计图
二、集中趋势测量法 用分布来研究变量,这最全面的研究方法。在很多情况下,并不需要对变量有详尽的了解,而只是要了解其大概,或是了解分布的主要特征以便简化资料。于是就产生了用某一个典型的变量值来代表全体变量的问题。这个典型的变量值就称作为集中值或集中趋势。它会牺牲某些信息,其目的是选择这样的信息来做出估计或预测时,所产生的误差最小。有三种方法: • 根据最多的频次; • 根据居中的位置 • 根据平均数:
1.众值 M0 • 用具有频数最多的值来表示变量的集中值。 • 适用于任何层次的变量,只要知道频次分布,就能找到众值。因此,它最易求出,也特别适用于单峰对称的情况。也是比较两个分布是否相近首先要考虑的参数。 • 对于多峰的图形,由于众值不唯一,用此法就不适当了。 • 函数:=mode() 二.集中趋势测量法
2.中位值 Md • 它把观察总数一分为二,其中一半具有比它小的变量值,另一半具有比它大的变量值。所以,中位值是数据序列之中央位置的值。 • 函数:=median() • 四分数:=QUARTILE(F3:F66,2) • 适用于定序变量。 • 不适用的例:排序前的《现汉》的释义长短统计 二.集中趋势测量法
3.均值 M0 • 仅适用于定距变量。(单位数必须一样) • 用均值作为变量的集中值,不仅考虑到变量值的频次、次序,还要考虑到它的大小。资料中的任何频次、次序和数值大小的变化,都会引起均值的改变。因此,它是灵敏的。也是对信息运用得最充分的。 ∑Xi X=———— N 函数:=average() 二.集中趋势测量法
众数、中数和均数的比较 1.三值都是希望通过一个数值来描述整体特征,以便简化资料。都是反映了变量的集中趋势。 众值:适用于定类、定序和定距变量 中位值:适用于字序和定距变量 均值:适用于定距变量。 2.众值仅使用于了资料中最大频次数,因此,资料使用是不完全的;中位值只考虑了变量的顺序和居中位置,对不按序排序的数,不在中位的数值的大或小反映不出来;均值既考虑到频次,又考虑到变量值的大小,因此,反映最灵敏。 二.集中趋势测量法
3.虽然均值对资料信息利用最充分,但对严重偏态的分布,会失去它应有的代表性。只对单峰和基本对称的图形,用均值作为集中趋势才是合理的。对偏态的分布,应使用中位值作为集中趋势。3.虽然均值对资料信息利用最充分,但对严重偏态的分布,会失去它应有的代表性。只对单峰和基本对称的图形,用均值作为集中趋势才是合理的。对偏态的分布,应使用中位值作为集中趋势。
4.偏态和三值的关系 负偏图形 对称图形 正偏图形 众值 众值 中位值 均值 众值 中位值 均值 中位值 均值
思考与练习 • 比较一组相当规模的数据,比较中数、众数、均数、四位数的数据显示价值。