slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
第三讲 基本统计描述 PowerPoint Presentation
Download Presentation
第三讲 基本统计描述

Loading in 2 Seconds...

play fullscreen
1 / 133

第三讲 基本统计描述 - PowerPoint PPT Presentation


  • 140 Views
  • Uploaded on

3.1. 均值(Mean)和均值标准误差(S.E.mean). 3.2. 中位数(Median). 3.3. 众数(Mode). 3.5. 方差(Variance) 、 标准差(Standard Deviation). 3.4. 3.6. 全距(Range). 四分位数(Quartiles)、十分位数 (Deciles)和百分位数(Percentiles). 3.7. 频数(Frequency). 第三讲 基本统计描述. 3.8. 峰度(Kurtosis). 3.9. 偏度(Skewness). 3.10. 标准化Z分数及其线性转换.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '第三讲 基本统计描述' - zenda


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

3.1

均值(Mean)和均值标准误差(S.E.mean)

3.2

中位数(Median)

3.3

众数(Mode)

3.5

方差(Variance)、

标准差(Standard Deviation)

3.4

3.6

全距(Range)

四分位数(Quartiles)、十分位数

(Deciles)和百分位数(Percentiles)

3.7

频数(Frequency)

第三讲 基本统计描述
slide2

3.8

峰度(Kurtosis)

3.9

偏度(Skewness)

3.10

标准化Z分数及其线性转换

3.12

交叉列联表分析

3.11

3.13

探 索 分 析

多选项分析

3.14

基本统计分析的报表制作

slide3

SPSS基本统计分析是进行其他统计分析的基础和前提。通过基本统计方法的学习,可以对要分析数据的总体特征有比较准确的把握,从而有助于选择其他更为深入的统计分析方法。

本讲主要介绍如何在SPSS中进行平均数、中位数、众数、方差、百分位、频数、峰度、偏度、探索分析、交叉联列表分析、多选项分析、基本统计报表制作等的操作。

slide4

一、均值和均值标准误差(S.E.mean)

均值,又称平均值、平均数(Mean),表示的是某变量所有取值的集中趋势或平均水平。

例如,学生某门学科的平均成绩、公司员工的平均收入、某班级学生的平均身高等。

均值标准误差(Standard Error of Mean,S.E. mean)就是描述这些样本均值与总体均值之间平均差异程度的统计量。

slide5

SPSS中实现过程

研究问题

求某班级学生在一次数学测验中的平均成绩,数据如下表所示。

某班级的数学成绩

slide6

实现步骤

在Analyze菜单中选择“Frequencies”命令

slide10

二、中位数(Median)

定义:把一组数据按递增或递减的顺序排列,处于中间位置上的变量值就是中位数。它是一种位置代表值,所以不会受到极端数值的影响,具有较高的稳健性。

slide11

SPSS中实现过程

研究问题

求某班级学生身高的中位数,数据如下表所示。

某班级学生的身高

slide12

实现步骤

“Frequencies:Statistics”对话框(二)

slide14

三、众数(Mode)

众数是指一组数据中,出现次数最多的那个变量值。众数在描述数据集中趋势方面有一定的意义。例如,制鞋厂可以根据消费者所需鞋的尺码的众数来安排生产。

slide15

SPSS中实现过程

研究问题

求某医院当天出生新生儿的体重的众数,数据如下表所示。

新生儿的体重

slide16

实现步骤

图3-5 “Frequencies:Statistics”对话框(三)

slide18

四、全距(Range)

全距也称为极差,是数据的最大值与最小值之间的绝对差。在相同样本容量情况下的两组数据,全距大的一组数据要比全距小的一组数据更为分散。

计算公式:最大值-最小值。

slide19

3.4.2 SPSS中实现过程

研究问题

求某班级学生数学成绩的全距,数据如表3-4所示。

表3-4 某班级的数学成绩

slide20

实现步骤

图3-6 “Frequencies:Statistics”对话框(四)

slide22

五、方差和标准差

方差(Variance)是所有变量值与平均数偏差平方的平均值,它表示了一组数据分布的离散程度的平均值。

标准差(Standard Deviation)是方差的平方根,表示一组数据平均数的平均离散程度。

方差和标准差越大,说明变量值之间的差异越大,距离平均数这个“中心”的离散趋势越大。

slide23

SPSS中实现过程

研究问题

求某班级学生数学成绩的方差和标准差,数据如下表所示。

slide24

实现步骤

在菜单中选择“Descriptives”命令

slide28

六、四分位数、十分位数和百分位数

四分位数(Quartiles)、是将一组个案由小到大(或由大到小)排序后,用3个点将全部数据分为四等份,与3个点上相对应的变量称为四分位数,分别记为Q1(第一四分位数)、Q2(第二四分位数)、Q3(第三四分位数)。

四分位差越小,说明中间的数据越集中;四分位数越大,则意味着中间部分的数据越分散。

slide29

十分位数(Deciles)是将一组数据由小到大(或由大到小)排序后,用9个点将全部数据分为十等份,与9个点位置上相对应的变量称为十分位数,分别记为D1,D2,…,D9,表示10%的数据落在D1下,20%的数据落在D2下,90%落在D9下。十分位数(Deciles)是将一组数据由小到大(或由大到小)排序后,用9个点将全部数据分为十等份,与9个点位置上相对应的变量称为十分位数,分别记为D1,D2,…,D9,表示10%的数据落在D1下,20%的数据落在D2下,90%落在D9下。

slide30

百分位数(Percentiles)是将一组数据由小到大(或由大到小)排序后分割为100等份,与99个分割点位置上相对应的变量称为百分位数,分别记为P1,P2,…,P99,表示1%的数据落在P1下,2%的数据落在P2下,…,99%落在P99下。百分位数(Percentiles)是将一组数据由小到大(或由大到小)排序后分割为100等份,与99个分割点位置上相对应的变量称为百分位数,分别记为P1,P2,…,P99,表示1%的数据落在P1下,2%的数据落在P2下,…,99%落在P99下。

slide31

SPSS中实现过程

研究问题1

求某班级学生数学成绩的四分位数,数据如下表所示。

slide32

实现步骤

“Frequencies:Statistics”对话框(五)

slide33

研究问题2

测量54个某种机械零件的重量(克),求零件重量的D6,数据如下表所示。

slide34

实现步骤

“Frequencies:Statistics”对话框(六)

slide36

研究问题3

测量出54个某种机械零件的重量(克),求零件重量的P37,数据如下表所示。

slide37

实现步骤

“Frequencies:Statistics”对话框(七)

slide38

结果和讨论

研究问题1的程序运行结果如下表所示。

slide41

七、频数(Frequency)

频数就是一个变量在各个变量值上取值的个案数。如要了解学生某次考试的成绩情况,需要计算出学生所有分数取值,以及每个分数取值有多少个人,这就需要用到频数分析。

slide42

SPSS中实现过程

研究问题

10个学生在某次数学、语文、化学考试中成绩如下表所示,试求学生在3门课程上的频数分布。

slide44

实现步骤

“Frequencies”对话框(二)

slide45

结果和讨论

程序运行结果如下表所示。

slide46

八、峰度(Kurtosis)

峰度是描述某变量所有取值分布形态陡缓程度的统计量。这个统计量是与正态分布相比较的量,峰度为0表示其数据分布与正态分布的陡缓程度相同;峰度大于0表示比正态分布高峰要更加陡峭,为尖顶峰;峰度小于0表示比正态分布的高峰要平坦,为平顶峰。

slide47

SPSS中实现过程

研究问题

某班级40个学生的年龄分布如下表所示,试求学生年龄峰度。

slide48

实现步骤

在Data菜单中选择“Weight Cases”命令

slide50

九、偏度(Skewness)

偏度也是描述数据分布形态的,它是描述某变量取值分布对称性的统计量。

slide51

这个统计量是与正态分布相比较的量,偏度为0表示其数据分布形态与正态分布偏度x相同;偏度大于0表示正偏差数值较大,为正偏或右偏,即有一条长尾巴拖在右边;偏度小于0表示负偏差数值大,为负偏或左偏,有一条长尾拖在左边。而偏度的绝对值数值越大表示分布形态的偏斜程度越大。这个统计量是与正态分布相比较的量,偏度为0表示其数据分布形态与正态分布偏度x相同;偏度大于0表示正偏差数值较大,为正偏或右偏,即有一条长尾巴拖在右边;偏度小于0表示负偏差数值大,为负偏或左偏,有一条长尾拖在左边。而偏度的绝对值数值越大表示分布形态的偏斜程度越大。

slide52

SPSS中实现过程

研究问题

某班级41个学生的身高分布如下表所示,试求学生身高分布偏度。

slide53

实现步骤

“Frequencies:Statistics”对话框(九)

slide55

十、探 索 分 析

调用此过程可对变量进行更为深入详尽的描述性统计分析,故称之为探索分析。它在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,显得更加细致与全面,有助于用户思考对数据进行进一步分析的方案。

slide56

1.探索分析的内容

  • 检查数据是否有错误:过大或过小的数据均有可能是奇异值、影响点或错误数据。要找出这样的数据,并分析原因,然后决定是否从分析中删除这些数据。因为奇异值和影响点往往对分析的影响较大,不能真实反映数据的总体特征。
slide57

对数据规律的初步观察:通过初步观察获得数据的一些内部规律,例如,两个变量间是否线性相关。对数据规律的初步观察:通过初步观察获得数据的一些内部规律,例如,两个变量间是否线性相关。

slide58

2.探索分析的考察方法

探索分析一般通过数据文件在分组与不分组的情况下,获得常用统计量和图形。一般以图形方式输出,直观帮助用户确定奇异值、影响点、进行假设检验,以及确定用户要使用的某种统计方式是否合适。

slide59

3.正态分布检验

常用的正态分布检验是Q-Q图。

slide60

4.方差齐次性检验

对数据分析不仅需要进行正态分布检验,有时候还需要比较各个分组的方差是否相同,这就要进行方差齐次性检验。例如,在进行独立右边的T检验之前,就需要事先确定两个数据的方差是否相同。

slide62

Levene检验对数据进行方差齐次性检验时,不强求数据必须服从正态分布,它先计算出各个观测值减去组内均值的差,然后再通过这些差值的绝对值进行单因素方差分析。Levene检验对数据进行方差齐次性检验时,不强求数据必须服从正态分布,它先计算出各个观测值减去组内均值的差,然后再通过这些差值的绝对值进行单因素方差分析。

如果得到显著性水平小于0.05,那么就可以拒绝方差相同的假设。

slide63

SPSS中实现过程

研究问题

20名10岁少儿的身高(cm)资料,数据如下表所示,试作探索性分析。

slide65

实现步骤

在菜单中选择“Explore”命令

slide70

结果和讨论

(1)首先输出如下个案观察量摘要表,如下表所示。

slide73

(4)再接着输出百分位数,也是分组后的百分位数,如下表所示。(4)再接着输出百分位数,也是分组后的百分位数,如下表所示。

slide74

(5)分别输出两个组中的最大5个数和最小5个数,并且包括这些值对应的ID,如下表所示。(5)分别输出两个组中的最大5个数和最小5个数,并且包括这些值对应的ID,如下表所示。

slide80

(10)输出身高正态概率图(Normal Q-Q Plot of身高),如图所示。

男孩身高变量的正态概率图

slide82

(11)输出离散正态概率图(Detrended Normal Q-Q Plot of身高),男孩身高如图所示,女孩身高如图所示。横坐标是身高,纵坐标是和正态分布的偏离。

slide85

十一、交叉列联表分析

前面的分析都是对单个变量的数据分布情况进行分析。但在实际分析中,还需要掌握多个变量在不同取值情况下的数据分布情况,从而进一步深入分析变量之间的相互影响和关系,这种分析就称为交叉列联表分析。

slide86

交叉列联表分析除了列出交叉分组下的频数分布外,还需要分析两个变量之间是否具有独立性或一定的相关性。要获得变量之间的相关性,仅仅靠频数分布的数据是不够的,还需要借助一些变量间相关程度的统计量和一些非参数检验的方法。交叉列联表分析除了列出交叉分组下的频数分布外,还需要分析两个变量之间是否具有独立性或一定的相关性。要获得变量之间的相关性,仅仅靠频数分布的数据是不够的,还需要借助一些变量间相关程度的统计量和一些非参数检验的方法。

slide87

常用的衡量变量间相关程度的统计量是简单相关系数,但在交叉列联表分析中,由于行列变量往往不是连续变量,不符合计算简单相关系数的前提条件。因此需要根据变量的性质,选择其他的相关系数,如Kendall等级相关系数、Eta值等。常用的衡量变量间相关程度的统计量是简单相关系数,但在交叉列联表分析中,由于行列变量往往不是连续变量,不符合计算简单相关系数的前提条件。因此需要根据变量的性质,选择其他的相关系数,如Kendall等级相关系数、Eta值等。

slide88

SPSS中实现过程

研究问题

用两个班级学生进行两个感冒疫苗的试验,两个班级学生患感冒结果如下表所示,问两个班级学生的患病比例有无差别。

slide90

实现步骤

图3-38 “Weight Cases”对话框

slide96

结果和讨论

(1)先输出如下个案处理摘要表。

slide101

十二、多选项分析

多选项分析是对多选项问题的分析方法。所谓多选项问题,就是一个问题的答案都是顺序变量或名义变量,并且允许选择的答案可以有多种组合。

对于多选项问题,分解(编码方案)的方法有两种。

slide102

1.多选项二分法

这种方法将每个可能的答案设置为一个SPSS变量,变量的取值有两个,分别表示选中或没选中。这种方法的缺点是需要的变量数比较多。比如一道题目有6个选项,则一道多选题目就需要用6个变量来表示。好处是比较简单。

slide103

2.多选项分类法

多选项分类法首先估计多选项问题可能出现的答案个数。比如一个多选题,如果最多有3个答案,那么就设置3个SPSS变量,分别用来存放3个可能的答案。如果某个案的答案只有两个,那么第3个SPSS变量取值为缺失值。

slide104

采用多选项分类法,进行普通的频数分析或交叉列联表分析有时候不能达到我们的要求。比如,我们要了解某选项的选中次数,就需要将3个变量中该选项的次数都累加起来,而不仅仅是一个变量中该选项的累加。采用多选项分类法,进行普通的频数分析或交叉列联表分析有时候不能达到我们的要求。比如,我们要了解某选项的选中次数,就需要将3个变量中该选项的次数都累加起来,而不仅仅是一个变量中该选项的累加。

slide105

针对这种情况,SPSS提供了多选项分析方法,专门针对多选项问题。SPSS在处理的过程中会自动地将3个变量中相同答案的频率累加起来。针对这种情况,SPSS提供了多选项分析方法,专门针对多选项问题。SPSS在处理的过程中会自动地将3个变量中相同答案的频率累加起来。

slide106

SPSS中实现过程

研究问题1

某商场对6种品牌的电视机进行消费者满意度调查,随机调查了20位消费者,让他们选出最满意的3个电视机品牌,收集到相应的数据,如表3-11所示。试用多选项二分法利用SPSS对该问题进行分析,包括频数分析和交叉列联表分析。

slide108

实现步骤

在菜单中选择“Define Variable Sets”命令

slide114

“Multiple Response Crosstabs:Options”对话框(一)

slide115

研究问题2

上面实现过程是采用多选项二分法,本例采用多选项分类法对该问题进行分析。在本次调查中,每个被调查人最多选择3个品牌,因此有3个变量,用来保存每个被调查人的选择,数据表格如下表所示。

slide117

实现步骤

“Define Multiple Response Sets”对话框(二)

slide121

结果和讨论

上面分别采用了多选项二分法(研究问题1)和多选项分类法(研究问题2)对问题进行分析。

slide122

(1)多选项二分法频数分析结果如下表所示。(1)多选项二分法频数分析结果如下表所示。

slide123

(2)下面所示结果表格是多选项二分法的交叉列联表结果表格。(2)下面所示结果表格是多选项二分法的交叉列联表结果表格。

slide124

下面说明研究问题2的结果。

(1)多选项分类法频数分析结果如下表所示。

slide125

(2)多选项分类法的交叉列联表结果表格如下表所示。(2)多选项分类法的交叉列联表结果表格如下表所示。

slide126

1.4.2 SPSS的数据编辑窗口

SPSS主界面主要有两个,一个是SPSS数据编辑窗口,另一个是SPSS输出窗口。

数据编辑窗口由标题栏、菜单栏、工具栏、编辑栏、变量名栏、内容区、窗口切换标签页和状态栏组成,如图1-2所示。

slide127

小 结

描述性统计是进行其他统计分析的基础和前提。利用这些基本统计方法,可以对要分析数据的总体特征有比较准确的把握,同时也为更深入的分析提供了依据。

slide128
练 习

1、根据下面表中提供的2002年全国31个省、市、自治区的GDP数据,如下图。

  • 求出GDP的平均值、人均GDP的平均值、中位数、标准差、峰度、偏度、前五位及后五位的省份,并作出茎叶图、检验人均GDP的95%的置信区间。
slide130
2、下面表中给出的是一组周岁儿童的身高,性别数据,1代表男,0 代表女。
  • 试根据表中的数据建立数据文件,对数据进行基本统计描述,给出身高的平均值、标准差、四分位点、频数分布直方图、箱图,并检验这组数据是否服从正态分布。
slide132

吸烟

不吸烟

患kh2

43

162

13

121

56

283

患慢性气炎

未患慢性气炎

205

134

339

患病率%

21

9.5

16.5

3、调查339名50岁吸烟习惯与慢性支气管炎病的关系,得下表。试问吸烟者与不吸烟者的慢性气管炎患病率是否有所不同?(α=0.05)

slide133
4、为了调查男性、女性购车者的观点,调查了一百名购车人,检验性别对安全性能的偏好之间有无联系。4、为了调查男性、女性购车者的观点,调查了一百名购车人,检验性别对安全性能的偏好之间有无联系。