数据统计与分析技术 - PowerPoint PPT Presentation

数据统计与
Download
1 / 111

  • 93 Views
  • Uploaded on
  • Presentation posted in: General

数据统计与. 数据统计与分析技术. 1. 分析前数据预处理 2. 样本描述性统计 3. 平均数比较与 T 检验 4. 相关分析 5. 回归分析 6. 非参数检验 7. 方差分析 8. 聚类分析和判别分析 9. 主成分分析和因子分析 10. 时间序列分析. 分析技术. 分析前数据预处理. 1.1 数据的排序 1.2 数据的转置 1.3 数据的拆分 1.4 数据文件的合并 1.5 数据的选择 1.6 数据的加权 1.7 数据的转换. 样本描述性统计.

I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.

Download Presentation

数据统计与分析技术

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


7070720

数据统计与

数据统计与分析技术

1. 分析前数据预处理

2. 样本描述性统计

3. 平均数比较与T检验

4. 相关分析

5. 回归分析

6. 非参数检验

7. 方差分析

8. 聚类分析和判别分析

9. 主成分分析和因子分析

10. 时间序列分析

分析技术


7070720

分析前数据预处理

  • 1.1 数据的排序

  • 1.2 数据的转置

  • 1.3 数据的拆分

  • 1.4 数据文件的合并

  • 1.5 数据的选择

  • 1.6 数据的加权

  • 1.7 数据的转换


7070720

样本描述性统计

  • 2.1 基本数学模型

  • 2.2 频数分析过程

  • 2.3 数据描述过程

  • 2.4 数据探察过程

  • 2.5 列联表分析过程


7070720

平均数比较与T检验

  • 3.1 分组平均数的比较

  • 3.2 单一样本t检验

  • 3.3 独立样本t检验

  • 3.4 配对样本t检验


7070720

相关分析

  • 4.1 相关系数

  • 4.2 偏相关系数

  • 4.3 距离分析


7070720

回归分析

  • 5.1 线性回归

  • 5.2 曲线回归


7070720

非 参 数 检 验

  • 6.1 非参数检验概述

  • 6.2 单样本检验

  • 6.3 独立样本差异的显著性检验

  • 6.4 相关样本差异的显著性检验


7070720

方 差 分 析

  • 7.1 方差分析概述

  • 7.2 方差分析的基本步骤

  • 7.3 单因素方差分析

  • 7.4 多因素方差分析

  • 7.5 协方差分析


7070720

聚类分析和判别分析

  • 8.1 聚类分析和判别分析过程概述

  • 8.2 快速样本聚类过程

  • 8.3 分层聚类分析

  • 8.4 判别分析


7070720

主成分分析和因子分析

  • 9. 1 主成分分析

  • 9. 2 因子分析


7070720

时间序列分析

  • 10.1 指数平滑法

  • 10.2 季节分解法

  • 10.3 自回归法

  • 10.4 自回归综合移动平均模型


7070720

Bye

Bye


7070720

数据的排序

1. 在主菜单中单击Data菜单选项,打开该菜单条;

2.单击Sort Cases选项,打开对话框;

3. 在左边窗口选定变量名,再用箭头按钮, 将变量转到Sort by 窗口中;

4.在Sort Order方框中,选择排序方式。


7070720

数据的排序—对话框


7070720

数据的转置

1. 在主菜单中单击Data菜单选项,打开该菜单条;

2.单击Transpose选项,打开对话框;

3.在左边窗口选定变量名,再用箭头按钮,将变量转到Transpose窗口中;

4. 单击“OK”按钮,确认后,生成新的数据文件。


7070720

数据的转置—对话框


7070720

数据的拆分

1. 在主菜单中单击Data菜单选项,打开该菜单条;

2.单击Split File选项,打开对话框;

3.选择进行拆分的方式;

4.在左边窗口选定变量名,用中间箭头按钮,将变量转到Groups Based on窗口中;

5.注意拆分前的排序,选择两种方式。


7070720

数据的拆分—对话框


7070720

数据文件合并

  • 样本合并(横向拼接)

  • Data—Merge Files—Add Cases

2.变量合并(纵向拼接)

Data—Merge Files—Add Variable


7070720

数据的选择

1. 根据逻辑关系表达式选择数据

2.随机选取数据

3.在给定范围内选择数据

4.用过滤器变量选择数据


7070720

数据的加权

1.加权(Weight)是一种通过人为方法来调节样本或数据大小的方法,在资料输入、样本分析和科学评价中经常起到举足轻重的作用。

2.加权有两种情况:

对变量的值加权

对个案加权—对话框


7070720

数据的加权—对话框


7070720

数据的转换

1. 利用Compute功能选项转换数据

2. 利用Count功能选项转换数据

3. 利用Recode功能选项转换数据

4. 利用Automatic Recode功能选项转换数据

5. 利用随机数种子转换数据


7070720

基本数学模型

  • 描述集中趋势的统计量:

  • 算术平均数 调和平均数 几何平均数

  • 众数 中位数

  • 2.描述离散趋势的统计量

  • 极差 平均差 标准差(方差) 标准误

  • 3.描述分布特征的统计量

  • 偏度 峰度


7070720

算术平均数

算术平均数等于所有样本数据的总和除以数据个数。算术平均值是描述样本数据中心趋势最常用的统计量。

在分组条件下,其公式为:


7070720

标准差(方差)

标准差(σ)与方差(σ2)是反映数据离散趋势最常用的统计量。

在分组条件下,方差的公式为:

标准差是方差方差的算术平方根。


7070720

频数分析过程

该过程可计算数据资料的各种描述统计指标、给出变量简单频数分布表、绘制几种变量分布图。

操作

Analyze

→Descriptive Statistics

→Frequencies  出现对话框


7070720

频数分析过程—对话框

统计量选择对话框


7070720

数据描述过程

该过程计算数据资料的各种描述统计指标,但不给出分布图。

操作

Analyze

→Descriptive Statistics

→Descriptives出现对话框


7070720

数据描述过程—对话框

Options对话框


7070720

数据探察过程

探索性数据分析是指对数据的初步考察,由描述统计指标和直观的图形组成。包括检查数据错误、描述整体或分组数据的数量特征和分布特征,假设检验,奇异值辨认等。

操作

Analyze

→Descriptive Statistics

→Explore出现对话框


7070720

数据探察过程—对话框


7070720

列联表分析过程

列联表是按两个标志对一组观察值进行交叉分组所得到的频数分布表,表中列出同时联系于横行和纵行某特定标志名称的观察值数目,在表的右边栏列出各行频数的合计,在表的底行列出各列频数的合计,在两者交叉处,即表的右下角,列出频数总计。

Analyze

→Descriptive Statistics

→Crosstabs 出现对话框

操作


7070720

列联表分析过程—对话框


7070720

平均数分析

该过程主要用于分组计算各统计指标,也可以进行单因素随机设计方差分析和线性检验。

操作

Analyze

→Compare Means

→Means出现对话框


7070720

平均数分析—对话框

Options对话框


7070720

单一样本t检验

该过程用于检验样本平均数与总体平均数之间是否存在差异。

操作

Analyze

→Compare Means

→One –Sample T Test 出现对话框


7070720

单一样本t检验—对话框


7070720

独立样本t检验

该过程用于检验两个独立样本的平均数之间是否存在差异。

操作

Analyze

→Compare Means

→Independent-Sample T test 出现对话框


7070720

独立样本t检验—对话框


7070720

独立样本

独立样本(Independent Sample)是指两个样本彼此独立,没有任何关联。例如实验组与控制组、男生组与女生组、高收入组与低收入组、大学数学系与物理系等。但这里的独立样本是广义的独立,仅是指非关联变量。两独立的样本各接受相同的测量,研究者的兴趣在比较两批样本群在测量结果总体上是否存在差异。独立样本中,所有观测都是独立的,即具体个别样本的顺序可以变化的,与变量无关。


7070720

配对样本t检验

该过程用于检验两个配对样本的平均数之间是否存在差异。

操作

Analyze

→Compare Means

→Paired-Sample T test 出现对话框


7070720

配对样本t检验—对话框


7070720

配对样本

配对样本(Paired Sample)或相关样本(Correlated Sample),指两个样本的观测值之间彼此有关联,如同一批被试者接受两种实验条件,即同一批观测对象接受两种不同的测量。对于此类样本,研究者所感兴趣的是二次测量之间是否存在差异。如实验前和实验后的测量,即具体个别样本的顺序不可以变化的。


7070720

相关分析

相关分析是研究两变量之间的关系。相关模型包括皮尔逊(Pearson)、斯皮尔曼(Spearman)和肯特尔(Kendall)三种子模型。相关模型要求X、Y变量都是随机变量,并都呈正态分布。满足上述正态分布的定量数据可用Pearson相关模型。对于定序、计数数据、对于不满足正态分布的数据,则非参数检验模型,即Spearman和Kendall相关模型。


7070720

相关分析

相关过程调用:Analyze→Correlate→ Bivariate:


Pearson

Pearson相关模型

Pearson相关系数计算公式:

r是最常用的相关系数


7070720

偏相关系数

多个变量之间的相关关系是错综复杂的,任何两个变量之间都有简单相关关系,而这种相关关系中夹杂了其他变量所带来的影响。固定其他因素,而计算某两个因素之间的相关系数称为偏相关系数。


7070720

偏相关系数

相关过程调用:Analyze→Correlate→ Partial:


7070720

距离分析

对于更复杂数据资料之间的关系,可利用距离分析来进行研究。距离分析通过计算各样本点之间的距离,来观测样本之间的相似或不相似程度,从而可进一步进行聚类分析、因子分析和多维分析。


7070720

线性回归

一元线性回归

多元线性回归

可化为线性回归的非线性回归

多元回归的方法


7070720

线性回归

线性回归过程调用:Analyze→Regression→ Linear Regression


7070720

一元线性回归

x:可控制或可精确观测得到的数据的变量;

Y:与x具有相关关系的随机变量。

xi (i=1, 2, …, n)

yi (i=1, 2, …, n)

数据对(样本值):(xi, yi) i=1, 2, …, n

散点图(Scatter Graph)

假定Y与x具有线性相关关系:

(xi, yi)

其中,是数学期望为0的随机变量,假设满足正态分布,于是:


7070720

多元线性回归

x1, x2, …, xr:r个可控制或可精确观测得到的数据的变量;

Y:与x1, x2, …, xr具有相关关系的随机变量。

假定Y与x1, x2, …, xr具有线性相关关系:

其中,是数学期望为0的随机误差,且满足正态分布。

对于n组样本观察值(n>r):

xi1, xi2, …, xir (i=1, 2, …, n) yi (i=1, 2, …, n)

多元线性回归模型为:

其中,i互不相关。


7070720

多元线性回归方法

  • Enter (全回归法)

  • Stepwise (逐步回归法)

  • Remove(剔除法)

  • Backward(向后回归法)

  • Forward(向前回归法)


7070720

逐步回归的基本步骤

引入自变量的显著性水平1

剔除自变量的显著性水平2

对不在方程中的

自变量能否引入?

引入自变量

筛选结束

对已在方程中的

自变量能否剔除?

剔除自变量


7070720

可化为线性回归的非线性回归

方法:变量替换

1. 双曲线型


7070720

可化为线性回归的非线性回归

2. 指数曲线型

若a>0,则令v=lny,得到:

若a<0,则令v=ln(-y),得到:

3. 幂函数型

若a>0,则令v=lny,u=lnx,得到(a<0情况类推):


7070720

可化为线性回归的非线性回归

4. 对数曲线型

令u=logx,得到:

令v=logy,得到:

令u=logx, v=logy,得到:


7070720

可化为线性回归的非线性回归

5. S曲线型

令:

得到:


7070720

曲线回归

客观实现中各因素之间呈现线性关系的现象并不很多,更多的是呈现曲线关系,这时应采用非线性回归分析。非线性回归模型包括两种形式:一是可线性化的,如二次曲线模型、对数模型等;一是不可线性化的,如逻辑曲线模型。

SPSS提供了拟合各种常用曲线模型的功能。


7070720

曲线回归

线性回归过程调用:Analyze→Regression→ Curve Estimation


7070720

非参数检验概述

非参数检验的着眼点不是总体参数,而是总体的分布情况,即研究目标总体的分布是否与已知理论分布相同,或者各样本所在总体的分布位置,形状是否相同。由于这一类方法并不涉及总体参数,因而被称为非参数方法。


7070720

非参数检验概述

Nonparametric Tests 菜单提供八种非参数检验的分析方法,分为两类:

1. 分布类型检验方法Chi-Square过程;检验二项分类变量分布的Binomial过程;检验样本序列随机性的Runs过程及检验样本是否服从各种常用分布的l-Sample K-S过程。

2. 分布位置检验方法独立样本分布位置检验的2 、K Independent Samples过程;相关样本分布位置检验的2、 K Related Samples过程。


7070720

单样本检验

1. 卡方检验(Chi-Square)

2. 二项分布检验(Binomial)

3. 游程检验(Runs)

4. 单样本K-S检验(1-Sample K-S)


7070720

卡方检验

卡方检验属于拟合优度型检验,适用于具有明显分类特征的某种数据,用来检验属于某一类别的对象的个数与根据零假设所得期望数目之间是否有显著差异,进行检验时,需要构造统计量:


7070720

二项分布检验

二项检验属于拟合优度检验,适用于数据只能划分为两类的总体。二项检验是检验是否认为从样本中观察到的两类比例来自具有指定P的总体。


7070720

游程检验

游程检验有游程最大长度检验和游程总个数检验两种检验方法,SPSS采用的是游程总个数检验方法,用该法可以检验一组样本数据是否来自同一总体(或差异不明显服从同一分布),即考察按随机顺序得到的一组样本的观测值是否表现出足够的随机性。


7070720

单样本K-S检验

K-S检验是一种拟合优度检验,研究的是样本观察值的分布和设定的理论分布间符合程度的问题,通过对两个分布差异的分析确定是否有理由认为样本的观察结果来自所设定的理论分布总体。单样本K-S检验中的理论分布可为正态分布、均匀分布、泊松分布、指数分布。


7070720

独立样本差异的显著性检验

SPSS提供了检验两个或多个独立样本所属的总体分布位置/形状是否相同的功能,具体说,2 Independent Samples 过程提供了四种检验两个独立样本所属总体分布是否相同的方法,K Independent Samples 过程提供了两种检验多个独立样本所属总体分布是否相同的方法。


2 independent samples

2 Independent Samples 过程—四种检验


K independent samples

K Independent Samples 过程—两种检验


7070720

相关样本差异的显著性检验

SPSS提供了检验两个或多个相关样本所属的总体分布位置/形状是否相同的功能,具体说,2 Related Samples 过程提供了三种检验两个相关样本所属总体分布是否相同的方法,K Related Samples 过程提供了两种检验多个相关样本所属总体分布是否相同的方法。


2 related samples

2 Related Samples 过程—三种检验


K related samples

K Related Samples 过程—两种检验


7070720

方差分析

(Analysis of Variance,简称ANOVA)

如果要检验两个总体的均值是否相等,我们可以用t检验。当要检验多个总体的均值是否相等,则需要采用方差分析。

方差分析是通过对误差的分析研究来判断多个正态总体均值是否相等的一种统计方法。其优点是实用、有效,可以节省时间。


7070720

方差分析

方差分析的三个条件

(1)被检验的各总体均服从正态分布;

(2)各总体的方差皆相等;

(3)从每一个总体中所抽出的样本是   随机且独立的。


7070720

方差分析

方差分析的分类

方差分析按所涉及因素的多少可分为:

单因素方差分析

双因素方差分析

多因素方差分析


7070720

方差分析的基本步骤

(1)将各不同水平间的总离差分成两个部分

组间差异 和 组内差异

(2)构造检验统计量

F= MSR / MSE

(3)判断

在零假设为真时,F~F[(k-l),(n-k)]的F分布。

若各样本平均数的差异很大,则分子组间差异会随之变大,而F值也随之变大,故F检验是右尾检验。

当检验统计量F大于临界值时则拒绝原假设。


7070720

单因素方差分析

单因素方差分析只考虑单个因素对观察值是否有影响,比较因素各个水平下的均值是否相等。相应的原假设H0:各组均值无显著性差异(在不同因素水平下);备择假设H1:各组均值不全相等。

SPSS实现的方法有两种:方法一方法二


7070720

方法一

单因素方差分析过程调用:

Analyze→Compare Means→One-Way ANOVA


7070720

方法二

单因素方差分析过程调用:

Analyze→General Linear Model→Univariate

Univariate 对话框


7070720

多因素方差分析

多因素方差分析指研究影响因素为两个或两个以上时,因素对因变量的影响是否显著。

另外,分析时还需要考虑影响因素之间是否有交互作用。


7070720

多因素方差分析

多因素方差分析过程调用:

Analyze→General Linear Model→Univariate


7070720

协方差分析因素

当因变量是定量的,自变量中既有定性也有定量变量时,则常选用介于方差分析和线性回归分析之间的方法—协方差分析。

在协方差分析中,选为定量变量的自变量称为协变量,并要求协变量间相互独立,与定性因素间无交互作用。


7070720

协方差分析因素

协方差分析过程调用:

Analyze→General Linear Model→Univariate


7070720

聚类分析和判别分析过程概述

聚类分析是研究物以类聚问题的一种有效方法,它将一批样本数据按照其性质上的相近程度,在没有先验知识的情况下客观进行分类,该方法被视为是一种探索性的分析方法。 判别分析是一种有效的分类方法,分析时各类的特征是事先已知,即根据判别,将新样本划分到不同的组中去。分类形成后相同的类就是一个具有相近个体的集合,不同类之间具有明显的区别。


7070720

聚类分析和判别分析过程概述

SPSS的Classify菜单共包括三个主要过程:

1)快速聚类(K-Means Cluster)是非系统聚类法中最常用的K-均值聚类法,只能用于对样本的快速聚类。

2)分层聚类(Hierarchical Cluster)提供了全面而强大的聚类分析功能,可以对多种数据类型进行样本或变量的聚类分析。

3)判别分析(Discriminant)提供了全面的判别分析功能。


7070720

快速样本聚类过程

快速样本聚类(Quick C1uster),也称逐步聚类或动态聚类,其基本思想是:开始按照一定方法选取一批凝聚点(聚心),其次让样本向最近的聚心凝聚形成初始分类,然后按最近距离原则修改不合理的分类,直到合理为止。

该方法适合于大样本的Q型聚类分析。根据经验,若样本容量大于100,则可以考虑使用这种方法。


7070720

快速样本聚类过程—界面


7070720

快速样本聚类过程—结果

聚类成员表


7070720

分层聚类分析

分层聚类分析(Hierarchical Cluster Analysis),也叫系统聚类分析,是聚类分析中应用最广泛的一种方法。其聚类过程是:开始把参与聚类的每个样本(或变量)各视为一类,然后根据两类之间的距离或相似性逐步合并,直到所有的样本(或变量)合并为一个大类为止。


7070720

分层聚类分析—界面


7070720

分层聚类分析—结果1

聚类分析垂直冰柱图


7070720

分层聚类分析—结果2

聚类分析树形图


7070720

判别分析

判别分析在分析之前就应该明确所研究的变量共有几个类别,该分析方法的目的就是从现有已知类别的样本数据中,利用某种技术建立起一个判别函数,以后再有未知类别的数据进入,就利用建立的函数来判断其类别。


7070720

判别分析—步骤

(1)选择自变量及组变量,并计算各组单变量描述统计量,对判别分析所要求的前提假定进行统计检验。

(2)推导判别系数,给出标准化或末标准化的典则判别函数系数,并对函数显著性进行检验;

(3)建立Fisher线性判别模型,根据Bayes规则或Fisher规则进行判别分组;

(4)进行样本回判分析,分析判别函数的结果;

(5)输出结果,结合研究对象的实际情况分析输出结果,作出结论。


7070720

判别分析—界面


7070720

判别分析—结果

dis_1: 将所有变量都加入进行分析

dis_2: 用逐步选择判别进行分析


7070720

主成分分析

主成分分析从解释变量的方差出发,假设变量的方差能完全被主成分所解释;而因子模型是从解释变量之间的相关关系出发,假设观察变量之间的相关能完全被公因子解释。 主成分分析法是一种实用的多元统计分析方法,它能够将大量、繁复的原始指标、数据简化为少量的综合指标,同时使这少量指标尽可能地包合原指标群中的信息资料。这些综合指标能够更好地反映各样本之间的主要差别,而且在统计意义上是相互独立。


7070720

主成分分析

主成分分析过程调用:

Analyze→Data Reduction→Factor


7070720

因子分析

因子分析的基本思想是将实测的多个指标,用少数几个潜在的指标(因子)的线性组合来表示,因子分析的主要应用有两个方面,一是寻求基本结构,简化观测系统,即构造一个因子模型,确定模型中的参数,然后根据分析结果进行因子解释;;二是对变量或样本进行分类,对公共因子进行估计,并作进一步分析。


7070720

因子分析

因子分析过程调用:

Analyze→Data Reduction→Factor


7070720

指数平滑法

指数平滑法是统计预测中广泛使用的一种方法,源于移动平均法。所谓移动平均就是从一个时间数列中任取连续的n项数值,求其平均数,再逐项向前推进,从而得到一个新的数列。由于移动平均法给出了比较稳定的发展变化趋势,所以往往用它作预测。

其基本预测公式是:


7070720

指数平滑法

指数平滑过程调用:

Analyze→Time Series→Exponential Smoothing

平滑后,会在数据窗口产生一列fit值和一列err值


7070720

季节分解法

时间序列(Y)可分解成长期变化趋势(T)、季节变化趋势(S)、周期变化趋势(C)和不规则变动(I)四种因素的函数。

人们把四者的关系构造为加法模型和乘法模型,乘法模型更常用。


7070720

季节分解法

季节分解过程调用:

Analyze→Time Series→Seasonal Decomposition

在结果窗生成季节比率


7070720

自回归法

时间数列自身相关理论认为,现象之间的相互联系也表现在动态方面,即随着时间的不同,变量之间也表现出一定的依赖性和规律性。这种变量值自身随着时间不同,其值在前后期之间表现出一定的依存关系称做时间数列的自身相关。研究这种相关关系对于分析社会经济现象发展的规律和进行经济预测,都有重要的意义。


7070720

自回归法

自回归分析过程调用:

Analyze→Time Series→Autoregression


7070720

自回归综合移动平均模型

ARIMA是结合移动平均的自回归模型(Autoregressive Integrated Moving Average models),也被称为Box-Jenkins模型,它常用以估计存在季节变化、或无季节变化平稳性的单因素模型。


7070720

自回归综合移动平均模型

自合格证综合移动平均模型分析过程调用:

Analyze →Time Series→ARIMA


  • Login