第七讲描述性统计分析

第七讲描述性统计分析 • 描述性统计量概述 • 描述性统计分析 • 推断性统计基础回顾 • 推断性统计基础分析 • 缺省值和无穷值

一描述性统计量概述 • 变量和个体 • 样本均值和方差 • 偏度和峰度 • 次序统计量与样本分位数 • 相关系数与相关系数阵

1.1 变量和个体 • 概念：我们关心的是总体中每个个体的一组变量（或指标）从该总体做按照某种方式随机地抽出n个个体进行观测，所得的观察结果记录为： • 其中每一行对应一个个体各个变量的观察结果，每一列为不同个体同一变量的观察结果。变量可以是数值型的，也可以是字符型的或名义型的。

1.2 样本均值和方差 • 概念：若，，…，为一容量为n的单指标样本观察值。样本均值(mean)就是，，…，的平均值，它反映分布集中趋势的特征。表达式为： • 样本方差(variance)是描述样本取值分散化程度的一个度量，它是样本值相对于均值的偏差平方的平均 • 采用n-1平均是为了保证方差估计的无偏性。样本方差的开方称为样本标准差(std deviation)，即 • 样本标准差=s=

1.3 偏度和峰度 • 概念： • 偏度= 注：偏度是反映样本分布偏离对称的程度指标。样本的分布有对称分布和非对称分布，非对称分布包括不同程度的左偏态分布和右偏态分布。关于均值对称的数据其偏度为0，右侧更分散的数据偏度为正，反之则偏度为负。 • 峰度= 注：峰度是以同方差的正态分布为标准，比较两侧极端数据分布情况的指标。若两侧极端数据较多，峰度为正，反之则峰度为负。正态分布的峰度为0。样本的偏度和峰度分别是总体的偏度和峰度的估计量。

1.4 次序统计量与样本分位数 • 概念： • 次序统计量(order statistics) ：将样本按数值由小至大排序得到的统计量注：次序统计量反映了样本分布在秩方面的信息。 • 极值 • 极差（Range）：极大值和极小值之差：极差= 注：同方差一样，极差也是描述样本数据离散程度的一个统计量。

中位数(median)： 注：与均值相似，中位数也是描述样本数据中心位置的统计量。数据中大于和小于中位数的样本个数是一样的，大体上各占总样本一半。中位数的一个优点是它不受异常值的影响，具有稳健性。 • p－分位数:(p-quantile) 注：其中表示取整。分位数是描述样本分布和位置的统计量。0.5分位数就是中位数，0.75分位数和0.25分位数又分别称为上、下四分位数（upper，lower- quantile）。上下分位数之差称为四分位极差或半极差。

1.5 相关系数与相关系数阵 • 相关系数： • 相关系数阵：注：分别为变量和的样本观测值的均值。

二描述性统计分析 • 用菜单计算描述性统计量演示一：计算ozone.data中rad变量的描述性统计量演示二：分组temp变量 计算rad的描述性统计量演示三：求ozone.data中的四变量的相关阵 • 用S语言计算描述性统计量

2.1 用菜单计算描述性统计量 • 演示一：计算ozone.data中rad变量的描述性统计量 • 步骤： • StatisticsData SummariesSummary Statistics， • 在变量表中rad处点击鼠标，选中 rad变量（要同时对数据集中的多个变量进行描述性统计，只需同时选中所有需要分析的变量）， • 点击Statistics，在弹出的新窗口中选择需要输出的统计量（点击前面的小方框，每次点击方框都会改变其状态，由打勾变为不打勾或由不打勾变为打勾）.

演示二：分组temp变量 计算rad的描述性统计量 • 步骤： • StatisticsData SummariesSummary Statistics， • 在变量表中rad处点击鼠标，使rad变亮（选中）， • 在Group Variables中点击temp，使其变亮（选中）， • 点击Statistics，弹出新的窗口，选择需要输出的结果

演示三：求ozone.data中的四变量的相关阵 • 步骤： • 将光标移至数据表表头，按住Ctrl键，同时选择rad、temp、wind和ozone四个变量， • 依次点击StatisticsData SummariesCorrelations， • 在Type选项中可以分别选择Correlations(或Covariances)，

2.2 用S语言计算描述性统计量 • 函数： • summary( ) : 计算变量的常用描述性统计量 • stem( )：画出变量的茎叶图 • quantile( )：求出变量的分位数 • var/stdev/median/mean/sum：计算常见统计量 • tapply( )：按照其他变量分类拆分数据进行计算 • by( )：拆分数据集，进而分析 • 例子： P105-110

三假设检验回顾 • 步骤： • 根据问题确立原假设和备择假设； • 确定一个显著水平，用来限制犯第一类错误的概率； • 决定合适的检验统计量，根据样本来计算统计量的值并和衡量结果极端性的p值； • 比较值和作出判断。注：原假设成立时拒绝原假设（第一类错误）和原假设不成立时接受原假设（第二类错误）。这两类错误是互相矛盾的，减小其中一个必定增加另一个，所以在实际中一般预先限定发生第一类错误发生的概率（）而尽可能地减少第二错误发生的概率。取值越小，对原假设的保护程度就越高。

总体均值的检验 条件检验条件量 H0、H1 拒绝域 (1) H0：μ=μ0 H1：μ≠μ0 z 正态总体σ2已知 (2) H0：μ≤μ0 H1：μ＞μ0 z 0 (3) H0：μ≥μ0 H1：μ＜μ z 0

总体均值的检验 条件检验条件量 H0、H1 拒绝域 (1) H0：μ=μ0 H1：μ≠μ0 t 0 正态总体σ2未知(n＜30) (2) H0：μ≤μ0 H1：μ＞μ0 t 0 (3) H0：μ≥μ0 H1：μ＜μ t 0

总体均值的检验 条件检验条件量 H0、H1 拒绝域 (1) H0：μ=μ0 H1：μ≠μ0 z 0 非正态总体n≥30 σ2已知或未知 (2) H0：μ≤μ0 H1：μ＞μ0 z 0 (3) H0：μ≥μ0 H1：μ＜μ z 0

两个总体均值之差的检验 条件检验条件量 H0、H1 拒绝域 (1) H0： μ1=μ2 H1: μ1 ≠ μ2 z 两个正态总体 0 (2) H0：μ1 ≤ μ2 H1: μ1＞ μ2 z 已知 0 (3) H0： μ1 ≥ μ2 H1：μ1＜ μ2 z 0

两个总体均值之差的检验 条件检验条件量 H0、H1 拒绝域两个非正态体n1≥30 n2≥30 (1) H0：μ1 = μ2 H1：μ1 ≠ μ2 z 0 (2) H0：μ1 ≤ μ2 H1：μ1＞ μ2 z 已知或未知 0 (3) H0：μ1 ≥ μ2 H1：μ1＜ μ2 z 0

4.1 用菜单做统计推断 • 演示：验证变量temp的均值与78度是否有显著差异 • 步骤： • StatisticsCompare SamplesOne Sample t Test • 在变量列表中选择变量temp， • 在Mean Under Null Hypothesis中用键盘输入数字78， • 在Confidence Level中选择置信水平的数值，默认值为0.95, • 在Alternative Hypothesis中选择假设检验，默认值为“two.sided”, 注：由于该变量的方差未知，我们采用检验法

One-sample t-Test data： temp in ozone.data t = -0.2291， df = 110， p-value = 0.8192 alternative hypothesis： mean is not equal to 78 95 percent confidence interval： 76.00020 79.58539 sample estimates： mean of x 77.79279 分析： p>0.05，应该接受原假设，即temp的均值为78，同时附带给出的结果还有置信区间。图单样本t检验对话框

假设检验函数

4.2 用S语言作统计推断 • 与分布相关的函数及其代号 • dnorm表示正态密度函数 • pnorm表示正态累积概率密度函数 • qnorm表示正态分位数函数（即正态累积概率密度函数的逆函数） • rnorm表示正态随机数生成函数。

常见的分布函数（一）

常见的分布函数（二）

例一：验证temp变量是否服从正态分布 • QQ图是用来判别一组样本是否服从某个分布的常用工具 • >plot(qnorm(ppoints(temp))，sort(temp)) • >qqline(temp) 图 temp变量的QQ图 • 从图上可以看出temp变量分布用正态分布去拟合基本合理。

例二：产生混合正态分布随机数 >rnorm(50，0，(1+2*rbinom(50，1，0.05))) 注：这50个数便服从混合正态分布（0.95×N(0，1)+0.05×N(0，9)）注：随机数生成函数产生的数子只是伪随机数，并不是真正随机的，一般在调用“r” 函数前需要用set.seed(n)设置种子数。

例三：作出标准正态分布密度函数图 >x<-seq(-5，5，by=0.01) 注：做密度函数图形常用d函数 >y<-dnorm(x) >plot(x，y，type="l"，xlab=""，ylab="Density value"， main=paste("Density of the standard normaldistribution"， sep="")) 标准正态分布密度函数图

例四：检验temp变量均值是否等于78 分析：我们并不知道temp变量的方差，所以不得不用样本标准差s来代替，采用t检验，同时选取置信水平为0.95 >attach(ozone.data) >t.test(temp，mu=78，conf.level=0.95) One-sample t-Test data： temp t = -0.2291， df = 110， p-value = 0.8192 alternative hypothesis： mean is not equal to 78 95 percent confidence interval： 76.00020 79.58539 sample estimates： mean of x 77.79279 将上面结果与点击菜单作出的结果比较后发现两者是一模一样的。根据输出的结果，我们接受原假设，这仅仅说明78与真正的均值相差还不是太远，并不是说总体均值就是78。

例五：卡方拟和优度检验temp变量是否服从正态分布例五：卡方拟和优度检验temp变量是否服从正态分布 • 分析：利用chisq.gof()函数做一次非参数拟合优度检验，以检验“temp的分布为正态”的假设。 >chisq.gof(temp，distribution="normal") Chi-square Goodness of Fit Test data： temp Chi-square = 1443， df = 13， p-value = 0 alternative hypothesis： True cdf does not equal the normal Distn. for at least one sample point. 注：结果拒绝了原假设，所以用正态分布去拟合temp变量是有一定问题的，正如在作QQ图时提到的一样，temp变量的分布具有明显地厚尾性

例六：Kolmogorov-Smirnov拟和优度检验 分析：正态分布是不能处理厚尾性的。其实在作统计检验时，通常可以根据需要选择不同的检验统计量，比如在做分布的假设检验时，chisq.gof()可以由ks.gof()替代，相应的检验称为Kolmogorov-Smirnov检验，也是一种非参数的分布检验方法 >ks.gof(temp，y=NULL，distribution=”normal”) One sample Kolmogorov-Smirnov Test of Composite Normality data： temp ks = 0.0912， p-value = 0.0238 alternative hypothesis： True cdf is not the normal distn. with estimated parameters sample estimates： mean of x standard deviation of x 77.79279 9.529969 注：该检验同样拒绝了原假设。

五缺省值和无穷值 • 缺省值问题情况： • 在一次调查城市居民生活质量的活动中，被调查对象可能拒绝回答一部分问题，这就产生了缺省值 • 一些没有意义的计算也可以产生缺省值，比如求一个负数的对数值、0/0等处理： • S-PLUS将缺省值设定为NA(Not Available的简称)，而不管数值的类型。并且NA可以出现在数据文件或命令操作的过程中。一旦碰到NA，系统可自动识别该数据为缺省值。 • 判定一个值是否为缺省值可用is.na()函数方法： • 将所有非缺省值的x抽出来 >x.no.na<-x[!is.na(x)] • 在函数（如mean和median）中设置参数选项na.rm=T，其默认参数为na.rm=F，即在计算（均值和中位数）前将缺省值排除。象var()需要将默认项改为na.method=“omit”

五缺省值和无穷值 • 无穷值问题情况： • 一般无穷值是由于不恰当的运算造成的，比如：零除一个非零数就是无穷大，但由于被除数是带有符号的，所以无穷大又分为正无穷和负无穷。处理： • S-PLUS用inf代表无穷大 • 判定一个值是否为无穷值可用is.inf()函数方法： • 用is.finite()检验一个值是否为有限值 • 可以使用wichi.na( )/which.inf( )函数来确定向量中的NA或inf的位置 >x<-(-1：1)/0 >which.na(x) >which.inf(x)

第五次作业（4.3-4.13) • Generate 100 and 1000 random numbers, both samples from a normal distribution with mean value 3 and variance 5. Draw histograms with bandwidth 0.5, 1, and 2 for each of the two samples. Remember that all figures have exactly the same underlying distribution . Plot them all in a single graphics window and label them accordingly. What is visible? • 画出自由度为4,6,8,10,20,30的t分布密度函数图形并在一张图上和标准正态分布密度函数图形作比较，你能得出什么结论？

第七讲 描述性统计分析