第二章 SAS 的描述统计功能

第二章SAS的描述统计功能 • 2.1 描述性统计的基本概念 • 2.2 在SAS中计算统计量 • 2.3 统计图形

2.1 描述性统计的基本概念 • 2.1.1 统计学的基本概念 • 2.1.2 表示数据位置的统计量 • 2.1.3 表示数据分散程度的统计量 • 2.1.4 表示数据分布形状的统计量 • 2.1.5 其它统计量

2.1.1 统计学的基本概念 • 1. 总体与样本 • 总体(population)：总体是指所研究对象的全体组成的集合。 • 样本(sample)：样本是指从总体中抽取的部分对象（个体）组成的集合。样本中包含个体的个数称为样本容量。容量为n的样本常用n个随机变量X1，X2，…，Xn表示，其观测值（样本数据）则表示为x1，...，xn，为简单起见，有时不加区别。

2. 参数与统计量 • 参数(parameter)：参数是用来描述总体特征的概括性值。如总体平均值（μ）、总体方差（2）、总体比例（π）等。 • 统计量(statistics)：统计量是用来描述样本特征的概括性值。如样本均值（）、样本方差（s2）、样本比例（P）等。

2.1.2 表示数据位置的统计量 • 如果要用简单的数字来概括一组观测数据x1，...，xn，可以使用“位置统计量”来作为数据的总体代表，常见的位置统计量有：均值、中位数、分位数、众数等。 • 1. 均值（Mean） • 均值是所有观测值的平均值，是描述数据取值中心位置的一个度量：

2. 中位数（Median或Med） • 中位数是描述观测值数据中心位置的统计量，大体上比中位数大（小）的数据为观测值的一半。中位数的一个优点是它不受个别极端数据的影响，具有稳健性。中位数的计算方法是：首先将数据从小到大排序为：x(1)，...，x(n)，然后计算

3. 众数（Mode） • 观测值中出现最多的数称为众数。众数用得不如均值和中位数普遍。在属性变量分析中，常需考虑频数，因此众数用得多些。 • 4. 百分位数（Percentile） • 分位数也是描述数据分布和位置的统计量。0.5分位数就是中位数，0.75分位数和0.25分位数又分别称为上、下四分位数，并分别记为Q3和Q1。

2.1.3 表示数据分散程度的统计量 • 1. 极差（Range）与半极差（Interquartile range） • 极差就是数据中的最大值和最小值之间的差： • 极差 = max{xi} – min{xi} • 上、下四分位数之差Q3 – Q1称为四分位极差或半极差，它描述了中间半数观测值的散布情况。 • 2. 方差（Variance或Var） • 方差是由各观测值到均值距离的平方和除以观测量减1：

3. 标准差（Standard deviation或Std Dev） • 方差的开方称为标准差： • 标准差的量纲与原变量一致。 • 4. 变异系数（Coefficient of Variation或CV） • 变异系数是将标准差表示为均值的百分数，是观测数据分散性的一个度量，它在比较用不同单位测量的数据的分散性时是有用的：

2.1.4 表示数据分布形状的统计量 • 偏度和峰度是描述数据分布形状的指标。 • 1. 偏度（skewness） • 偏度是刻画数据对称性的指标。偏度的计算公式为： • 在SAS中： • ● 关于均值对称的数据其偏度为0； • ● 左侧更为分散的数据，其偏度为负，称为左偏； • ● 右侧更为分散的数据，其偏度为正，称为右偏。

2. 峰度（kurtosis） • 峰度描述数据向分布尾端散布的趋势。峰度的计算公式为： • 利用峰度研究数据分布的形状是以正态分布为标准（假定正态分布的方差与所研究分布的方差相等）比较两端极端数据的分布情况，若 • ● 近似于标准正态分布，则峰度接近于零； • ● 尾部较正态分布更分散，则峰度为正，称为轻尾； • ● 尾部较正态分布更集中，则峰度为负，称为厚尾。

2.1.5 其它统计量 • 1. 均值的标准误（Std Error Mean或Std Mean或Std error） • 2. 校正平方和（Corrected sum of squares）

3. 未校正平方和（Uncorrected sum of squares） • 4. k阶原点矩 • 其中A1即为均值。 • 5. k阶中心矩

2.2 在SAS中计算统计量 • 2.2.1 用INSIGHT计算统计量 • 2.2.2 用“分析家”计算统计量 • 2.2.3 编程实现描述性统计

2.2.1 用INSIGHT计算统计量 • INSIGHT可以非常方便地计算各种统计量。 • 1. 实例数据 • 【例2-1】表2-1为两个不同地区居民家庭收入和支出情况的抽样调查（单位：元），试分别统计收入和支出情况。 • 将表2-1中数据通过Excel导入到SAS数据集Mylib.sryzc中，4个变量名分别为：ID、R_ID、Income和Outgo，相应的标签名为家庭编号、地区编号、家庭总收入和家庭总支出。

2. 在INSIGHT中打开数据集 • 在菜单中选择“Solution（解决方案）”→“Analysis（分析）”→“Interactive Data Analysis（交互式数据分析）”，打开“SAS/INSIGHT Open”对话框，在对话框中选择数据集：Mylib.sryzc，单击“Open（打开）”按钮，即可在INSIGHT中打开数据窗口，如图所示。

3. 计算统计量 • 选择菜单“Analyze（分析）”→“Distribution (Y)（分布）”，打开“Distribution (Y)”对话框。在数据集sryzc的变量列表中，选择Income为分析变量，选择R_Id，为分组变量。 • 单击“Output（输出）”按钮，在打开的对话框中包含描述性统计量选项。

选择选项矩统计量和分位数，取消默认的选项：“Box Plot/Mosaic Plot”和“Histogram/Bar Chart”，单击“OK”按钮，即可得到变量Income按“R_Id”分组的各种矩统计量（Moments）和分位数（Quantiles），如图所示。

2.2.2 用“分析家”计算统计量 • 1. 启动“分析家” • 选择主菜单“Solutions（解决方案）”→“Analysis（分析）”→“Analyst（分析家）”，打开“分析家”窗口。 • 选择主菜单“File（文件）”→“Open By SAS Name”，打开“Select A Member”对话框，选择数据集Mylib.sryzc。

2. 通过Summary Statistics菜单计算描述性统计量 • 选择主菜单“Statistics（统计）”→“Descriptive（描述性统计）”→“Summary Statistics（汇总统计量）”，打开“Summary Statistics”对话框，选择变量列表中的Income，单击“Analysis”按钮，选定分析变量，如图所示。

单击“Statistics”按钮，打开“Summary Statistics：Statistics”对话框。对话框中列出可以计算的所有统计量（如右图所示）。 • 描述性统计量如下图所示。

3. 通过Distributions菜单计算描述性统计量 • 选择主菜单“Statistics（统计）”→“Descriptive（描述性统计）”→“Distributions（分布）”，打开“Distributions”对话框，选择变量列表中的Income，单击“Analysis”按钮，选定分析变量。 • 单击“OK”按钮，即可得到关于变量Income的矩统计量和基本统计测度

2.2.3 编程实现描述性统计 • SAS提供有多个不同的过程来实现统计量的计算，它们在功能范围上有许多的重复，下面介绍用FREQ、MEANS和UNIVARIATE这三个过程来计算简单的描述统计量。 • FREQ过程常用来计算分类变量取值的频数，而MEANS和UNIVARIATE过程则对数值型变量计算均值、标准差等统计量。

1. FREQ过程 • FREQ过程包括多个控制频数输出与检验的语句和选项，格式如下： • PROC FREQ DATA = <数据集>; • [TABLES <变量1> <变量2> …;] • [FORMAT <变量1> <输出格式1>. <变量2> <输出格式2>. …;] • RUN; • 其中PROC FREQ语句调用FREQ过程，标志FREQ过程的开始； • TABLES语句用于创建有关变量所构成的各种表格并进行相应的假设检验和计算，可以多次使用。

例如，统计数据集Mylib.sryzc中变量R_Id和Income频数的代码如下：例如，统计数据集Mylib.sryzc中变量R_Id和Income频数的代码如下： • proc freq data = mylib.sryzc; • tables R_Id Income; • RUN; • 显示结果如图所示。

2. MEANS过程 • (1) 语法格式 • MEANS过程的一般格式： • PROC MEANS DATA=<数据集名>[<统计量关键字列表>]； • [VAR <分析变量列表>；] • [BY <分组变量名>；] • [CLASS <分组变量名>；] • RUN；

PROC MEANS语句后的选项主要用来指定所要计算的统计量，默认情况下，MEANS过程会给出频数、均数、标准差、最大值和最小值等，其余统计量的计算均需要在选项中指定。 • VAR语句引导所要进行分析的所有变量的列表，SAS将对VAR语句所引导的所有变量分别进行描述性统计分析。 • BY语句与CLASS语句所指定的分类变量用来进行分组统计，但输出格式不同。

如对数据集Mylib.sryzc中的Income变量计算简单统计量，只要用如下MEANS过程：如对数据集Mylib.sryzc中的Income变量计算简单统计量，只要用如下MEANS过程： • proc means data = mylib.sryzc; • var Income; • run; • 结果如图2-15所示。

(2) 使用统计量关键字列表 • 在PROC MEANS语句中使用统计量关键字列表： • proc means data = mylib.sryzc n mean median p1 p5 p95 p99 q1 q3 max min; • var Income; • run; • 结果如图2-16所示。

可以计算的描述性统计量关键字及其含义见下表。可以计算的描述性统计量关键字及其含义见下表。

(3) 使用CLASS语句和BY语句 • 使用CLASS语句和BY语句可以分组计算分析变量的描述统计量值，由CLASS语句和BY语句指定的变量在分析中起分组（类）的作用，被称为分类变量。两个语句的区别是： • ● 使用BY语句时要求数据集须按BY变量排序，使用CLASS语句无此要求。 • ● 使用BY语句时输出按BY变量的每个值分别提供一个表，使用CLASS语句则将所有结果排列在一个表之中。

使用BY语句之前先排序，如下代码可以在上例中按变量R_Id分组统计：使用BY语句之前先排序，如下代码可以在上例中按变量R_Id分组统计： • proc sort data = mylib.sryzc; • by R_Id; • run; • proc means data = mylib.sryzc n mean median p1 p5 p95 p99 q1 q3 max min; • var Income; • by R_Id; • run;

使用CLASS语句分组较为简单，如下代码也可以在上例中按变量R_Id分组统计：使用CLASS语句分组较为简单，如下代码也可以在上例中按变量R_Id分组统计： • proc means data = mylib.sryzc n mean median p1 p5 p95 p99 q1 q3 max min; • var Income; • class R_Id; • RUN;

3. UNIVARIATE过程 • UNIVARIATE过程的一般格式为： • PROC UNIVARIATE DATA = <数据集名> [<统计量关键字列表>]； • [VAR <分析变量列表>;] • [BY | CLASS <分组变量名>;] • [HISTOGRAM <变量名称>/<选项列表>;] • [OUTPUT OUT = <数据集名> <统计量关键字> = <自定义变量名>;] • RUN；

UNIVARIATE过程和MEANS过程的格式非常相似，相同的语句和选项其含义也相同，所不同的是某些统计量只能在UNIVARIATE过程中计算（如众数），而且UNIVARIATE过程中具有绘图功能。 • 其中，HISTOGRAM语句用来指示SAS对其后所指定的变量绘制直方图，其后的选项用来指示SAS添加不同类型的拟合图形（如正态分布的分布密度曲线）。

输出包括五个部分。 • 第一部分是矩统计量，各统计量已在2.1.1中作了介绍。 • 第二部分为基本的位置和分散程度统计量，位置统计量包括均值、中位数、众数，分散程度统计量包括标准差、方差、极差、四分位间距 • 第三部分为关于均值等于零的三种检验的结果，包括t检验、符号检验和符号秩检验。 • 第四部分为各个重要的分位数。 • 第五部分是观测数据的五个最低值和五个最高值。

2.3 统计图形 • 2.3.1 定量变量的图形表示 • 2.3.2 分类变量的图形表示

2.3.1 定量变量的图形表示 • 1. 直方图 • 对于数值型变量，常用直方图（histogram）来展示变量取值的分布。将变量取值的范围分成若干区间，在等间隔区间的情况，每个区间的长度称为组距。考察数据落入每一区间的频数与频率，在每个区间上画一个矩形，它的宽度是组距，它的高度可以是频数、频率或密度（频率／组距），在高度是密度的情况，每一矩形的面积恰是数据落入区间的频率，这种直方图可以估计总体的概率密度。

图2-22 密度直方图与频数直方图 • SAS软件会根据样本容量在样本取值范围内自动地确定一个分组方式，另外也提供了设定分组的方法。

2. 盒形图 • 盒形图（boxplot，又称箱图、箱线图、盒子图）是用更为简洁的方法表现数据在数轴上的分布及其特点的图形。 • 图2-23的左边是根据居民家庭的收入情况所绘的盒形图；右边是分地区情况所绘的盒形图。

3. 散点图 • 通常得到的数据可能有两个变量，比如家庭的收入和支出情况的数据，这里家庭总收入是一个变量，而家庭总支出是第二个变量。希望通过图形了解收入和支出的关系，这时可以用一个变量为横坐标（如家庭总收入），另一个为纵坐标（这里是家庭总支出）来作图（图2-24）。这种图称为散点图(Scatter Plot)。

4. 线图 • 线图(Line Plot)用来表示变量间的取值变化情况，有单式和复式两种（图2-25）。 • 在复式线图中可用不同颜色的实线来标志区别，如图2-25右所示。

2.3.2 分类变量的图形表示 • 分类变量也可以通过图形直观地描绘出它们各类的数量和所占比例，常用的有条形图、饼图和马赛克图。 • 1. 条形图 • 条形图(Bar Chart)给出分类变量取每个值的频数，如图2-26所示为变量R_ID取值的条形图。

2. 饼图 • 通常，饼图(Pie Chart)可以对分类变量描述其频数取值的比例，对于数值变量，则像直方图那样应先计算各区间取值的频数，再按比例画出。 • 图2-27中给出的是家庭支出分组频数的饼图。要注意的是，如果有太多的分组，那么饼图就不那么好看了。

3. 马赛克图 • 马赛克图(Mosaic Plot)一般不对单个变量作，而是对两个分类变量来作。这种图的好处是直观显示了两个变量每种取值组合的观测个数和比例，如图2-28所示。

2.4 用SAS绘制统计图形 • 2.4.1 用INSIGHT绘制统计图形 • 2.4.2 用“分析家”绘制统计图形 • 2.4.3 编程绘制统计图 • 2.4.4 图形的调整与输出

2.4.1 用INSIGHT绘制统计图形 • INSIGHT模块可以画出多种统计图形，而且图形清晰、美观。 • 1. 绘制直方图 • 选择菜单“Analyze（分析）”→“Histogram/Bar Chart (Y)（直方图/条形图）”，打开“Histogram/Bar Chart (Y)”对话框。在数据集的变量列表中，选择变量，然后单击“Y”按钮。

单击“Output（输出）”按钮，在打开的对话框中选择“Labels（标签）”选项，如图所示，以便输出的图形显示中文标签名。单击“OK”按钮返回对话框。单击“Output（输出）”按钮，在打开的对话框中选择“Labels（标签）”选项，如图所示，以便输出的图形显示中文标签名。单击“OK”按钮返回对话框。

单击“OK”按钮，即可得到直方图如图2-30左所示。单击“OK”按钮，即可得到直方图如图2-30左所示。 • 单击图形框左下角处的三角形，在打开的菜单中选择“Values（值）”，即可在图中显示频数值，如图2-30右所示。

第二章 SAS 的描述统计功能

第二章 SAS 的描述统计功能

Presentation Transcript