第 10 章描述统计分析

第10章描述统计分析

本章主要内容 一、交叉表二、变量的集中趋势三、离中趋势五、时间序列

交叉列表分析

使用行和列的形式对比表示数据.定义见书P231 • 本产品中男性消费者的满意比率是多少？女性消费者满意的比率是多少呢？ • 有多少高收入消费者对新产品很熟悉呢？多少比较熟悉、知道一些或者不熟悉该品牌呢？

双变量的交叉表分析 • 市场调查或民意调查，经常利用交叉表来分析两个分类（定性）变量之间的关系，比如：性别与品牌偏好、教育程度（学历）与使用品牌、收入与是否有数码相机、性别与移动电话类型偏好、地区与移动电话类型偏好，等等。 • 交叉表经常用于市场研究，进行市场机会、市场细分分析等。

利用SPSS对两个定性变量进行交叉表分析 • 例10-1 分析不同性别（或种族、或居住地区）的美国人对生活方面（幸福感、生活是否充满激情）的认识情况。 • 这个问题可以分解为6个小问题： • （1）分析不同性别的美国人对幸福感的认识情况 • （2）分析不同种族的美国人对幸福感的认识情况 • （3）分析居住在不同地区的美国人对幸福感的认识情况 • （4）分析不同性别的美国人对生活是否充满激情的认识情况 • （5）分析不同种族的美国人对生活是否充满激情的认识情况 • （6）分析居住在不同地区的美国人对生活是否充满激情的认识情况

利用SPSS对两个定性变量进行交叉表分析 • 例10-1 分析不同性别（或种族、或居住地区）的美国人对生活方面（幸福感、生活是否充满激情）的认识情况。 • 1.用SPSS的Crosstabs求交叉表菜单“Analyze”->“Descriptive Statistics”->“Crosstabs” • 2.在Excel中修饰交叉表并绘制百分比堆积柱形图 • 3.在Word中撰写交叉表分析报告

10.1利用SPSS对两个定性变量进行交叉表分析 • “性别”与“幸福感”的交叉表

10.1利用SPSS对两个定性变量进行交叉表分析 • 男女对幸福感认识的百分比堆积柱形图

10.1利用SPSS对两个定性变量进行交叉表分析 • 在Word中撰写交叉表分析报告（男女对幸福感的认识情况） • 交叉表分析报告，一般包含表格、百分比堆积柱形图和结论（建议）。此次调查了1517名美国人，其中有13人对“幸福感”没有回答。关于不同性别的美国人对幸福感认识的交叉表和柱形图如表XX和图XX所示。此次调查的结果显示：受访者中，无论男女，认为“比较幸福”的居最多数（男59.1%，女57.2% ），认为“非常幸福”的人数居中（男32.5%，女30.0%）。此外，就相对程度来看，认为生活幸福（“比较幸福”和“非常幸福”的比例之和）的美国人中，男性比例明显超过女性（91.6% 对87.2%），可以看出女性的幸福感低于男性，而感觉“不太幸福”的女性的比例则高于男性。说明女性更渴望生活幸福。

频数表 • 频数：又称为“次数”，即分布在各组的数据个数。 • 频率：又称为“比重”，即各组频数与总频数的比值。 • 各组的频率之和=1或100%

频数分布和频数分布表 • 频数分布：又称为“次数分布”，即全部数据按其分组标志在各组内的分布状况。 • 频数分布表：是指按某种标志对数据进行分组后，再计算出所有类别或数据在各组中的频数和频率而形成的统计表格。 • 数据分组的过程，就是频数分布及频数分布表的形成过程。

描述统计分析 数据分布性质离中趋势集中趋势分布形态全距偏态算术平均数四分位距中位数峰度方差众数标准差

三、集中趋势指标 • 算术平均数 • 中位数 • 众数

平均数 • 平均数是将总体中所有个体的数量标志差异抽象化，用以反映现象在一定时间、地点条件下的一般水平或代表性水平. • 对象：个体单位的数量差异； • 手段：将数量差异抽象化,即去差异； • 目的：反映各个个体现象数值的一般水平，代表性水平

平均数 • 反映总体分布的集中趋势； • 反映总体现象的共性特征； • 是总体分布的重要数量特征值； • 是现象规律性的数量表现。

平均数 212 198 192 155 164 133 121 94 98 中心点 • 总体分布的集中趋势:--1000 发炮弹落点

平均数 • 总体现象的共性特征 • 捷达轿车: 1 • 没有奖品:99999 • 集中趋势:没有奖品 • 明天下雨的可能性是:80% • 明天不下雨的可能性:20% • 集中趋势是:明天下雨

算术平均数 • 算术平均数是集中趋势指标中最常用的一个统计量，用于评估一个用定距或定比尺度衡量的数据均值。数据都有一定的集中趋势，大部分回答应该分布在均值附近。

算术平均数的计算方法 • 加权算术平均数 • 单项数列计算算术平均数 • 组距数列计算算术平均数

组距分组注意的问题 • 一定要遵循“不重不漏”的原则。解决“不重”的问题，习惯上规定“上组限不在内”。 • 当一组数据悬殊较大时，为避免出现空白组或极个别极端值被遗漏，一般应采用“××以下”及“××以上”。 • 可以采用等距分组，也可以采用不等距分组。 • 对于不等距分组可用“频数密度”反映频数分布的实际状况。组距分组掩盖了各组内的数据分布状况。“组中值”是上限和下限中间之间的中间数值，它是代表各组数据一般水平的数值。组中值=（下限+上限）÷2

附：开口组组中值的计算 • 开口组的组距和组中值的确定，一般一相邻组的组距为准，其计算公式为： • 缺下限开口组（形如:××以下）的组中值 =上限-（相邻组组距÷2） • 缺上限开口组（××以上）的组中值 =下限+（相邻组组距÷2）

向上累计和向下累计 • 为了统计分析的需要，有时需要观察某一数值以下或某一数值以上的频数之和，这就需要在分组的基础上计算出“累计频数”。 • 向上累计：即“由小到大累计”，亦即：从变量值小的一方向变量值大的一方累加频数。 • 向下累计：即“由大到小累计”，亦即：从变量值大的一方向变量值小的一方累加频数。

某班50名学生统计学考试成绩分组

中位数 • 将总体中的各个个体数值按照大小顺序排列，居于中间位置的数值，便是中位数。中位数

中位数 n  1  中间位置 2 • 1.是一种集中趋势或平均指标 • 2.位于中间位置的数值 • 如果数据为奇数项，中位数是中间位置的数值 • 如果数据为偶数项，中位数是中间位置两个数值的平均数 • 是一种位置平均数 • 4.不受总体中极值的影响

中位数 n  1 6  1    3 . 5 中间位置 2 2 7 . 7  8 . 9 中位数   8 . 30 • 数据 :10.3 4.9 8.9 11.7 6.3 7.7 • 顺序 :4.9 6.3 7.78.9 10.3 11.7 • 位置 :1 2 34 5 6 2

众数 • 总体中出现次数最多的数值是众数。众数

众数 1. 集中趋势测定指标或平均指标 2.出现次数最多的数值 3.不受总体中极值的影响 4.可以没有众数，也可以有几个众数

众数无众数数据: 10.3 4.9 8.9 11.7 6.3 7.7 一个众数数据: 6.3 4.9 8.9 6.3 4.94.9 一个以上的众数数据: 21 2828 41 4343

平均数指标

平均数的局限性 • 一个身高180的不会游泳的人想涉水过河,已知河的平均深度为1米,此人是否过河?为什么? • 某人想购买一台冰箱,现有如下信息: • 冰箱品牌 A B • 平均使用年限 10 10 • 最多使用年限 20 12 • 最少使用年限 2 8

第三节数据的离中程度分析 • 全距 • 方差和标准差

差异性指标 • 标志变异指标是测定总体中各个个体单位标志值差异的变动范围或差异程度的指标。集中趋势

全距 • 测量的是数据的分散程度，就是样本中最大值与最小值之差。 • 全距直接到奇异值的影响 • 反映标志值的变动范围 • 全距计算简便，易于理解，应用普遍。 • 全距的计算:全距=最大标志值-最小标志值

媒婆给村里的姑娘们说亲，媒婆手里有两批光棍资源，村长不放心，便问，哪一拨的人比较好，媒婆说两组都一样好，每组平均身高都是1.75m的标准小伙。第一组进村后，三人都是1.75m的标准身高，举手头足犹如仪仗队，姑娘们趋之若鹜，于是村长放心离去。可等到第二批刚一进村，姑娘们就吓坏了。啥情况呢？原来这第二组三人的身高分别是2米35、1米45、1米45，好像托塔李天王带着土行孙兄弟俩下凡一般，村里家家门户紧闭，暗地里咒骂村长。村长因此名声扫地，村长迁怒于媒婆，可媒婆反驳到：“我也没说谎呀，两拨人都是一样的平均身高呀”，村长顿时哑口无言。

精确地描述差异--标准差 • 标准差(Standard Deviation )也称均方差,在概率统计中最常使用作为统计分布程度（statistical dispersion）上的测量。标准差定义为方差的算术平方根，反映组内个体间的离散程度。 • 是各单位标志值与其平均数的离差平方的算术平均数的平方根，它表示每个标志值与平均数的平均距离。例如，两组数的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是 7 ，但第二个集合具有较小的标准差。一个较大的标准差，代表大部分的数值和其平均值之间差异较大；一个较小的标准差，代表这些数值较接近平均值。

（总体标准差，对应于Excel的stdev函数） （抽样标准差，即以样本标准差估计总体的标准差，对应于Excel的stdevp函数）

如何计算标准差

标准差的应用分析 • 标准差在投资决策中的应用 • 投资是企业生产经营和发展壮大的必要手段。投资者作出投资决策时，不仅要考虑预期回报，还必须分析比较投资风险。由于投资风险的客观存在性及其对投资收益的不利性，投资者在进行投资决策时必须而且也应该对投资风险进行分析，尽可能地测定和量化风险的大小。 • 1、用标准差衡量风险大小。此时的标准差计算公式如下：其中σ为标准差，Pi为一系列可能性事件发生的概率，ri为可能性事件发生时的投资收益。

假设投资者要在A、B两个项目中选择一个或两个项目进行投资。估计第二年每个项目的收益率可能有四个结果，每个结果都有一个确定的概率与之对应。如下表所示，表中r为收益率，p为收益率实现的可能性。表1 A、B两项目的收益率分布投资项目A、B的期望收益率分别为：

计算结果表明，A项目的期望收益率小于B项目。但从收益率的分布看，A项目的收益率在4％～20%之间波动，变动范围小；而B项目收益率从-100％到+100％，变动范围大。收益率的变动大小反映了风险的大小，收益率变动大，风险就大。根据公式(3)计算得：σA = 5.83%，σB = 37.80%。这就说明B项目的风险更大.从数学角度看，B项目标准差大,可能来源于B项目的各种可能收益都比较大。

两捆竹竿、第一捆每根长度分别是10M、10M、11M、11M、12M、12M, 标准差0.8164；第二捆，每根长度1000cm、1000cm、1100cm、1100cm、1200cm、1200cm. 标准差75.59. • 由于两组数据的平均数不同或度量单位不同的时候，消除由此带来的差异，从而进行比较.比如第一捆竹竿用米（M）做单位，而第二捆用厘米（CM)做单位，而实际两捆是一模一样的,两捆的标准差虽然此时失效，但是通过离散系数可以看出来，两捆是一样的，离散系数都是0.068。

标准差系数 • 标准差与平均数的比值称为离散系数.用公式表示: 标准差系数＝σ/μ • 如甲单位月平均工资1600元，标准差为 60元，标准系数（60÷1600）为3.75%，乙单位月平均工资为800元，标准差为40元，标准系数为（40÷800）为5%，说明甲单位工资水平高于乙单位，差异程度低于乙单位。平均工资的代表性高于乙单位。

把反映现象发展水平的统计指标数值，按照时间先后顺序排列起来所形成的统计数列，又称动态数列。把反映现象发展水平的统计指标数值，按照时间先后顺序排列起来所形成的统计数列，又称动态数列。时间数列第四节时间序列现象所属的时间反映现象发展水平的指标数值构成要素

要素一：时间t 要素二：指标数值a

指报告期水平与基期水平的比值，说明现象的变动程度指报告期水平与基期水平的比值，说明现象的变动程度发展速度设时间数列中各期发展水平为：环比发展速度定基发展速度（年速度）（总速度）

指增长量与基期水平的比值，说明报告期水平较基期水平增长的程度 增长速度

第 10 章 描述统计分析