第四章基本统计分析

第四章基本统计分析

频数分析 描述统计过程互联表统计分析比率分析探索性统计过程

4.1 频数分析 Frequencies • 频数分析的基本任务：编制频数分布表和绘制统计图。 • 频数分析的扩展功能：计算分位数和计算其它基本的描述统计量（包括：集中趋势、离散程度、分布形态) • 注意：这里计算基本统计量的功能在Descriptive也可以实现。故不作重点讲解。

显示频数分布表 主对话框

集中趋势指标 百分位数采用组中值计算离散趋势指标分布形态指标计算基本统计量 Statistics… 四分位数每隔指定百分位数直接指定某个百分位数

饼状图 条形图针对Bar/Pie Charts而言，纵轴表示的数值带正态曲线的直方图绘制统计图 Charts… 频率频数

按变量值 按频数频数分布表输出格式 Format… 当选择两个以上变量作频数表时，C可以将结果输出在同一频数表过程的output；O可以将结果输出在不同的output。当频数表的分组数大于下面指定数值时禁止它在结果中输出，这样可以避免产生巨型表格。

这里是定类变量，计算累计百分比是无意义的 按变量值升序排列

推断统计学 统计学集中趋势分析描述统计学离散程度分析刻画分布形态 4.2 计算描述统计量 Descriptive 常用分析指标：算术平均数、调和平均数、几何平均数；众数、中位数、分位数等常用分析指标：全距、内距、平均差、方差、标准差等；

偏度与峰度 • 分布形态主要是指数据分布是否对称，偏斜程度如何，分布陡缓程度如何。 • 偏度（Skewness）：反映数据分布对称性的统计量。 • 当数据为对称分布时偏度为零；当数据为正偏态分布（右偏）时偏度大于零；当数据为负偏态分布（左偏）时偏度小于零。 • 峰度（Kurtosis）：以标准正态分布为标准描述该分布密度的形状为陡缓程度的统计量。 • 当数据为标准正态分布时，峰度为零；数据分布为尖峰分布时峰度大于零；数据分布为平峰分布时峰度小于零。

标准化Z分数问题 • 标准化Z分数问题：通过标准化过程可得到一系列新变量值，通常称为标准化值或Z分数。 • 标准化过程： • 标准化变量的作用：可以发现变量中的极大值和极小值，以便发现分布是否均衡的问题。 • 描述统计分析的结果指标与频数分析过程基本相同，区别在于：Descriptive只计算几个主要的描述指标，不同时输出频数分布图表。

主对话框 选择统计量对当前变量的数据进行标准化，产生的新变量名为原变量名前加“Z”，并显示在最后一列。

重抽样自举法（Bootstrap，拔靴法） 所谓的自举法就是利用有限的样本资料经由多次重复抽样，重新建立起足以代表母体样本分布之新样本。设一个样本具有变量y1，y2，y3,…,yn，用某种方法得到其对总体参数a的估计值．则在抽样时，每一轮都要从这n个变量中抽取一个容量也是n的随机样本，并保证每一变量在每轮每次抽样中的被抽取概率都是1/n(相当于经典方法的复置抽样)。

实现方法：此过程一般可用随机数表或由计算机输出n个0～1之间的随机数实现。即：先将样本变量编码为1，2，⋯，n；然后取分组距离1/n将区间实现方法：此过程一般可用随机数表或由计算机输出n个0～1之间的随机数实现。即：先将样本变量编码为1，2，⋯，n；然后取分组距离1/n将区间 [0,1]分成n个互斥的分隔：0~1/n，1/n~2/n， 2/n~3/n，...，(n-1)/n；出现的随机数，凡在 0≤R<1/n之间的取编码“1”变量，凡在1/n≤R<2/n 之间的取编码“2”变量，⋯，凡在(n-1)/n ≤R<1 之间的取编码“n”变量，这就称为自举抽样，

由这n个“新”变量组成的样本则称为自举样 (bootstrap sample)。当对原始样本变量重复进行m轮自举抽样，就得到m个容量均为n的自举样本。再对每一样本都按照在原始样本中所用的方法求出参数a的估计值，会得到关于参数的m个估计值，这些估计值的方差称为自举方差。 • 重抽样自举法的意义：自举方差是对估计量抽样方差较好近似。

4.3 交叉分组下的频数分析 Crosstabs • 统计中常常会探讨变量间的关系，如两变量间是否有关联、进一步研究两变量间是否是因果关联。如性别和大学专业的选择，学习兴趣和学习效果等等。 • 列联表分析的目的：分析多个变量不同取值下的分布，掌握多变量的联合分布特征，进而分析变量之间的相互影响和关系。 • 两大基本任务：一，产生两维或多维交叉列联表；二，对两两变量间是否存在一定的相关性进行卡方检验和其它相关性检验。 • 分析对象：两个或多个定类或定序的变量。

交叉列联表行列变量间关系的分析 • 所有观测频数都出现在主对角线上，则两变量存在正相关。 • 所有观测频数都出现在负对角线上，则两变量存在负相关。

在绝大多数情况下，观测频数的分布是分散在列联表的各个单元格中的，此时就不容易直接发现行列变量之间的关系和他们关系的强弱关系。为此，需要借助非参数检验方法和一些度量变量间相关程度的统计量等手段进行分析。在绝大多数情况下，观测频数的分布是分散在列联表的各个单元格中的，此时就不容易直接发现行列变量之间的关系和他们关系的强弱关系。为此，需要借助非参数检验方法和一些度量变量间相关程度的统计量等手段进行分析。

绘制频数分布柱形图 不输出列联表主对话框行变量当涉及到两个以上的变量讨论时需要通过层变量来实现列变量层变量指定哪种方法分析行列变量间的关系指定列联表单元格中的输出内容指定列联表单元的输出排列顺序

Cells & Format 观测频数期望频数行百分比非标准化残差列百分比标准化残差总百分比调节的标准化残差

列变量 层变量行变量

注：未标准化残差定义为：观测频数-期望频数注：未标准化残差定义为：观测频数-期望频数

注意：Crosstabs 过程不能产生一维频数表（单变量频数表），该功能由Frequencies过程实现。

卡方检验 • 卡方检验的作用：可用于探讨列联表行变量和列变量之间是否有关联的推断性分析。若无关联，则认为两变量独立。H0：行变量与列变量独立。 • 卡方检验的统计量（Pearson卡方统计量）： • 决策方法：若卡方观测值的概率p小于等于a，则判定行列变量间存在存在依存关系；反之，如果卡方观测值的概率p大于a，则判定行列变量间相互独立。这里a＝0.05或0.01。

1Pearson卡方检验 2连续性校正 3似然比卡方检验 4Fish精确检验 5线性相关卡方检验

卡方检验注意事项 • 一，列联表的单元格不应太少，例如2×2的列联表需要进行连续型修正和采用Fisher精确检验进行校对。 • 二，各单元格中的期望频数，不应有期望频数小于1的单元格，或大量的期望频数小于5的单元格。若列联表中有20％以上的单元格的期望频数小于5，则一般不宜用卡方检验。此时，可以采用合并相邻单元格或采用似然率比卡方检验。

三，总频数n应较大，一般至少大于50，大于100更好。在小样本是可主要参考连续性校正和Fisher的精确检验。三，总频数n应较大，一般至少大于50，大于100更好。在小样本是可主要参考连续性校正和Fisher的精确检验。 • 四、卡方值的大小会受到样本量的影响，若各个单元格中的样本数均等比例扩大10倍，于是卡方值也会随之扩大10倍。但由于自由度和显著水平没有改变，卡方的临界值不变，进而使拒绝零假设的可能性增高。即在样本量很大时，容易得到“两变量有关联”的结论，即便两变量的关联性很微弱时。

五、当行列变量都是定序型变量，可以参考线性相关卡方检验，该检验是检验两个定序的行列变量间是否具有线性相关性。五、当行列变量都是定序型变量，可以参考线性相关卡方检验，该检验是检验两个定序的行列变量间是否具有线性相关性。

例： • 结论：户籍状况和房屋情况有关联。

例：结论：该列联表本身不适合做卡方检验，一定程度上可以参考似然比卡方检验结果。但可以考虑其他相关性检验。

关联分析 • 在关联分析中，对于关联指标的选择需要视变量的测量尺度和变量间的对称关系而定，而相关的检验则可以辅助了解两变数间的相关程度是否已经达到统计上的显著性。 • 关联分析应从相关研究或专业判断来建立理论基础，再辅以统计分析加以验证，不宜从数据分析的结果遂下结论，产生倒果为因的谬误。

关联分析的四大属性 • 对称性：自变量会影响因变量而因变量不会影响自变量的情形称为不对称关系，如教育程度和个人收入；两个变量会相互影响或不确定影响方向的情况称为对称关系，如工作满足感和工作绩效。 • 方向：指变量关联的变动方向，可以分为正负两个方向。只有两变量皆为定序以上时才会讨论关联方向。若有一变量为定类时，则无关联方向，其关联方向一律以正向表示。

关联强度：关联强度的侧度通常根据用自变量来预测因变量的准确程度来判断，若正确程度高表示两变项间的关联程度高，反之，则低。对于有关联方向的两变数，关联系数的值介于-1和1之间，关联系数的绝对值越接近1，关联性越强；对于无关联方向的两变量，关联系数的值介于0和1之间，关联系数的值越接近1，关联性越强。关联强度：关联强度的侧度通常根据用自变量来预测因变量的准确程度来判断，若正确程度高表示两变项间的关联程度高，反之，则低。对于有关联方向的两变数，关联系数的值介于-1和1之间，关联系数的绝对值越接近1，关联性越强；对于无关联方向的两变量，关联系数的值介于0和1之间，关联系数的值越接近1，关联性越强。

关联形态：指变量之间共同变化会呈现何种规则变化的状态，常见的关联形态有直线、抛物线、U型，J型等。只有两变量皆为定序以上时才会讨论关联形态，一般所讨论的关联形态大多属于直线关联。关联形态：指变量之间共同变化会呈现何种规则变化的状态，常见的关联形态有直线、抛物线、U型，J型等。只有两变量皆为定序以上时才会讨论关联形态，一般所讨论的关联形态大多属于直线关联。

关联量数的种类 • 一类为以卡方统计量为基础的关联量数：卡方统计量不可以测量关联强度，其他以卡方统计量为基础的关联量数虽然能够表示关系的强弱，但不易解释。 • 另一类是可反映误差缩减比例（Proportional reduction in error；PRE）的关联量数：PRE值指“使用辅助变量能减少的预测错误所占的比例”，即若E2和E1分别代表有无使用辅助变数时的预测误差，则PRE=（E1-E2）/E1。

因此，PRE介于0～1，其值越大表示辅助变数可以减少越多的预测误差，代表两变数间的关联越强。因此，PRE在解释上比较有意义。实务中，若PRE的值小于10%，则认为变量间关联程度不强。因此，PRE介于0～1，其值越大表示辅助变数可以减少越多的预测误差，代表两变数间的关联越强。因此，PRE在解释上比较有意义。实务中，若PRE的值小于10%，则认为变量间关联程度不强。

度量变量间相关程度的统计量 • 除上述卡方检验法之外，SPSS还提供了其他度量变量间相关关系的检验方法，帮助人们了解变量间相互依赖的强弱程度，量化交叉分类变量间的关系。 • 四大类相关分析的检验方法。判断方法:系数的绝对值越接近于1，则变量的相关性越强；越接近于0，则变量间相互独立。正负号代表相关方向。 • 变量的测量尺度大致分为：定类、定序、定距。常规上变量类型在使用上只允许降级使用，不许用升级使用。当定序变量的类别数较多时，可以近似将定序视为定距。

Statistics 卡方检验 4两定距或两定序 1两定类 3两定序医学分析中常用指标 2一定类一定距

适用于两定类变量的方法 • 检验的统计量有列联系数、Phi系数、Cramer ’V系数、Lambda、不确定系数等。这些方法除Lambda、不确定系数，其余三个是从Pearson卡方统计量派生出来的，试图将样本量、行列数对卡方的影响减少到最小。 • Phi系数是很粗糙的关联指标，一般适用于2×2的列联表。

列联系数适用任意行列数的列联表，但注意到列联系数的最大值会随行列数的增大而增大。因此，在比较两两变量间的相关性时，注意应在行列数均相同的前提下才有可比性。列联系数适用任意行列数的列联表，但注意到列联系数的最大值会随行列数的增大而增大。因此，在比较两两变量间的相关性时，注意应在行列数均相同的前提下才有可比性。 • Cramer ’V 适用于任意行列数的列联表，在2×2的列联表中，V系数和Phi系数是相等的。 • Lamdba是一种以众数作为预测基准的关联量数，是属于可以反映误差缩减比例的关联量数。主要用于对称的关系，但也可以用于不对称的关系。其系数介于0～1之间。

关于Lambda • 若利用血型辅助预测个性：E1=60-30=30 E2=（24-20）+（17-10）+（9-4）+（10-5）=21 Pre=(E1-E2)/E1=(30-21)/30=0.3 即以血型预测个性会减少30%的预测误差。

例： • 结论：两变量的关联性显著但微弱。

例： • 结论：两变量关联关系显著但微弱，且具备一定的对称性。

注：当自变量与因变量为对称关系时，将两者相互预测的误差数合并计算（即E1与E2皆是X预测Y的误差加上Y预测X的误差数）。注：当自变量与因变量为对称关系时，将两者相互预测的误差数合并计算（即E1与E2皆是X预测Y的误差加上Y预测X的误差数）。 • 例如本例： E1=（20+10）+（18+11）=59 E2=（10+10+6）+（11+8+6）=51 Pre=（59-51）/59=0.136

适用于两定序变量的方法 • 检验的统计量有Gamma系数、Somers’d系数Kendall’s Tau-b系数、 Kendall’s Tau-c系数等。这些方法均是围绕“同序对数”和“异序对数” 展开的，它们是变量相关性检验的非参数方法中的两个重要指标。

第四章 基本统计分析