第十章基于秩次的非参数检验

第十章基于秩次的非参数检验

本章内容： 第一节配对样本比较的Wilcoxon符号秩检验第二节两个独立样本比较的Wilcoxon秩和检验第三节完全随机设计多个样本比较的Kruskal-Wallis H 检验第四节随机区组设计多个样本比较的Friedman M检验

概述前面所述的计量资料的t 检验和 F 检验，都是基于总体分布为正态分布、总体方差相等的前提下对总体均数进行的检验。这类检验方法总体分布为已知的函数形式，是对其总体参数作假设检验称为参数检验（parametric test）。

若总体分布未知或已知总体分布与检验所要求的条件不符，数据转换也不使其满足参数检验的条件，这时需要采用一种不依赖于总体分布的具体形式，与总体参数无关的检验方法。这种方法不受总体参数的影响，它检验的是分布，不是参数，称为非参数检验（nonparametric test）。

本章介绍常用的秩转换（rank transformation）的非参数检验，也称秩和检验（rank sum test），该类方法在非参数检验中占有重要地位。秩转换的非参数检验是首先将定量数据从小到大，或等级从弱到强转换成秩后，再求秩和，计算检验统计量—秩统计量，做出统计推断。

由于秩统计量的分布与原数据总体分布无关，具有较好的稳健性，可用于任何分布类型的资料。由于秩统计量的分布与原数据总体分布无关，具有较好的稳健性，可用于任何分布类型的资料。例如，一端或两端有不确定数值（如 <0.1,>15.0）的资料、总体分布为偏态或分布不明的小样本（比如n<30）资料、不满足参数检验条件的资料、等级资料等。如果已知其计量资料满足（或近似满足）参数检验条件的，应该选用参数检验的方法，因为此时若选用秩转换的非参数检验的方法，会降低检验效能。

第一节 配对设计和单样本资料的符号秩和检验

一、配对设计资料的符号秩和检验

配对设计计量资料两处理效应的比较，一般采用配对t检验，如果差数严重偏离正态分布，可采用Wilcoxon秩检验，亦称符号秩和检验（signed rank test）。一般认为，在数据满足配对t检验要求时，Wilcoxon秩检验的功效是检验效能的95%左右。

目的是推断配对样本差值的总体中位数是否和0有差别，即推断配对的两个相关样本所来自的两个总体中位数是否有差别。方法步骤见例8-1。目的是推断配对样本差值的总体中位数是否和0有差别，即推断配对的两个相关样本所来自的两个总体中位数是否有差别。方法步骤见例8-1。

例10-1 某研究者欲研究保健食品对小鼠抗疲劳作用，将同种属的小鼠按性别和年龄相同、体重相近配成对子，共10对，并将每对中的两只小鼠随机分到保健食品两个不同的剂量组，过一定时期将小鼠杀死，测得其肝糖原含量（mg/100g），结果见表10-1，问不同剂量组的小鼠肝糖原含量有无差别？

若多个差值为0，可通过提高测量工具的精度来解决。若多个差值为0，可通过提高测量工具的精度来解决。检验步骤 1. 建立检验假设，确定检验水平 2. 求检验统计量T值 ①省略所有差值为0的对子数，令余下的有效对子数为n，见表10-1第（4）栏，本例 n=10；

②按差值的绝对值从小到大编秩，然后分别冠以正负号。遇差值绝对值相等则取平均秩，称为相同秩（ties）（样本较小时，如果相同秩较多，检验结果会存在偏性，因此应提高测量精度，尽量避免出现较多的相同秩）, 表10-1第（4）栏差值的绝对值为2.29有2个，其秩依次应为1，2，皆取平均秩为1.5，见表10-1第（5）. ③任取正秩和或负秩和为T，本例取T=6.5。

3. 确定P值，作出推断结论 （1）查表法（时），查T界值表（附表9），判断原则：内大外小。

（2）正态近似法（n>50时）超出附表9范围，可用正态近似法作u检验。（2）正态近似法（n>50时）超出附表9范围，可用正态近似法作u检验。

当n不很大时，统计量Z需要作如下的连续性校正：当n不很大时，统计量Z需要作如下的连续性校正：

二、一组样本资料的符号秩和检验 若单组随机样本来自正态总体，比较其总体均数与某常数是否不同，可用检验；若样本来自非正态总体或总体分布无法确定，也可用Wilcoxon符号秩和检验，检验总体中位数是否等于某已知数值。

例10-2 已知某地正常人尿氟含量的中位数为2.15mmol/L。今在该地某厂随机抽取12名工人，测得尿氟含量（mmol/L），结果见表10-2。问该厂工人的尿氟含量是否高于当地正常人？

= - d x M i 0 = H Md ( d ) 0 0 箎 H Md ( d ) 0 1 a = 0 . 05 10 - 2 2 1、求差值，见表的第（）栏。 2、检验假设：差值的总体中位数等于零，即：差值的总体中位数不等于零，即 3. 编秩对差值的绝对值编秩，方法同上。 4 . 求正、负秩和并确定检验统计量 T =62.5 T =3.5 T T 66 11 ( 11 +1)/2 本例，，，与之和为，恰好等于，表明秩和 + - + - T = min( T , T ) 3.5 的计算无误；取＝。 + -

5. 确定P值并做出推断结论本例，n=11，T=3.5，查配对设计用T界值表，得P<0.005，按α=0.05检验水准，拒绝，接受。可认为该厂工人尿氟含量高于当地正常人。

第二节 完全随机化设计两独立样本的秩和检验

一、两组连续变量资料的秩和检验 例10-3 在河流监测断面优化研究中，研究者从某河流甲乙两个断面分别随机抽取10和15个样品，测得其亚硝酸盐氮(mg/L)的含量如表10-3，试比较甲乙两个河流断面亚硝酸盐氮的含量有无差别？

检验步骤 求检验统计量T值：

确定P值，作出推断结论： • （1）查表法查T界值表（成组设计用），先从左侧找到n1（n1和n2中的较小者），本例为10；再从表上方找两组例数的差（n2-n1），本例，n2-n1=5；在两者交叉处即为T的临界值。将检验统计量T值与T临界值相比，若T值在界值范围内，其P值大于相应的概率；若T值等于界值或在界值范围外，其P值等于或小于相应的概率。本例, 概率为双侧0.05对应的T界值为94～166；T=136.0并未超出该范围，故P>0.05；按α=0.05检验水准，不拒绝H0 。不能认为某河流甲乙断面亚硝酸盐氮含量的总体分布的位置不同。

若Z超过标准正态分布的临界值，则拒绝。

二、两组有序变量资料的秩和检验 例10-4 某研究者欲评价新药按摩乐口服液治疗高甘油三脂血症的疗效，将高甘油三脂血症患者189例随机分为两组，分别用按摩乐口服液和山楂精降脂片治疗，数据见表10-4，问两种药物治疗高甘油三脂血症的疗效有无不同？

①先确定各等级的合计人数、秩范围和平均秩，见表10-4的（4）栏、（5）栏和（6）栏，再计算两样本各等级的秩和，见（7）栏和（8）栏；①先确定各等级的合计人数、秩范围和平均秩，见表10-4的（4）栏、（5）栏和（6）栏，再计算两样本各等级的秩和，见（7）栏和（8）栏； ②本例T=7663；

③计算Z值

第三节 完全随机化设计多组独立样本的秩和检验

一、多组连续变量资料的秩和检验 例10-5 某研究者欲研究A、B两个菌种对小鼠巨噬细胞吞噬功能的激活作用，将60只小鼠随机分为三组，其中一组为生理盐水对照组，用常规巨噬细胞吞噬功能的监测方法，获得三组的吞噬指数，试比较三组吞噬指数有无差别？

二、多组有序变量资料的秩和检验 例10-6 四种疾病患者痰液内嗜酸性粒细胞的检查结果见表10-6。问四种疾病患者痰液内嗜酸性粒细胞的等级分布有无差别？

第四节 随机化区组设计资料的秩和检验

例10-7 欲用学生的综合评分来评价四种教学方式的不同，按照年龄、性别、年级、社会经济地位、学习动机相同和智力水平、学习情况相近作为配伍条件，将4名学生分为一组，共8组，每区组的4名学生随机分到四种不同的教学实验组，经过相同的一段时间后，测得学习成绩的综合评分，试比较四种教学方式对学生学习成绩的综合评分影响有无不同？

本例属随机化区组设计，观察指标为连续型变量资料，本例属随机化区组设计，观察指标为连续型变量资料，各实验组（不同教学方式组）来自非正态总体，不宜做随机化区组设计方差分析。

第十章基于秩次的非参数检验