1 / 81

第五讲

第五讲. 非参数检验. 前面进行的假设检验和方差分析,大都是在数据服从正态分布或近似地服从正态分布的条件下进行的。 但是如果总体的分布未知,如何进行总体参数的检验,或者如何检验总体服从一个指定的分布,都可以归结为非参数检验方法。. 非参数检验方法的优点. 首先, 检验条件比较宽松,适应性强。参数检验假定总体分布正态或近似正态或以正态分布。如果这些条件不存在,很可能检验结果产生方向性的错误。 非参数检验不受这些条件限制,填补了参数检验的不足。例如非正态的、方差不等的以及分布形状未知的资料都可适用,适应性强。.

Download Presentation

第五讲

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第五讲 非参数检验

  2. 前面进行的假设检验和方差分析,大都是在数据服从正态分布或近似地服从正态分布的条件下进行的。前面进行的假设检验和方差分析,大都是在数据服从正态分布或近似地服从正态分布的条件下进行的。 • 但是如果总体的分布未知,如何进行总体参数的检验,或者如何检验总体服从一个指定的分布,都可以归结为非参数检验方法。

  3. 非参数检验方法的优点 • 首先,检验条件比较宽松,适应性强。参数检验假定总体分布正态或近似正态或以正态分布。如果这些条件不存在,很可能检验结果产生方向性的错误。 • 非参数检验不受这些条件限制,填补了参数检验的不足。例如非正态的、方差不等的以及分布形状未知的资料都可适用,适应性强。

  4. 其次,检验的方法比较灵活,用途更广泛。非参数检验不但可以应用于定距、定比变量的检验而且也适用于定类、定序变量的检验。其次,检验的方法比较灵活,用途更广泛。非参数检验不但可以应用于定距、定比变量的检验而且也适用于定类、定序变量的检验。 • 对于那些不能直接进行加减乘除四则运算的定类数据和定序数据,运用符号检验、符秩检验都能起到比较好的效果,所以非参数检验的用途是更加广泛的。

  5. 再次,非参数检验计算相对简单,易于理解。由于非参数检验不用计量的方法,而用计数的方法,其过程及其结果都可以被直观地理解,为使用者所接受。再次,非参数检验计算相对简单,易于理解。由于非参数检验不用计量的方法,而用计数的方法,其过程及其结果都可以被直观地理解,为使用者所接受。

  6. 非参数检验的缺点 • 也非参数检验方法对总体分布的假定不多,适应性强,但方法也就缺乏针对性,其功效就不如参数检验。 • 非参数检验用的是等级或符秩,而不是实际数值,方法简单,又会失去许多信息,因而检验的有效性也就比较差。 • 当然如果假定的分布不成立,那么非参数检验就是更值得信赖的。

  7. 在SPSS分析软件中,非参数检验在菜单Analyze Nonparametric Test 中显示,共有8种检验方法。 • 如图所示。这8种检验方法依次是:Chi-square卡方检验.

  8. Chi-square卡方检验 Binomial二项分布检验 Runs游程检验 1-Sample K-S 单个样本柯尔莫哥洛夫-斯米诺夫检验 2 Independent sample 两个独立样本检验 K Independent sample K个独立样本检验 2 Related Independent sample两个相关样本检验 K Related Independent sample K个相关样本检验 • Binomial二项分布检验 • Runs游程检验 • 1-Sample K-S 单个样本柯尔莫哥洛夫-斯米诺夫检验 • 2 Independent sample 两个独立样本检验 • K Independent sample K个独立样本检验 • 2 Related Independent sample两个相关样本检验 • K Related Independent sample K个相关样本检验

  9. 一、Chi-square卡方检验 • 某地一周内各日死亡数的分布如下,请检验一周内各日的死亡危险性是否相同? • 周日 死亡数 • 一 11 • 二 19 • 三 17 • 四 15 • 五 15 • 六 16 • 日 19

  10. 从Data菜单中选Weight Cases 进入Weight Cases 对话框把death 放入Frequency Variable 框定义死亡数为权数,再点击OK钮即可。 • 从Analyze到Nonparametric Tests Chi-Square 进入Chi-Square Test 对话框,在对话框左侧的变量列表中选day点击向右的箭头钮使之进入Test Variable List 框点击OK 按钮即可。

  11. 练习 • 有一批包装盒,其重量有些差异,连续抽查了20件,其重量分别如下,能否认为其重量的变动是随机的(=0.05)

  12. 再练一下 掷一个骰子300次,每个面出现的次数见下表,用数字1,2,3,4,5,6分别表示六个面的点数,试在显著性水平0.05下检验颗骰子是否是均匀的?

  13. 二、二项分布 • 有些总体只能划分为两类,如医学中的生与死、患病的有与无。 • 从这种二分类总体中抽取的所有可能结果,要么是对立分类中的这一类,要么是另一类,其频数分布称为二项分布。 • 调用Binomial过程可对样本资料进行二项分布分析。

  14. 某地某一时期内出生40名婴儿,其中女性12名(定Sex=0),男性28名(定Sex=1)。某地某一时期内出生40名婴儿,其中女性12名(定Sex=0),男性28名(定Sex=1)。 • 问这个地方出生婴儿的性比例与通常的男女性比例(总体概率约为0.5)是否不同?

  15. 激活数据管理窗口,定义性别变量为sex。按出生顺序输入数据,男性为1 ,女性为0。 • 激活Statistics菜单选Nonparametric Tests中的Binomial Test...命令项,弹出 Binomial Test对话框。 

  16. Get from data 选项,适用于指定的变量只有两个有效值无缺失值 • Cut point 选项,如果指定的变量超过两个值,选择该项后,并在其参数框中键入一个试算点的值,比试算点值小的将形成第一项,比试算点值大的将形成第二项。 • Test Proportion参数框,指定检验概率值系统默认的检验概率值是0.5, 这意味着要检验的二项是服从均匀分布的.如果落入每一项中的个体的期望比率不等,换言之所要检验的二项不是同概率分布,参数框中键入第一项所对应的概率期望值。

  17. 在对话框左侧的变量列表中选sex,点击钮使之进入Test Variable List框,在Test Proportion框中键入0.50, • 再点击OK钮即可。

  18. 结果解释 • 二项分布检验表明,女婴12名,男婴28名,观察概率为0.7000(即男婴占70%),检验概率为0.5000,二项分布检验的结果是双侧概率为0.0177。 • 可认为男女比例的差异有高度显著性,即与通常0.5的性比例相比,该地男婴比女婴明显为多。

  19. 三、游程检验 • 游程检验用来检验样本的随机性,这对于统计推断是很重要的。 • 游程检验可用来检验任何序列的随机性,而不管这个序列是怎样产生的。 • 此外还可用来判断两个总体的分布是否相同,从而检验出它们的位置中心有无显著差异。 • 调用Runs 过程可进行游程检验即用于检验序列中事件发生过程的随机性分析.

  20. 某村发生一种地方病,其住户沿一条河排列,调查时对发病的住户标记为“1”,对非发病的住户标记为“0”,共17户:某村发生一种地方病,其住户沿一条河排列,调查时对发病的住户标记为“1”,对非发病的住户标记为“0”,共17户: • 问病户的分布排列是呈聚集趋势,还是随机分布?

  21. 操作 • 激活数据管理窗口,定义住户变量为epi。按住户顺序输入数据,发病的住户为1 ,非发病的住户为0。 • 激活Statistics菜单选Nonparametric Tests中的Runs Test...项,弹出 Runs Test对话框。

  22. 在对话框左侧的变量列表中选epi,点击钮使之进入Test Variable List框。在临界割点Cut Point框中有四个选项: • 1、Median:中位数作临界割点,其值在临界割点之下的为一类,大于或等于临界割点的为另一类; • 2、Mode:众数作临界割点,其值在临界割点之下的为一类,大于或等于临界割点的为另一类; • 3、Mean:均数作临界割点,其值在临界割点之下的为一类,大于或等于临界割点的为另一类; • 4、Custom:用户指定临界割点,其值在临界割点之下的为一类,大于或等于临界割点的为另一类; • 本例选Custom项,在其方框中键入1(本例是0、1二分变量,故临界割点值用1),再点击OK钮即可。

  23. 结果解释 • 检验临界割点值(Test value) = 1.00,小于1.00者有17个案例,而大于或等于1.00者有9个案例。 • Z = 0.3246,双侧 P = 0.7455。 • 所以认为此地方病的病户沿河分布的情况无聚集性,而是呈随机分布。

  24. 再讲一例 • 例:为了鉴别两种操作方法对劳动效率的影响,随机抽取12人用第一种操作方法。10 人用第二种操作方法,每人的日产量见表,试问这两种操作方法有无显著差异?

  25. 解:如果两种操作方法差异不显著,则有这两组工人的日产量排列是随机的,故根据表中数据建立数据文件,将两组工人的日产量数据进行统一排序,观察排序后工人所在组的标志值的排列是否是随机的。解:如果两种操作方法差异不显著,则有这两组工人的日产量排列是随机的,故根据表中数据建立数据文件,将两组工人的日产量数据进行统一排序,观察排序后工人所在组的标志值的排列是否是随机的。 • 建立原假设 • H0:两种操作方法没有显著差异; • H1:两种操作方法的差异是显著的。

  26. 1、单击Analyze Nonparametric TestRuns ,打开Runs Test 对话框,如图所示。

  27. 2、选择检验的变量:将变量“组别”进入检验框中2、选择检验的变量:将变量“组别”进入检验框中 3、在Cut point栏中选择划分二类的检验分类点,系统默认中位数。本例中选择1.5作为检验分类点。 4、在在Options框内选择输出结果形式和缺失值处理方式。 5、单击OK,输出结果见

  28. 由表给出的检验结果知,按照产量排序后,组别标志值的游程为6,由样本计算的检验统计量Z为-2.394,P值为0.017,小于0.05,拒绝原假设H0,即认为两种操作方法的差异显著。由表给出的检验结果知,按照产量排序后,组别标志值的游程为6,由样本计算的检验统计量Z为-2.394,P值为0.017,小于0.05,拒绝原假设H0,即认为两种操作方法的差异显著。 有兴趣的学生可以用K-S检验方法对这个题目中两个独立变量的假设检验再进行一次检验。

  29. 四、K-S检验 • 一个样本的K-S检验又称单个样本柯尔莫哥洛夫-斯米诺夫检验,这种检验可以检验样本数据是否服从Normal正态分布、Poisson泊松分布、Uniform均匀分布及Exponential指数分布等四种分布形式。 • 但一般要求在大样本条件下进行检验。下面通过例题介绍这种检验方法。

  30. 某棉织厂质量检验部门抽检验了50匹布,每匹布上的疵点数如下:某棉织厂质量检验部门抽检验了50匹布,每匹布上的疵点数如下: • 2 1 0 1 1 2 0 5 1 1 • 3 0 1 1 2 0 1 1 0 0 • 1 3 4 0 0 1 1 4 1 2 • 5 2 6 2 4 1 5 1 1 2 • 0 1 1 0 3 2 0 2 3 3 • 试检验布匹上的疵点是否服从的泊松分布。(α=0.05)

  31. 解:如果只检验疵点数的分布,可以用一个样本的K-S检验。即检验假设:解:如果只检验疵点数的分布,可以用一个样本的K-S检验。即检验假设: • H0:布匹上的疵点服从泊松分布, • H1:布匹上的疵点不服从泊松分布。 • 具体检验的操作过程如下: • 1、根据原始数据建立数据文件,在其数据编辑窗口单击Analyze Nonparametric Test 1-sample K-S,打开对话框,如图所示;

  32. 五、Test for Two Independent Sample • 两个独立样本的检验:如果两个无联系总体的分布是未知的,则检验两个总体的均值或分布是否有显著差异的方法是一种非参数检验方法,或者称为两个独立样本的检验。 • 检验是通过两个总体中分别抽取的随机样本数据进行的。

  33. 例:为了调查甲、乙两地的土壤对种植的同一种西瓜有无影响,从这两个产地分别随机抽取同种的8只和7只西瓜,称重后得重量(市斤)如下:例:为了调查甲、乙两地的土壤对种植的同一种西瓜有无影响,从这两个产地分别随机抽取同种的8只和7只西瓜,称重后得重量(市斤)如下: 试根据样本数据检验两地的土壤对种植西瓜在重量上是否有显著差异。

  34. 解:建立数据库,进行假设检验 • H0:甲乙两地的西瓜重量没有显著差异; • H1:甲乙两地的西瓜重量有没有显著差异。 • 检验的具体操作过程如下

  35. 1、单击Analyze Nonparametric Test 2 Independent Sample ,打开Two-Independent-Sample对话框如图所示。

  36. 2、选择检验的变量进入检验框中,选择分组变量进入Grouping Variable框中,单击Define Group键,打开Define Group对话框,将分组变量值分别键入两个框中,单击Continue返回主对话框。

  37. SPSS中提供了四种检验方式: Mann-Whitney U 曼—惠特尼检验,同时适用于小样本和大样本的情况。 Kolmogorov-Smirnov Z K-S检验,适用于大样本的情况。 Mases Extreme Reactions 极端反应检验,适用于小样本的情况。 Wald-Wolfowitz runs 游程检验,适用于大样本的情况。

  38. 选择输出的结果形式及缺失值处理方式;

  39. Mann-Whitney Test秩和表

  40. Two-Sample K-S Test

  41. 练习 使用两台仪器对同一批产品进行测量,从中抽取了8个样品,由两台仪器测量的结果记录如下,试问两台仪器的测量结果有无显著差(=0.05)?

  42. 六、Test for Two related samples • 两个有联系的样本检验:一般用于比较一个现象在采取了某项措施前后的变化是否显著,或者说采取的措施是否有效。 • 也可以检验同一个测试对象上的两种测试方法是否一致。 • 取n个测试对象作为样本,则样本数据是成对出现的,也可以检验这样两个样本是否服从相同的分布等。 • 这种检验在实际中应用范围很广。

  43. 例:一车间为了提高工作效率,对某种零件的加工过程进行改进,为了比较加工时间是否明显减少,抽取15名工人对比他们改革前后零件的加工时间,得到相应的数据如下:试根据数据检验改进后零件的加工时间是否明显减少(α=0.05)?例:一车间为了提高工作效率,对某种零件的加工过程进行改进,为了比较加工时间是否明显减少,抽取15名工人对比他们改革前后零件的加工时间,得到相应的数据如下:试根据数据检验改进后零件的加工时间是否明显减少(α=0.05)?

  44. 解:根据上面的数据建立数据文件,这显然是两个有联系的样本,故采用两个有联系的样本检验方法。解:根据上面的数据建立数据文件,这显然是两个有联系的样本,故采用两个有联系的样本检验方法。 • 建立假设,具体操作如下: • H0:改进前后的零件加工时间没有显著差异; • H1:改进前后的零件加工时间明显减少。

  45. 1、单击Analyze Nonparametric Test 2 Related Sample ,打开Two Related Sample对话框如图所示。

More Related