1 / 59

第六讲

第六讲. 相关分析. 相关分析是对自然界和社会中的两种或多种现象是否相关进行分析的方法。 从哲学上说任何事物的存在都不是孤立的而是相互联系相互制约的,但是怎样判断不同因素间是否存在较为密切的关系这个关系到底密切到什么程度?相关系数。 值得注意, 事物之间有相关,不一定是因果关系,也可能仅是伴随关系。但如果事物之间有因果关系,则两者必然相关。. 数学上用相关分析定量来说明这个问题,利用 SPSS 作不同变量间的相关分析非常方便。 SPSS 的相关分析是借助于 Analyze 菜单的 Correlate 选项完成的。

Download Presentation

第六讲

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第六讲 相关分析

  2. 相关分析是对自然界和社会中的两种或多种现象是否相关进行分析的方法。相关分析是对自然界和社会中的两种或多种现象是否相关进行分析的方法。 • 从哲学上说任何事物的存在都不是孤立的而是相互联系相互制约的,但是怎样判断不同因素间是否存在较为密切的关系这个关系到底密切到什么程度?相关系数。 • 值得注意,事物之间有相关,不一定是因果关系,也可能仅是伴随关系。但如果事物之间有因果关系,则两者必然相关。

  3. 数学上用相关分析定量来说明这个问题,利用SPSS 作不同变量间的相关分析非常方便。 • SPSS的相关分析是借助于Analyze菜单的Correlate选项完成的。 • Correlate 命令项具有三个相关分析功能子命令它们分别是Bivariate、Partial 和Distance,对应于简单相关分析、偏相关分析和距离分析。

  4. 相关系数的取值范围在−1和+1之间,即−1≤r≤+1。相关系数的取值范围在−1和+1之间,即−1≤r≤+1。 • 其中: • 若0<r≤1,表明变量之间存在正相关关系,即两个变量的相随变动方向相同; • 若−1≤r<0,表明变量之间存在负相关关系,即两个变量的相随变动方向相反;

  5. Bivariate(简单相关分析) • 该程序计算指定的两个变量间的相关系数,可以选Pearson 相关(积差相关)、Spearman 等级相关和Kendall相关。 • 同时,对相关系数进行假设检验,可选择进行单尾或双尾检验,给出相关系数为0的概率. • 当资料不服从双变量正态分布,或总体分布型未知,或原始数据是用等级表示时,宜用Spearman 或Kendall 相关.

  6. Partial(偏相关分析) • 计算两个变量间再控制了其他变量影响下的相关系数,即偏相关系数. • 可以进行单尾或双尾检验检验的假设是偏相关系数为0,然后给出偏相关系数为0的概率. • 还可以计算其他描述统计量.

  7. Distance(距离分析) • 对变量或观测值进行相似性或不相似性测度。 • 因此,分析的变量可以是连续变量、表频数分布的变量,某些测度还可以适用于二值变量。 • 可以对原始数据和计算出的距离数据进行标准化。

  8. 一、简单相关分析(Bivariate过程) • 简单相关分析是对两个变量之间的相关程度进行分析。 • 简单相关分析所用的指标称为简单相关系数,又称单相关系数、Pearson相关系数或相关系数。 • 调用Bivariate过程命令时,允许同时输入两变量或两个以上变量,但系统输出的是变量间两两相关的相关系数。 • 例:试分析居民收入与某商品销售量两变量的相关情况。

  9. 某地区10名健康儿童头发和全血中的硒含量如下,试作发硒与血硒的相关分析。 • 激活数据管理窗口,定义变量名:发硒为X,血硒为Y,按顺序输入相应数值,建立数据库。

  10. 1、散点图预测 • 首先打开数据,然后单击Graphs  Scatter,打开Scatter plot散点图对话框。然后选择需要的散点图,图中的四个选项依次是: • Simple 简单散点图 Matrix 矩阵散点图 • Overlay 重叠散点图 3-D 三维散点图

  11. 点击Define界面,选择变量分别进入X轴和Y轴,点击OK后就可以得到散点图。点击Define界面,选择变量分别进入X轴和Y轴,点击OK后就可以得到散点图。

  12. 2、统计分析 • 激活Statistics菜单选Correlate中的Bivariate.. 命令项,弹出Bivariate Correlation对话框。 • 选x、y,点击钮使之进入Variables框; • 再在Correlation Coefficients框中选择相关系数的的类型;

  13. 相关系数的类型共有三种: • Pearson为通常所指的相关系数(r),Kendell’s tau-b为非参数资料的相关系数,Spearman为非正态分布资料的Pearson相关系数替代值,本例选用Pearson项; • 在Test of Significance框中可选相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,本例选双侧检验。

  14. 点击Options...钮弹出Bivariate Correlation: Options对话框,可选有关统计项目。 • 本例要求输出X、Y的均数与标准差以及XY交叉乘积的标准差与协方差,故选Means and standard deviations和Cross-product deviations and covariances项。 • 点击Continue钮返回Bivariate Correlation对话框,再点击OK钮即可。

  15. 3、结果解释 • 在结果输出窗口中将看到如下统计数据:变量X、Y的例数、均数与标准差,变量X、Y交叉乘积的例数、标准差与协方差;XY两两对应的相关系数及其双侧检验的概率,本例r = 0.8715,P = 0.001。

  16. 再讲一例 • 例:尽管采取了时速限制及改进路面等措施,公路死亡人数仍在年复一年的上升。某安全负责人想研究速度与事故数的联系,并从12 个州搜集到如下资料数据。 公路平均速度 53.2 54.7 55.0 55.8 56.8 52.0 公路死亡增长百分比 5.0 5.3 7.0 8.0 9.4 11.0 公路平均速度 57.3 59.0 55.5 63.0 69.4 68.3 公路死亡增长百分比 11.3 12.0 15.0 17.1 23.0 25.7

  17. 从菜单Analyze Correlate Bivariate 打开双变量相关分析主对话框 Bivariate Correlations。 • 在左侧的源变量栏中选择公路平均速度[t]和公路死亡增长百分比[y] 进入变量栏( Variables )。 • 其余使用系统默认值。 • 单击OK 按钮运行程序。

  18. Pearson为通常所指的相关系数(r),计算连续变量或等间距测度的变量间的相关分析。Pearson为通常所指的相关系数(r),计算连续变量或等间距测度的变量间的相关分析。 • Kendell’s tau-b等级相关,计算分类变量间的秩相关,为非参数资料的相关系数。 • Spearman等级相关,为非正态分布资料的Pearson相关系数的替代值。

  19. Means and standard deviations :均数与标准差 • Cross-product deviations and covariances:交叉乘积的标准差与协方差

  20. 练一下 • 某地在作肝癌病因研究时,调查了10 个乡肝癌死亡率(1/10 万,用X 表示)与某种食物中黄曲霉毒素的相对含量(用Y 表示) ,其数据见图。 • 试作等级相关分析

  21. 再练一下 • 为研究平均工资与劳动生产率的关系,从一总体中抽选20个企业,而获得20 对数据,并以劳动生产率(单位万元/人)为自变量,平均工资(单位元/人)为因变量,编制成数据文件。

  22. 二、 Partial(偏相关分析) • 简单相关关系只反映两个变量之间的关系. • 如果因变量受到多个因素的影响时,因变量与某一自变量之间的简单相关关系显然受到其它相关因素的影响,不能真实地反映二者之间的关系。 • 所以需要考察在其它因素的影响剔除后二者之间的相关程度,即偏相关分析。

  23. 例:为了考察火柴销售量的影响因素,选择煤气户数、卷烟销量、蚊香销量、打火石销量作为影响因素,得数据表。例:为了考察火柴销售量的影响因素,选择煤气户数、卷烟销量、蚊香销量、打火石销量作为影响因素,得数据表。 • 试求火柴销售量与煤气户数的偏相关系数.

  24. 解:根据数据表建立数据文件,求解火柴销售量与煤气户数的偏相关系数.解:根据数据表建立数据文件,求解火柴销售量与煤气户数的偏相关系数. • 具体操作如下: • 1、首先打开数据文件,单击Analyze  Correlate Partial,打开Partial Correlations对话框。

  25. 2、选择要考察的两个变量进入Variables框内,其它客观存在的变量作为控制变量进入Controlling for 框内。本例中考察煤气户数与火柴销量的偏相关系数进入Variables框内,其它相关变量(除年份外)进入Controlling for 框内。

  26. Zero-order correlations ,表示在输出偏相关系数的同时,输出变量间的简单相关系数。

  27. 3、选择结束后,单击OK得输出结果。

  28. Zero Order Partials 简单相关 简单相关系数(一)

  29. 简单相关系数(二)

  30. 偏相关系数

  31. 再讲一例 • 某地29名13岁男童身高(cm)、体重(kg)和肺活量(ml)的数据如下表, 试对该资料作控制体重影响作用的身高与肺活量相关分析。

  32. 激活数据管理窗口,定义变量名:身高为height,体重为weight,肺活量为vc,按顺序输入相应数值,建立数据库。激活数据管理窗口,定义变量名:身高为height,体重为weight,肺活量为vc,按顺序输入相应数值,建立数据库。 • 激活Analyze菜单选Correlate中的Partial...命令项,弹出Partial Correlations对话框。

  33. 现欲在控制体重的影响下对变量身高与肺活量进行偏相关分析,故在对话框左侧的变量列表中选变量height、vc,点击钮使之进入Variables框;现欲在控制体重的影响下对变量身高与肺活量进行偏相关分析,故在对话框左侧的变量列表中选变量height、vc,点击钮使之进入Variables框; • 选要控制的变量weight,点击钮使之进入Controlling for框中; • 在Test of Significance框中选双侧检验,然后点击OK钮即可。

  34. 在结果输出窗口中将看到如下统计数据: • 控制体重的影响后,身高与肺活量的相关系数为0.0926,经检验P = 0.639,故身高与肺活量的线性相关不存在。 • 如果不控制体重的影响,则身高与肺活量的相关系数为0.5884,P为0.001。 • 在有控制的情况下,身高与肺活量的决定系数 = r2 = 0.00857,而无控制的身高与肺活量决定系数 = r2 = 0.34621,可见身高与肺活量的相关有33.764%是由体重协同作用而产生的。

  35. 如果控制变量改为身高,则得如下结果:体重与肺活量的相关系数为0.5528,经检验P = 0.002,故体重与肺活量的线性相关存在。 • 可见,尽管肺活量与身高和体重均有关系,但如果仅仅研究其中一个变量与肺活量的相关关系时,体重的意义会更大。

  36. 练一下 • 某农场在一块试验地作测定施肥量(X )、害虫危害程度(Y)(用数值表示数值越大表示危害约严重) 和亩产(Z )的试验所得数据如表。

  37. 三、Distances过程 • 距离分析是对观测量之间或变量之间相似或不相似的程度的一种测度,是计算一对变量之间或一对观测量之间的广义的距离。 • 这些相似性或距离测度可以用于其他分析过程,例如因子分析、聚类分析或多位定标分析,有助于分析复杂的数据集。 • 例如,是否可以根据一些特性,如发动机的大小和马力来测度两种汽车的相似性,通过计算汽车间的相似性,可以对这些汽车获得一些认识,哪些汽车彼此类似,哪些汽车彼此不同。 • 更正规地分析,可以考虑对相似性使用分层聚类分析或多元定标分析去探测深层结构。

  38. 调用Distances过程可对变量内部各观察单位间的数值进行距离相关分析,以考察相互间的接近程度;调用Distances过程可对变量内部各观察单位间的数值进行距离相关分析,以考察相互间的接近程度; • 也可调用此过程对变量间进行距离相关分析,常用于考察预测值对实际值的拟合程度。 • 在SPSS for Windows 中距离分析属于专业统计分析过程(Professional Statistics opitions)。

  39. 某医师对10份标准血红蛋白样品作三次平行检测,结果如下,问检测结果是否一致?某医师对10份标准血红蛋白样品作三次平行检测,结果如下,问检测结果是否一致?

  40. 1、数据准备 • 激活数据管理窗口,定义变量名:第一次测量值为time1,第二次测量值为time2,第三次测量值为time3,输入相应数值即完成。

  41. 2、统计分析 • 激活Analyze菜单,选Correlate中的Distance命令项,弹出Distance对话框。 • 在对话框左侧的变量列表中选变量time1、time2、time3,点击钮使之进入Variables框。

  42. Compute Distances框: • Between cases表示作变量内部观察值之间的距离相关分析 • Between variables表示作变量之间的距离相关分析

  43. Measure栏中有两种测距方式: • Dissimilarities为不相似性测距; • Similarities为相似性测距。

More Related