Understanding Degree of Association in Categorical Variables: RR and OR

第14章　无序分类变量的统计推断——χ2检验 （续）

第14章　无序分类变量的统计推断——χ2检验（续）第14章　无序分类变量的统计推断——χ2检验（续） • 14.4　两分类变量间关联程度的度量 • 14.5　一致性检验与配对χ2检验 • 14.6　分层χ2检验 • 14.7　本章小结

14.4两分类变量间关联程度的度量 • 14.4.1　相对危险度与优势比 • 14.4.2　分析实例

14.4两分类变量间关联程度的度量 • c2检验可以从定性的角度说明两个变量是否存在关联，当拒绝H0时，在统计上有把握认为两个变量存在相关。 • 但接下来的问题是，如果变量间存在相关，它们之间的关联程度有多大？ • 如果有一个指标能够告诉研究者：男性与女性相比，购买该产品的可能性是女性的3倍，这就非常容易理解。

14.4.1　相对危险度与优势比 • 相对危险度（Relative Risk，RR）是一个概率的比值，是指实验组人群反应阳性概率与对照组人群反应阳性概率的比值。RR=Pt /Pc=(a/nt)/(c/nc) • 其中，Pt和Pc分别为实验组和对照组人群反应阳性的概率，nt和nc分别为实验组和对照组总人数，a和c分别为实验组和对照组反应阳性人数。

14.4.1　相对危险度与优势比 • RR值用于反映实验因素与反应阳性的关联程度。取值范围从0到无限大。 • 数值为1时，表明实验因素与反应阳性无关联。 • 小于1时，表明实验因素导致反应阳性的发生率降低。 • 大于1时，表明实验因素导致反应阳性的发生率增加。

14.4.1　相对危险度与优势比 • 优势比（Odds Ratio，OR）是一个比值的比，是反应阳性人群中实验因素有无的比例与反应阴性人群中实验因素有无的比例之比。OR=(a/b)/(c/d)=(ad)/(bc) • 其中，a,b分别为反应阳性组实验因素阳性和阴性的人数。c,d分别为反应阴性组实验因素阳性和阴性的人数。

14.4.1　相对危险度与优势比 • 显然，如果OR大于1，则说明该试验因素更容易导致结果为阳性。或者说采用试验因素和结果为阳性有关联。 • OR不太好理解，因此大多数情况下人们希望能够将优势比按照相对危险度的含义来解释。当所关注的事件发生概率比较小时（<0.1），优势比可作为相对危险度的近似。

14.4.2　分析实例 • 例14.3 某公司实行数据库营销，其杂志销售部每个月向数据库中的人们发送征订邮件，但是回应率极低。他们希望找到一种好的方法来定位潜在的客户，只向这些客户发放邮件，从而节省人力物力。数据库中的资料包括：个人一般信息（年龄、性别、婚姻状况、收入、受教育水平及是否退休等），

14.4.2　分析实例 • 个人行为特征（主要交通工具、有无手机、呼机、电视、CD及是否订阅报纸）。另外，在发送邮件后，还有一个变量也加入到了数据库中：是否对邮件进行回应，即是否在邮件的提示性进行杂志购买。经研究发现，报纸订阅与邮件发送有相关性。该部门经理想了解报纸订阅者回应邮件的概率是非订阅者的几倍。 • 数据见\Tutorial \sample _files \demo.sav

14.4.2　分析实例 • 列联表分析表明，并没有太多人对杂志的邮件做出回应，但是其中订阅人占了较大比例。

14.4.2　分析实例 • 经c2检验，p值为0.000，故认为订阅报纸与邮件回应是相关的。那么报纸订阅者的回应概率是未订阅者的多少倍呢？通过计算RR来解决。 • AnalyzeDescriptive Statistics  Crosstabs • Row：News • Column：Response • Statistics：Risk

14.4.2　分析实例 • 对于报纸订阅者而言，邮件响应的相对危险度是其回应概率与非报纸订阅者的回应概率的比值，其估计值是(380/2768) / (299/3632) = 13.7% / 8.2%=1.668，表明报纸订阅者对邮件的响应概率是非报纸订阅者的1.668倍。 • 或者说报纸订阅者对邮件的无响应的概率是非报纸订阅者的0.94倍。

14.4.2　分析实例 • 一个事件的OR是它发生的概率除以不发生的概率

14.5　一致性检验与配对χ2检验 • 14.5.1Kappa一致性检验 • 14.5.2　配对χ2检验

14.5.1Kappa一致性检验 • 例14.4 某公司期望扩展业务，增开几家分店，但对开店地址不太确定。于是选了20个地址，请两位资深顾问分别对20个地址作了一个评价，把它们评为好、中、差三个等级，以便确定应对哪些地址进行更进一步调查，那么这两位资深顾问的评价结果是否一致。 • 数据见site.sav

14.5.1Kappa一致性检验 • AnalyzeDescriptive Crosstabs • Rows：cons1（第一位顾问的评价等级） • Columns：cons2（第二位顾问的评价等级） • Statistics：Kappa

14.5.1Kappa一致性检验 • Kappa检验的原假设：Kappa=0，即两者完全无关。结果显示Kappa=0.429，P<0.05，拒绝原假设，认为两位顾问的评价结果存在一致性。

14.5.1Kappa一致性检验 • 一致性检验在医学中用得很多。如研究一种简单易行的诊断方法是否可代替另一种可靠但操作繁杂的诊断方法，就会用到一致性检验。 • 在数据分析中，比较两种预测方法预测结果的一致性也可能用到Kappa检验。

14.5.2　配对χ2检验 • 通过Kappa检验，解决了两种测量间究竟有无关联的问题，但是通过列联表的观察，发现两位顾问的评价是否不太一致，这种假设又如何来加以分析呢？ • McNemar配对χ2检验就是经典的配对检验，专门用于解决这类问题。

14.5.2　配对χ2检验 • 在Statistics子对话框中选择左下角的McNemar复选框。此处原假设：两顾问的评价结果无差别，而p=0.046<0.05，故拒绝原假设，认为应当有差别。

14.5.2　配对χ2检验 • Kappa检验利用列联表中的全部信息，而McNemar只会运用非主对角线单元格的信息，即它只关心两者不一致的评价情况，用于比较两个评价者间存在专门的倾向。 • 因此，对于一致性较好，即绝大多数数据都在主对角线上的大样本列联表，McNemar检验可能会失去实用价值。

14.6　分层χ2检验 • 分层χ2检验是把研究对象分解成不同层次，每层分别研究行变量与列变量的相关。 • 如按工资级别分成低、中、高层，分别研究低、中、高工资的人报纸订阅与邮件回应的关系。

14.6　分层χ2检验 • 按受教育水平分成本科以下、本科、硕士、博士及以上，分别研究性别与职位类别的关系，借以排除这些分层因素（如工资级别、受教育水平）对行变量与列变量关联的干扰。 • 分层因素在几个组之间的分布不均，既可能削弱了原本存在的行变量与列变量间的关系，也可能使得原本不存在关系的两个变量关系呈现统计学显著性。

14.6　分层χ2检验 • 例14.5 某零售连锁店对3家分店的客户满意度进行了调查，数据见cmh.sav，其中一项指标是在购物时是否经常向店员寻求帮助，现希望分析寻求帮助与性别有无联系。

14.6　分层χ2检验 • 将gender和contact分别作为行变量和列变量，并做χ2检验，p<0.05，认为两者间有联系。

14.6　分层χ2检验 • 但是，有分析者考虑到可能在不同分店间顾客的平均求助倾向并不相同，因此可以分层χ2检验。 • Layer 1 of 1 ：store • 下表分别是对各分店数据进行χ2检验，可见虽然p值大小各异，但均无统计学差异。

14.6　分层χ2检验 • 但是，由于分层后样本量大大减小，这究竟是因为检验效能不足导致的无差异，还是真的无差异？ • 为此可以使用Cochran’s and Mantel-Haenszel χ2检验来分析。这种方法可以在考虑了分层因素的影响后给出检验结果。 • Statitics: Cochran’s and Mantel-Haenszel

14.6　分层χ2检验 • 首先给出的是层间差异的检验，即考察不同层间gender与contact的联系是否相同。分别采用两种检验方法，结论相同，认为在不同分店层间， gender与contact的联系是相同的。

14.6　分层χ2检验 • 在考虑了分层因素影响后，检验认为性别与求助有关。

14.6　分层χ2检验 • 最后给出调整了分层因素作用后的综合OR值=0.636，即去除了不同分店的混杂效应后，和女性相比，男性顾客寻求帮助的优势比为0.636，或者说更不容易寻求帮助。

14.6　分层χ2检验

14.6　分层χ2检验 • 分层χ2检验是一种很好的控制其他因素的方法，使分析者能得到更准确的结果。如果数据量足够大，还可以引入更多的分层因素加以控制。 • 但是，和SAS中的CMH χ2不同，SPSS提供的CMH χ2检验只能进行二分类变量的检验，而不能进行多分类变量的检验。

14.7　本章小结 • χ2检验 • 假设观察频数与期望频数没有差别，而统计量χ2值表示二者间的偏离程度。 • 关联程度的度量 • χ2检验从定性的角度分析是否存在相关行，而各种关联指标（相对危险度RR与优势比OR）从定量的角度分析相关的程度如何。

14.7　本章小结 • Kappa一致性检验与配对χ2检验 • Kappa一致性检验对两种方法结果的一致程度进行评价，而配对χ2检验则用于分析两种分类方法的分类结果是否有差异。 • 分层χ2检验 • 分层χ2检验是把研究对象分解成不同层次，按各层对象来进行行变量与列变量的独立性研究。Statistics中Cochran’s and Mantel-Haenszel statistics会自动给出结果。

Understanding Degree of Association in Categorical Variables: RR and OR

Understanding Degree of Association in Categorical Variables: RR and OR

Presentation Transcript