概念化 / 操作化 / 测量

概念化/操作化/测量 李孜

概念化 • Q ：同情心的概念是什么？ • 我们通常的词汇的含义是模糊的 • 但我们每个人都可以用一般的、共识的术语表达通过观察在自己头脑中形成的社会真实。达成共识的过程被称为概念化conceptualization,结果就是概念concept

概念化就是指出术语具体含义的过程。 • 这个明确化的过程包括：描述指标—测量时需要用到的维度—概念的不同方面

指标indicators • 通过一个或多个指标，概念化赋予了概念一个明确的意义。 • 指标就是正在研究的概念是否存在的一个标记。它反映我们所要研究的变量. 如 “ 宗教虔诚度”这个变量的其中一个反映指标就是”进教堂” • Q ：同情心的指标有哪些？ • 发现：你可能有几种不同的同情心印象，比如根据感觉或行动来分类 ,而且有不同的组合方式. • 这就是概念的维度

维度dimension • 概念的分类，其中一个可指明的方面或层面 • 完全的概念化就是要区分概念的不同维度和确定概念的每一个指标 • 我们要清楚：哪些维度对研究更重要，否则我们可能将走错方向。 • 我们更要清楚: 概念的厘清是一个持续不断的过程。如偏见（种族/性别/宗教/反对AIDS等） • 在研究的初期，我们应该赋予概念一个初始的意义，以便在资料收集和解释的过程中进行推敲和斟酌。

概念的三种定义 • 真实real定义: 概括事物的”基本特性”和实体的”基本属性“.然而,对于严格的科学研究而言，所谓的基本特性实在过于模糊，以致根本无法使用。 • 名义norminal定义：某个术语被赋予的意义，它无需指示真实，名义定义是任意的，常代表了有关如何使用某一特定术语的某种共识。 • 操作operational定义：明确/精确规定了如何测量一个概念，也就是说如何操作。例如在问卷调查中，操作化的结果就是在问卷上产生一组问题和选项，而这些问题和选项便代表研究中使用的概念。

将含糊不清的术语转化成结构化的具体测量的步骤将含糊不清的术语转化成结构化的具体测量的步骤 • 概念化 • 名义定义（某个术语被赋予的意义，无需指示真实） • 操作定义（明确规定了如何测量一个概念） • 现实世界中的测量

概念化的举例：失范anomie • 涂尔干（法国社会学家）在1897年《自杀论》中为了描述社会规范的失序，选择了“失范”这个概念来形容这种状况。 • 1938年默顿在《社会结构和失范》中对失范概念进行了扩展。 • 1958年鲍威尔给出失范的概念化定义：当发觉自己行为的结果相互矛盾、无法运用、无足轻重的时候，示范便产生了。因为失去了方向，空虚与冷漠便伴随而来，因此示范可以简单地理解为空虚。 • 1956年史汝尔设计了一份测量个人失范的量表，给出了失范的操作化定义。

史汝尔量表 请你对以下问题回答“同意”还是“不同意” • 不论怎么说，男人一般都会越变越坏 • 把新生儿带到这个不断寻找明天的世界，真是一件不公平的事情 • 现在，人们不得不今朝有酒今朝醉，根本管不了明天 • 现在，人们真的不知道还可以信赖谁 • 给政府官员投诉没什么用，因为他们根本不关心普通老百姓。

Q：如何定义 “社会经济地位”？ • 过去一年里，你的年收入是多少？ • 你的最高学历是多少？ • 你的职业是什么？

我们来总结一下 • 概念化是对抽象概念的界定和详述 • 操作化则是特定研究程序（操作）的发展，并指向经验观察 • 操作化的过程并没有一个系统化的程序可遵循

操作化选择应注意 对任何概念进行操作化时，一定要清楚知道变量的 • 变异范围如 “收入” 的范围；如测量对某个事情的“态度”时的范围；变异的范围的选定要根据研究议题的不同属性分布而定。“这些属性间的差别是否真正带来的分析的差异？” • 变异的两极—测量的精确程度，对变量属性的区分要达到什么精确程度。如年龄/婚姻的精确—取决于你想要了解多详细的细节宁可做得精确也不要做得粗略

界定变量及其属性 • 概念化和操作化就是详细说明变量及其属性的过程 • 每个变量（分类变量）都应包含2个要素变量的属性 • 完备性（exhaustive）注意 “其他” • 排他性（mutually exclusive变量的各个属性应具有互斥性

确定测量层次 • 定类测量（nominal measures） • 定序测量（ordinal measures） • 定距测量（interval measures） • 定比测量（ratio measures）

测量尺度 • 定类尺度：测量层次中最低的一种。其本质上是一种分类体系， • 即将调查对象的不同属性或特征加以区分，标以不同的名称或符号，确定其类别。其数学特征主要是属于或不属于。如：性别、职业、婚姻状况、宗教信仰等注意：所分类别既要具有穷尽性，又要具有互斥性。

测量尺度 • 定序尺度：又称等级尺度。其取值可以按照某种逻辑顺序将调查对象排列出高低或大小，确定其等级及次序。 • 其数字特征是大于或小于，比定类尺度的数字特征高一个层次。 • 如：文化程度、城市的规模、社会地位、住房条件、工作能力等。

测量尺度 • 定距尺度：又称等距尺度。可以确定它们之间相互之间不同等级的间隔距离和数量差别。其测出的结果可以进行加减运算。如：人的智商IQ、温度等 • 注意：定距尺度的值虽然可以为零，但不是绝对零点。

测量尺度 • 定比尺度：又称等比尺度。除了具有前三种尺度的性质外，还具有一个绝对的零点，即有实质意义的零点。 • 所以其测量值能进行加减、乘除计算。 • 如：收入、年龄、收费等。

四种测量尺度的数学特征总结 定类定序定距定比类别区分（=、=）有有有有次序区分（>、<）有有有距离区分（+、-）有有比例区分（*、/）有

测量层次是可以从高转化到低的 • 如收入定比测量 --〉定序测量--〉定性测量 • SPSS—变量measure –Scale系统默认的测量方式，只能是数值型变量\ordinal\nominal 数据可是数值型也可是字符型

评估测量质量的标准 • 测量的精度precision—测量变量属性的精确性程度如　　他出生在重庆市他出生在重庆市的沙坪坝区＊＊街道 • 测量的准确性accuracy—是否真的反映了现实 • 有时，不精确说法却比精确说法更准确地反映了事实。

评估测量质量的标准 • 信度 reliability –精确性举例：测量某人健康状况，以下哪种问题更可信？你最近两周患过病吗？你一生中，你患过多少次病？ • 效度 validity—准确性举例：测量员工的满意度，以下哪种问题更有效？员工向工会申述的次数员工到图书馆借书的次数实证测量在多大程度反映了概念的真实含义？

测量信度：指采取同样的方法对同一对象重复进行测量所得到结果相一致的程度。即测量结果的一致性或可靠性。测量信度：指采取同样的方法对同一对象重复进行测量所得到结果相一致的程度。即测量结果的一致性或可靠性。 • Q：如何知道一个人的体重？以上方法是否具有可信度？注意：信度高并不代表准确性高如调低磅秤的刻度注意偏误 bias 会影响准确性

社会学研究中常遇到的信度问题 • 观察者个人的主观介入--〉不同的访问者会从同一个受访者那里得到不同的答案 • 由于我们提出的问题过于复杂，尽管受访者有清楚的观点却无法清楚地表达，这样同一个问题询问两遍就会得到两个不同的答案。

怎样建立有信度的测量？ • 培训你的调查员，采用同样的询问方法 • 问题应明确地让受访者知道如何回答 • 问一些与受访者相关的问题，而且用词造句应该明确 • 利用已有的更科学的测量方法如量表 • 懂得用技术来处理信度

量表scale • 量表能通过指标之间的结构（指标的顺序、指标重要性的权重等），提供测量时更有保证的排序。 • 其最大的功能：精简资料的效率指标index 与量表scale 的区别 • 指标是通过单个属性的分值累积来建立,在指标中,每一个具体的陈述(项目)在对概念的测量中都具有同等的地位,也不存在特定的顺序结构. *每个陈述所表达的态度方向与记分的方向应一致。 • 量表是通过对问题的不同反应模式赋予相应的分值，使不同选项反映变量变异程度的强弱。

量表的种类很多，较为常用的有以下几种量表：量表的种类很多，较为常用的有以下几种量表： • 鲍氏社会距离量表（Bogardus social distance scale） • 瑟斯东量表（Thurstone scale） • 李克特量表（Likert Scale） • 语义差异（Semantic Differential scale ）量表 • 哥特曼量表（Guttman Scale）

鲍格达斯社会距离量表 • 你愿意让AIDS人住在你的国家吗？ • 你愿意让AIDS人住在你的社区吗？ • 你愿意让AIDS人住在你家附近吗？ • 你愿意让AIDS人住在你隔壁吗？ • 你愿意让AIDS人住在你家吗？ • 该量表的项目在强度上有明显的顺序差别：前弱后强。 • 如果某人能接受某个项目，那他就应该接受该项目之前的所有项目。 • 同时，鲍氏量表也说明了量表作为资料压缩工具的经济性。

瑟斯东量表 • 试图在表达变量的指标项目之间建立一种经验性结构，如等距结构。构建的步骤 • 对某个变量选择尽可能多的指标项目如100项交给一组专家（10-15个）--需花费大量的精力 • 要求每一位专家对每一个指标项目的强度进行评判。（通过赋值表达如1-9分）--取决于专家对变量的认识和经验 • 统计所有专家对每一个项目的分数，并选出专家共识最多的项目，剔出没有得到共识的项目。在得到共识的项目中，选择代表1-9分的一个或多个项目。--某个项目的含义会随着时间而演变 • 将选择出来的指标项目置入有关问卷中使用。

李克特量表 likert scale • 在问卷调查中用得最多。试图通过标准化的回答分类、清除的顺序回答形式来提高社会研究中的测量层次。 • 由一组对事物的态度或看法的陈述组成，答案一般分成5类：非常同意、同意、（无所谓/不知道）、不同意、非常不同意如员工工作满意度调查 • 可以对以上分类给1-5的分值，从而对每一个受访者的每个项目的回答给出一些总分值或平均分值等。

例如： 您对理想的生活条件满意程度：很不满意不太满意一般还算满意很满意 1 2 3 4 5 • 住房 □ □ □ □ □ • 工作 □ □ □ □ □ • 婚姻 □ □ □ □ □ • 家庭生活 □ □ □ □ □ • 政府 □ □ □ □ □ • 自然环境 □ □ □ □ □ • 社会风气 □ □ □ □ □ • 个人经济状况□ □ □ □ □ • 个人基本权益□ □ □ □ □ • 社会地位 □ □ □ □ □ • 文化生活 □ □ □ □ □ • 朋友、友谊 □ □ □ □ □ • 时间分配状况□ □ □ □ □

李克特量表的制作步骤 • 围绕主题，写出陈述20-30条，每一陈述给出1-5个答案，并按一致方向给以1-5分。 • 在所要测量的总体中，选择一部分对象（不少于20人）进行试测 • 统计每位测试者在每条陈述上的得分以及每人在全部陈述上的总分。并依总分从高到低对测试者排序。 • 取出总分最高的25%的人和总分最低的25%的人，分别计算这两部分人在每一条陈述上的平均分。 • 将这高低两组的平均分相减，得到每一条陈述的分辨力系数。系数的绝对值越大，说明这一陈述的分辨力越高。 • 保留分辨力高的陈述，形成正式的量表。 REF 书P108表5-7

语义差异 sematic differential 要求受访者在两个极端（语义相反的术语）进行选择如了解受访者对于某段音乐的感觉

哥特曼量表 Guttman scale • 其事实基础也是某些变量项目比其他项目在程度上更为极端 • 格特曼量表是单维的，即量表自身结构中存在着某种由强变弱或由弱变强的逻辑。

下列三种不同情况下那种情况你支持女性堕胎：下列三种不同情况下那种情况你支持女性堕胎： • 女性的健康受到严重威胁时；89% • 因遭强奸而怀孕；81% • 未婚女性。39% 上述3种情况下的支持率差别反映了受访者对各项目支持的不同程度哥特曼量表的逻辑基础是：受访者只要支持某个较强的变量指标，就一定会支持较弱的指标。

支持堕胎的量表分析（1649位受访者）

指标和量表得分（符合量表的回答应该得到和指标建构时相同的得分）指标和量表得分（符合量表的回答应该得到和指标建构时相同的得分）

可重现系数=1-（误差数/猜测数） =1-（53/1649*3） =98.9% 可重现系数表示量表分值准确概括原始回答的百分比。

哥特曼量表的编制 • (1)研究人员围绕它所希望测量的某一事物或概念编制一组陈述，这些陈述应该是单维的，即具有某种趋强或趋弱结构。 • (2)然后用一个小样本对这些陈述进行检验。 • (3)将检验的结果，按最赞成的到最不赞成的回答者，从上到下排列 • (4)然后从中去掉那些不能很好区分赞成的回答者与最不赞成的回答着的陈述。 • (5)按公式：（再现系数=1-误差数/回答总数）计算出再现系数。如果再现系数大于或等于 0.90，我们就称该量表是单维度的。每个人的态度的分就是他回答赞成的项目总数。

哥特曼量表的使用注意 • 1.首先考察项目的表面效度，接下来要考察项目之间的二元甚至多元关系。 • 2．哥特曼量表的逻辑基础是，受访者只要支持某个较强的变量指标，就一定会支持较弱的指标。 • 3．对量表赋值应最大限度地减少重新建构受访者原始答案所产生的错误，也就是赋值能倒推出原始答案。 • 而正确预测的百分比被称作可重现系数（运用量表分值再现受访者对每一项目的原始回答的再现率）。一般原则是，只有该系数达到90％－95％才可以算作量表。

用技术来处理信度的方法 • 信度指标都以相关系数r表示。 • 前测-后测方法--〉再测信度：同一对象采用同一方法在不同时间点先后测量2次，将2次结果计算相关系数。 • 对分法--〉折半信度：研究对象在同一次测量中的结果，按测量项目的单双号或随机分为两组计算相关系数。如一份问卷中有10个问题涉及偏见，可将10个问题随机分成2组，每组有5个问题，每组问题都应该对偏见提供很好的测量。计算这两组问题所得结果的相关系数。 SPSS- Analyze—correlate相关分析

测量效度：指测量工具或手段能够准确测量所要测量的变量的程度。即有效度或准确度。测量效度：指测量工具或手段能够准确测量所要测量的变量的程度。即有效度或准确度。多大程度上准确地反映了概念的真实含义？

效度的分类1 • 表面效度face validity：衡量一个指标的品质，即该指标看起来是否能对某变量进行合理测量即测量内容和测量指标与测量目标之间的适合性和逻辑相符性。实证测量的结果与我们的共识或头脑中的印象的吻合程度。

效度的分类2 • 标准关联效度criterion-related validity : 某测量与外在标准相关的程度。是由一些标准所确定的效度，也称为预测效度。 Q如：与预测学生能力标准相关的有？外在标准可能有 --考试成绩？加入学生会？ • 有时候，我们很难找到一些行为标准来有效地直接测量某些变量。在这种情况下，我们通常会把研究变量与其他变量在理论上的关系作为大致的标准。

效度的分类3 • 建构效度construct validity ：涉及到一个理论假设。在某理论体系内，某测量与其他变量相关的程度。 • 如研究“婚姻满意度”，你建构了婚姻满意度的测量，且要评估它的效度。除了要建立测量外，还应该有一定的理论预期，即先假设婚姻满意度与婚姻忠诚度有关。(婚姻满意的夫妇是否比婚姻不满意的夫妇更少有欺骗对方的情形）如果结果能得到证实，说明测量具有建构效度，否则建构效度则有待商榷。

效度的分类4 • 内容效度 content validity ：测量涵盖了某概念所包含的意义范畴的程度。 • 如我们测量偏见是否包含了：种族偏见/宗教/性别/其他？

信度和效度之间的张力 通常，我们会遇到 • 如果使用可信的操作化定义和测量具体化会削弱概念的丰富内涵。--信度增加了但降低效度 • 如果允许概念有较多的变化或丰富的内涵，那么在具体的情境下就概念运用达成共识的机会就大大减少。--效度增加了但降低了信度。最好的办法是使用不同的测量方法来测量概念不同的方面。

信度和效度 • 如果测量如同靶心，信度就是一种密集的点状形态，不管它是否射在靶心。而效度则是射在靶心周围的点的函数 • 失败的信度可以被视为一种随机误差 • 失败的效度则是一种系统误差 • 缺乏信度或效度的测量都是没用的！

定量的/通则式的技术如调查与实验， 往往更可信 • 定性的/表意式的技术如实地研究与历史研究，往往更有效 • 因此我们要注意：如果无法就测量某个概念达成共识，就用多种方法进行测量；如果某个概念有多个维度，就去测量所有的维度。

概念化 / 操作化 / 测量

概念化 / 操作化 / 测量

Presentation Transcript