820 likes | 1.21k Views
第 3 章 抽样与抽样分布. 会计学 2011 级. 本章内容. 3.1 抽样概述 3.2 抽样分布 3.3 中心极限定理及其应用. 3.1 教学目标. 掌握总体、样本、抽样的含义 了解抽样 单位、 抽样框、参数值、统计值、置信度的含义 了解抽样的类型:概率抽样 & 非概率抽样 掌握常用的抽样方法. 抽样的基本 术语. 抽样 的意义 及类型. 常用的概率抽样方法. 3.1 抽样概述. 一. 二. 三. 至: 3.2. 一、抽样的基本术语. 置信度. 统计值. 总体. 抽样 的 基本 术语. 样本. 参数值. 抽样. 抽样框.
E N D
第3章 抽样与抽样分布 会计学2011级
本章内容 • 3.1 抽样概述 • 3.2 抽样分布 • 3.3 中心极限定理及其应用
3.1教学目标 • 掌握总体、样本、抽样的含义 • 了解抽样单位、抽样框、参数值、统计值、置信度的含义 • 了解抽样的类型:概率抽样&非概率抽样 • 掌握常用的抽样方法
抽样的基本术语 抽样的意义及类型 • 常用的概率抽样方法 3.1 抽样概述 一 二 三 至:3.2
一、抽样的基本术语 置信度 统计值 总体 抽样的 基本术语 样本 参数值 抽样 抽样框 抽样单位
总体 • 总体通常与构成它的元素共同定义 • 总体是构成它的所有元素的集合,元素(element)则是构成总体的最基本单位,也称为单位。 • 例如要研究南京城郊的失地农民的社会保障问题,那么南京城郊所有失地农民就构成了我们研究的总体,其中的每一个农民都是这个总体中的一个单位。 • 总体中所包含元素的数目通常用大写字母表示。
样本(sample) • 样本就是从总体中按一定方式抽取出的—部分单位的集合。或者说一个样本就是总体的一个子集。 • 比如,从某省总数为12.8万人的大学生总体中,按一定方式抽取出l000名大学生进行调查,这1000名大学生就构成该总体的一个样本。 • 样本中元素的数目通常用小写字母表示。
抽样(sampling) • 所谓抽样,指的是从组成某个总体的所有元素的集合中,按一定的方式选择或抽取一部分元素的过程,或者说,抽样是从总体中按一定方式选择或抽取样本的过程。 • 比如,从3000名工人所构成的总体中,按一定方式抽取200名工人的过程;或者从1000户家庭构成的总体中,按一定方式抽取一个由100户家庭构成的样本的过程,都叫做抽样。 • 在我们的日常生活中经常存在着抽样。如抽血化验,尝试水温,窥一斑而知全豹。
抽样单位(sampling unit) • 抽样单位就是一次直接抽样所使用的基本单位。 • 比如从一个城市中选取几个人口普查的街区作为样本,然后从这几个选出的街区中选择一些家庭作为样本,最后从这些家庭中选出一些成年人作为样本。这三个阶段的抽样单位分别为街区、家庭、成年人。
抽样单位与构成总体的元素有时是相同的,有时又是不同的。抽样单位与构成总体的元素有时是相同的,有时又是不同的。 • 比如,上面所举的例子中,单个的大学生既是构成某省12.8万名大学生这一总体的元素,又是我们从总体中一次直接抽取出1000名大学生的样本时所用的抽样单位;但是,当我们从这一总体中一次直接抽取出40个班级,而以这40个班级中的全部学生(假定正好1000名)作为我们的样本时,抽样单位(班级)与构成总体的元素(学生)就不是一样的了。
抽样框 • 抽样框又称作抽样范围,它指的是一次直接抽样时总体中所有抽样单位的名单。 • 比如,从一所中学的全体学生中,直接抽取200名学生作为样本。那么,这所中学全体学生的名单就是这次抽样的抽样框;如果是从这所中学的所有班级中抽取部分班级的学生作为调查的样本,那么,此时的抽样框就不再是全校学生的名单,而是全校所有班级的名单。
参数值(Sample Parameter) • 也称总体值,它是关于总体中某一变量的综合描述,或者说是总体中所有元素的某种特质的综合数量表现。 • 在统计中最常见的参数值是总体某一变量的平均数,比如,某市待业青年的平均年龄、某厂工人的平均收入等等,它们分别是关于某市待业青年这一总体在年龄这一变量上的综合描述,以及某厂工人这一总体在收入这一变量上的综合描述。 • 需要注意的是,参数值只有对总体中的每一个元素都进行调查或测量才能得到。
统计值(Statistic) • 统计值也称为样本值,它是关于样本中某一变量的综合描述,或者说是样本中所有元素的某种特征的综合数量表现。 • 统计值是从样本中计算出来的,它是相应的参数值的估计量,比如,样本的平均值就是通过对样本中的每一个元素进行调查或测量后计算出来的,它是相应的总体平均值的估计量。 • 抽样的目的之一,就是要通过这些样本值去估计和推断各个总体值。每—个样本中所得到的估计量,都只是总体的许多个可能估计量中的一个。 • 抽样设计的目标,就是尽可能使所抽取的样本的估计量接近总体的参数值。
通过对某市2000户样本进行调查,统计结果显示,户均收入为27400元左右,并进而估计该市的户平均收入为27000左右,那么统计值是,参数值是。通过对某市2000户样本进行调查,统计结果显示,户均收入为27400元左右,并进而估计该市的户平均收入为27000左右,那么统计值是,参数值是。
置信度 • 置信度也称为置信水平,它是指总体参数值,落在样本统计值某一区间内的概率,或者说是总体参数值落在样本统计值某一区间中的把握性程度。它反映的是抽样的可靠性程度。 • 置信区间指的是样本统计量与总体参数值之间的误差范围,置信区间反映的是抽样的精确性程度。 返回3.1目录
二、抽样的意义及类型 • 人们在研究某个自然现象或社会现象时,往往会遇到不方便、不可能或不必要对所有的对象作调查的情况,于是抽样就成为获取信息的一种有效手段。 • 抽样主要涉及和处理有关总体与部分之间的关系问题。抽样作为人们从部分认识整体这一过程的关键环节,其基本作用是向人们提供一种实现“由部分认识总体”这一目标的途径和手段。 抽样 复杂的社会现象 有限的研究资源
抽样的意义 • 为了收集必要的资料,对所研究对象(总体)的全部元素逐一进行观测,往往不很现实。 总体庞大,难以对总体的全部元素进行研究,如产品质量检测 元素多,搜集数据费 时、费用大,不及时而使所得的数据无意义 抽 样 原因 检查具有破坏性 炮弹、灯管、砖等
为什么能抽样? • 中国成语“一叶知秋”出自《淮南子·说山训》:“以小明大,见一叶落而知岁之将暮,睹瓶中之冰而知天下之寒。” • 谚语:“你不必吃完整头牛,才知道肉是老的。” • 可见,可以从检查一部分得知全体。
一个例子 • 《文学文摘》(literary digest)预测的失误 • 1936年美国正从经济大恐慌中复苏,全国仍有900万人失业。当年的美国总统大选,由民主党员罗斯福与共和党员兰登进行角逐。 • 《文学文摘》杂志对结果进行了调查预测,他们根据当时的电话号码簿及该杂志订户俱乐部会员名单,邮寄1000万份问卷调查表,回收约240万份,工作人员获得了大量的样本,对此进行了精确的计算。 • 根据数据的整理分析结果,他们断言:在总统选举中,兰登将以370:161的优势,即以57%:43%,领先14个百分点击败罗斯福。
与之相反,一个名叫乔治•盖洛普的人,对《文学文摘》调查结果的可信度提出质疑。他也组织了抽样调查,进行民意测验,他的预测与《文学文摘》截然相反,认为罗斯福必胜无疑。与之相反,一个名叫乔治•盖洛普的人,对《文学文摘》调查结果的可信度提出质疑。他也组织了抽样调查,进行民意测验,他的预测与《文学文摘》截然相反,认为罗斯福必胜无疑。 • 结果,罗斯福以62%:38%压倒性地大胜兰登。这一结果使《文学文摘》销声匿迹,而盖洛普则名声大噪。 • 为何预言失败?难道共和党人离邮筒更近?
问题的症结 • 抽样框出了问题 • 电话用户和汽车拥有者(富人样本),排除了穷人样本。 • 而罗斯福的新经济政策得到了穷人的支持。 • 《文学文摘》的致命失误在于没有反映全民的投票意愿。 • 可见,抽样对象选取的合理性可以事半功倍。
抽样的类型 概率抽样 简单随机抽样,分层抽样,系统抽样,整群抽样 根据一个已知的概率来抽取样本单位,因此,哪个单位被抽中与否完全是随机的。遵循随机原则,避免人为误差。 抽样的类型 非概率抽样 随意抽样,判断抽样,定额抽样,雪球抽样 研究人员有意识地选取样本单位,样本单位的抽取不是随机的。受客观条件制约,主观意愿,难以保证样本代表性
概率抽样 • 概率抽样的特征 • 按一定的概率以随机原则抽取样本 • 抽取样本时使每个单位都有一定的机会被抽中 • 每个单位被抽中的概率是已知的,或是可以计算出来的 • 当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率
概率抽样的程序 • 界定总体: • 《文学文摘》为什么预测失误? • 制定抽样框: • 依据已经明确界定的总体范围收集总体中全部抽样单位的名单,并通过对名单进行统一编号来建立起供抽样使用的抽样框。 • 决定抽样方案 • 实际抽取样本 • 评估样本质量 返回3.1目录
三、常用的概率抽样方法 • 简单随机抽样 • 分层抽样 • 系统抽样 • 整群抽样
1、简单随机抽样 • 简单机抽样是按随机原则直接从总体的个单位中抽取个单位作为样本,又称纯随机抽样。 • 随机原则就是等可能性原则:要保证每个总体单位都有相同的机会(概率)被抽中。 • 简单随机抽样是一种最基本最简单的抽样组织形式。 • 简单随机抽样适用于均匀总体,即具有某种特征的单位均匀地分布于总体的各个部分。 • 简单随机抽样抽取元素的具体方法有重复抽样和不重复抽样。
2、分层抽样 • 一个单位的职工有500人,其中不到35岁的有125人,35~49岁的有280人,50岁以上的有95人。为了了解该单位职工年龄与身体状况的有关指标,从中抽取100名职工作为样本,应该怎样抽取? • 分层抽样又称分类抽样。它是先对总体各单位按主要标志加以分组,然后再从各组中按随机原则抽选一定单位构成样本。 • 在分层或分类时,应使层内各单位的差异尽可能小,而使层与层之间的差异尽可能大。 • 一般地,当总体由差异明显的几个部分组成时,宜采用分层抽样。
分层的标准和比例 • 分层的标准问题 • 以分析的主要变量或相关变量作为分层的标准 • 保证各层内部同质性强,各层之间异质性强 • 以已有明显层次区分的变量作为分层变量 • 分层的比例问题 • 按比例分层抽样 • 不按比例分层抽样
分层抽样的优缺点 • 优点: • 在不增加样本规模的前提下降低抽样误差,提高抽样精度,增大代表性。 • 便于了解总体内不同层次的情况,以及对总体中的不同层次进行单独研究或者进行比较。 • 缺点: • 对抽样框的要求比较高,必须有分层的辅助信息; • 收集或编制抽样框的费用比较高; • 若调查变量与分层的变量不相关,效率可能降低。
r+(n-1)k 起点r r+k r+2k 3、系统抽样 • 也称机械抽样或等距抽样。它先按某一标志(有关标准或无关标志)对总体各单位进行排队,并根据总体规模和样本容量计算出抽样间隔,再随机地确定抽样起点,就是第一个被抽取的个体,最后按照相同的距离或间隔顺序地抽取样本单位,直到完成样本为止。 • 抽样间隔=总体数()÷样本数() …
例题 • 某地区有零售店112户,采用等距离抽样方法抽选11户进行调查。 • 第一步,将总体调查对象(112户零售店)进行编号,即从1号至112号。 • 第二步,确定抽样间隔。已知调查总体N=112,样本数n=11户,N/n=112/11=10.18,从前1~110中抽取样本,故抽样间隔=110/11=10。 • 第三步,确定起抽号数。用10张卡片(即抽样间隔)从1号至10号编号,然后从中随机抽取1张作为起抽数号。如2号为起抽号数。 • 第四步,确定被抽取单位。从起抽号开始,按照抽样间隔选择样本。本例从2号起每隔10号抽选一个,直至抽足11个为止。即所抽的单位是编号为2、12、22、32、42、52、62、72、82、92、102的11个零售店。
系统抽样的前提条件 • 系统抽样的一个十分重要的前提条件,是总体中个体的排列,相对于研究的变量来说是随机的,即不存在某种与研究变量相关的规则分布。否则,系统抽样的结果将会产生极大的偏差。 • 从总体2000户家庭的社区中,抽取一个50户家庭的样本进行调查消费状况的调查,而这2000户家庭的名单是按每个家庭总收入的多少,由高到低的顺序排列的。初始号码为3和38,所抽样本家庭平均收入有很大区别,消费状况也有很大区别。 • 每个班级内的50名学生按照学生成绩的高低来排序,每个班抽取一名学生组成样本,初始号码为2和48号,所抽样本的平均成绩差别很大。
系统抽样的优缺点 • 优点: • 简单易操作 • 当对总体结构有一定了解时,充分利用已有的信息对总体中的个体进行排队后再抽样,可提高抽样效率 • 当总体中的个体存在一种自然编号时,采用系统抽样比较方便 • 缺点: • 当在不了解样本总体的情况下(如性别差异,经济基础,个人喜好,天气因素等等),所抽出的样本可能会有一定的偏差。
4、整群抽样 • 又称聚点抽样或群体抽样,它是先将总体划分为若干群(群),再从中任意抽取部分群(群),然后对抽中的群作全面调查,并据此结论对总体加以推断。
整群抽样尤其适用于存在自然群的场合 • 在进行居民出行调查中,可以采用这种方法,以住宅区的不同将住户分群,然后随机选择群体为抽取的样本。 • 因为整群抽样是成群地抽选样本,故整群抽样的误差较大。为减小误差,整群抽样要求群与群之间的差异要尽量小,群内部的差异可以大一些。 • 整群抽样的目的在于方便抽样。在对总体缺乏了解的情况下通常采用。
整群抽样的特点 • 整群抽样的特点 • 抽样单位不是单个的个体,而是成群的个体 • 优缺点 • 优点:不需要详细的所有元素的名单,简单,费用低 • 缺点:样本的分布面不广,代表性相对较差 • 整群抽样和分层抽样的比较 • 子群间异质性强,群内同质性强——分层抽样 • 子群间同质性强,群内异质性强——整群抽样
下列问题采用哪种抽样方式较为合理 ? • 从10台冰箱中抽取3台进行质量检查; • 某电影院有32排座位,每排有40个座位,座位号为140。有一次报告会坐满了听众,报告会结束以后为听取意见,需留下32名听众进行座谈; • 某学校有160名教职工,其中教师120名,行政人员16名,后勤人员24名。为了了解教职工对学校在校务公开方面的意见,拟抽取一个容量为20的样本。
解答: • 总体容量比较小,用抽签法或随机数表法。 • 总体容量比较大,人员没有明显差异,且刚好32排,每排人数相同,可采用等距抽样。将每排的40个人组成一组,共32组,从第1排至第32排分别为第132组,先在第一排用简单随机抽样法抽出一名听众,再将其他各排与此听众座位号相同的听众全部取出。 • 差异明显,采用分层抽样。总体容量为160,故样本中教师人数应为名,行政人员应为名,后勤人员应为名。
练习题 • 某公司在A、B、C、D四个地区分别有150个、120个、180个和150个销售点,公司为了调查产品销售情况,需从这600个销售点中抽取容量为100的样本,记这项调查为①;在C地区有20个特大型销售点,现从中抽取7个调查它的销售收入和销后服务情况,记这项调查为②;则完成①、②这两项调查应采取的抽样方法依次为( ) • 分层抽样法,系统抽样法 • 分层抽样法,简单随机抽样法 • 系统抽样法,分层抽样法 • 简单随机抽样法,分层抽样法
练习题 • 下列属于分层抽样特点的是( ) • 从总体中逐个抽取 • 将总体分成几层,分层进行抽取 • 将总体分成几部分,按事先确定的规则在各部分抽取 • 将总体随意分成几部分,然后进行随机抽取 返回3.1目录
3.2教学目标 • 了解抽样分布的概念 • 掌握总体均值、总体比率、总体方差的抽样分布形式
抽样分布的概念 样本均值的抽样分布 • 样本比率的抽样分布 • 样本方差的抽样分布 • 抽样误差 3.2 抽样分布 一 二 三 四 五 至:3.3
一、抽样分布的概念 • 先举例说明:某班组5名工人一月份奖金分别为(A)20元,(B)25元,(C)30元,(D)35元,(E)40元。若以该班组为一总体,可计算其总体均值与方差:
我们采用重复抽样方式从5人中随机地抽出2个构成样本,共有25个样本点,其均值如下表:我们采用重复抽样方式从5人中随机地抽出2个构成样本,共有25个样本点,其均值如下表:
对表中的样本均值计算均值(即样本均值的期望值)对表中的样本均值计算均值(即样本均值的期望值) • 重复抽样的样本均值的期望值等于总体均值,这说明虽然每个样本的取值可能与总体均值有一定离差,但从总体来看,所有样本均值的均值与总体均值是没有离差的。 • 对于从总体中抽取容量为的所有可能样本的均值,以上结论具有普遍的意义:
通常情况下,总体参数是根据样本统计量来推断的,因而这种推断必然具有某种不确定性。为了判断推断的可靠性,样本统计量的抽样分布就成为了推断总体参数的理论依据。通常情况下,总体参数是根据样本统计量来推断的,因而这种推断必然具有某种不确定性。为了判断推断的可靠性,样本统计量的抽样分布就成为了推断总体参数的理论依据。
抽样分布的定义 • 某个样本统计量的抽样分布,从理论上说就是在重复选取容量为的样本时,由该统计量的所有可能取值形成的相对频数分布,简称抽样分布,此分布是抽样推断的基础。 • 样本统计量是样本的函数,由于不同的样本计算出来的统计量的值是不同的,因而样本统计量是一个随机变量。 • 样本均值的分布、样本比例的分布、样本方差的分布都称为抽样分布。