1 / 37

第四节 使用概率的统计

第四节 使用概率的统计. 一 总体与样本概念 数理统计(即:使用概率的统计)中首先要遇到的基本而重要的概念便是所谓总体与样本概念。 总体:在数理统计中,研究某一问题时,常把要研究的对象的全体称为总体(或母体)(例如,考察某厂某天生产的一批产品时,这批产品就是总体)。. 个体:把总体中每一个基本单位称为个体(如,这批产品中的每个产品就是个体)。 由于总体 中的个体一般较多(如,这 批产品中的产品个数一般较多),有时甚至要遇到破坏性试验(如,测量一批灯泡的寿命),研究该总体时,普查的方法往往是行不通的,只能从中抽取若干个个体进行考察。.

Download Presentation

第四节 使用概率的统计

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第四节 使用概率的统计 一 总体与样本概念 数理统计(即:使用概率的统计)中首先要遇到的基本而重要的概念便是所谓总体与样本概念。 总体:在数理统计中,研究某一问题时,常把要研究的对象的全体称为总体(或母体)(例如,考察某厂某天生产的一批产品时,这批产品就是总体)。

  2. 个体:把总体中每一个基本单位称为个体(如,这批产品中的每个产品就是个体)。个体:把总体中每一个基本单位称为个体(如,这批产品中的每个产品就是个体)。 由于总体 中的个体一般较多(如,这 批产品中的产品个数一般较多),有时甚至要遇到破坏性试验(如,测量一批灯泡的寿命),研究该总体时,普查的方法往往是行不通的,只能从中抽取若干个个体进行考察。

  3. 样本:假定在总体 中,抽取n个个体 这n个个体就称为来自总 体 的一个容量为n的样本(或子样), 可记作 样品:组成样本的每一个个体称为样品。 至此,我们已给出了总体、个体、样本、样本容量及样品的概念。

  4. 显然,考察样本的目的是为了由此推断总体的性质,引出科学的结论。于是有显然,考察样本的目的是为了由此推断总体的性质,引出科学的结论。于是有 数理统计的基本思想:由样本推断总体(由局部推断整体)

  5. 上面给出的总体与样本的概念是比较直观的,容易为初学者所接受。但遗憾的是,这种提法不利于进行统计分析。为此,我们通过具体例子来引出另一种便于进行统计分析的提法。上面给出的总体与样本的概念是比较直观的,容易为初学者所接受。但遗憾的是,这种提法不利于进行统计分析。为此,我们通过具体例子来引出另一种便于进行统计分析的提法。 例1 某灯泡厂生产灯泡,由于种种随机因素的影响,生产出来的灯泡的寿命是不尽相同的。为了断定所生产灯泡的质量,这批灯泡的寿命是一个重要指标。

  6. 此时,可把这批灯泡视为总体 ,而把这批灯泡中的每一个灯泡视为个体。为获得关于这批灯泡的寿命的资料,可以抽取若干个 (譬如说n个)灯泡 做寿命试验。 这样, 就是来自总体 的 一个容量为n的样本,而单个的 就是样品

  7. 但需注意,这里我们并不关心这批灯泡的所有性能,而是仅仅考察这批灯泡的寿命(记为)X,这样就把“泛泛”的 统一成了X。 我们可以假想将这批灯泡逐一编好了号码,第j个灯泡的寿命记为X(j)。现从中任取一个灯泡,简单地用j表示“取到的是第j个灯泡”,则X(j)为试验结果的函数(当j跑遍所有试验结果时),从而为随机变量。显然,可将这样的X(j)与X视为一致。这样,总体就成了随机变量X 。

  8. 再设所取灯泡 的寿命分别 为 。注意到预先根本不知 道抽取的是哪n个灯泡,因此 都是随机变量。至此已将 处 理成了随机变量 。为保证 样本能较好地代表总体,抽样(即抽取样品)时要排除人为的偏差,可把抽取 n个灯泡 的过程依下法进行:

  9. 每次抽取一个(贴上标签后)再放回去,有放回抽取n次,且要保证每一次中这批灯泡中每个灯泡被抽到的机会都一样,每次抽取一个(贴上标签后)再放回去,有放回抽取n次,且要保证每一次中这批灯泡中每个灯泡被抽到的机会都一样, 然后将取到的n个灯泡 (可 能有重复的)进行寿命试验。这样,就获得了若干个(n个)独立且与X有相同 的概率分布的随机变量 (这 里,所谓 相互独立是指它 们的取值互不影响)。 我们总结出如下较严格的定义:

  10. 定义 设 为随机变量, 若 相互独立,且都与X有 相同的概率分布(或密度函数), 则 称X为总体,而称 为来自 总体X的一个容量为n的样本,可将样本 记为 ,单个的Xi称为 样品(i=1,2, ,n)。

  11. 直观上,我们所要考察的随机变量(记为)X就是总体,而通过n次独立重复试验所获得的n个独立且与X有相同的概率分布(或密度直观上,我们所要考察的随机变量(记为)X就是总体,而通过n次独立重复试验所获得的n个独立且与X有相同的概率分布(或密度 函数)的随机变量 就是来自总 体X的一个容量为n的样本。

  12. 在实际中,进行抽样时,人们并不总是采取有放回抽取的办法。如例1中,我们有可能是一次抽取n个灯泡进行寿命试验,这样得到的在实际中,进行抽样时,人们并不总是采取有放回抽取的办法。如例1中,我们有可能是一次抽取n个灯泡进行寿命试验,这样得到的 就不具有独立性了。然而,由于灯泡寿命试验是破坏性试验,因此不可能抽取很多个来试验,即n不会很大。再注意到厂家生产的灯泡批量一般是相当大的,此时,不放回抽取可近似地当作有放回抽取来对待。故 可近似看作相互独立 且与X有相同的概率分布(或密度函数)的随机变量,仍近似满足样本的定义。 (今后,类似的地方不重申)

  13. 由于样本 是从总体X中随 机抽取出来的可能结果,在抽取之后, 它们必是具体的数值,记作 或 ,称之为样本值。 直观上讲,所谓样本值就是一批观测数据。

  14. 例2 从所加工的某种型号的零件中,抽取若干个测量其长度(单位:毫米),得数据如下: 10.7 10.5 10.8 10.5 10.6 10.4 10.9 这7个数据就可看作是一个容量为7的样本的样本值。而对应的总体X就是这批零件(不是仅指抽到的7个)的长度(不要误解为总长度)

  15. 样本值既可理解为样本的取值,也可理解为总体X在n次独立重复试验中所分别取的n个值(考察例2即知)样本值既可理解为样本的取值,也可理解为总体X在n次独立重复试验中所分别取的n个值(考察例2即知) 今后,以 表示样本值,而 以 表示随机变量。为方便 计,在不会引起混乱时, 既 表样本值,也表示样本,具体涵义视上下文而定。

  16. 数理统计包括抽样方法与数据处理两部分。 我们只考虑数据处理问题(即对人们已抽取到的样本值进行统计分析)。

  17. 二 期望与方差的点估计 1 期望的点估计 设总体X的期望E(X)未知,样本值为 因E(X)为X的“理论上的平均值”,那么估计E(X)的最简单的办法便是用“实际平均值” 来估计。

  18. 定义 称 为样本均值 于是,总体均值E(X) 样本均值

  19. 例3 某厂生产一批铆钉,为检验铆钉的质量,需测量其头部直径(毫米)。今随机地抽取了8颗铆钉,测得其头部直径为 13.30 13.38 13.40 13.43 13.51 13.32 13.48 13.50 试估计该铆钉的头部直径的平均值。

  20. 为进一步讨论用 来估计E(X)的合理性,我们引入 定义 设 为样本 的函数,若 中不包含总体的 未知参数,则称 为统计量。若 用某一统计量 来估计总 体X的某一未知参数 ,则称 为 的估计 量。若 的估计量 满足 ,则 称为 的无偏估计量(或无偏估计)。

  21. 例如,若令 则 为统计量。 令 ,若 未知,则 为总体X的 未知参数。若用 来估计 ,则 为 的估计量(即 为E(X)的估计量)。 可以证明: , 故 为 的无偏估计量。

  22. 这样,尽管用 来估计 可能会有 或大或小的随机偏差,但从总体情况(理论 平均情况)来看,用 估计E(X)是“没有系 统偏差”的。这往往是估计量应满足的起码要求。 至于在上述定义中为什么要求一个估计量必须是统计量,其实道理很简单:因为估计量是用来估计未知参数的,如果估计量本身包含有未知参数,则即使有了具体的样本值,估计量也算不出明确的已知结果,达不到估计未知参数的目的。

  23. 由上可知, 无论样本容量n为多少, 始 终是E(X)的无偏估计量。那么究竟是n大好还是n小好呢?可以证明(从略): 。可见,n越大, 的分散程 度越小, 的稳定性越好。这正是我们所 期望的。但在实际中,样本容量n过大,有时在试验中会浪费大量的人力、物力、财力,等等。因此,正确的提法是:样本容量n的大小应视问题的具体背景而定。

  24. 2 方差的点估计 有时,总体X的方差D(X)未知,如何估计它呢? 注意 到 为 随 机 变 量 的“理论平均值”,故可考虑用 的“实际平均值” 来估计D(X)。但E(X)往往也是未知的,应用X 的样本均值 代替E(X)。于是可用 来作为D(X)的估计量。然而,可以证明(从略),此估计量并非D(X)的无偏估计量,D(X) 的无偏估计量乃是

  25. 定义 称 为样本方差, 记作 于是,总体方差 样本方差 , 且 为D(X)的无偏估计量。

  26. 例4 对某型号飞机的飞行速度进行了15次试验,测得最大飞行速度(米/秒)为 422.2 417.2 425.6 420.3 425.8 423.1 418.7 428.2 438.3 434.0 412.3 431.5 413.5 441.3 423.0 求最大飞行速度之方差的无偏估计。

  27. 定义 称 为样本标准差。 用样本标准差 可估计总体标准差 不过 一般不是 的无偏估计。 象上面这种对总体未知参数 寻找估计 量 的过程就叫做对 进行点估计。

  28. 三 期望的区间估计 前面的点估计讨论的是 的问题。但是 的精确度究竟如何? 与 究竟相差多少?并不很清楚。这使我们感到:点估计是比较肤浅的。 现在深入讨论一下:总体未知参数 究竟 落在什么范围(即区间)[a,b]内?而且自然希望区间[a,b]长度越短越好(否则,譬如举一个极端的例子:我们有百分之百的把握保证 落在 内,但这又能给我们提供什么有价值的信息呢?),“把握”越大越好。这就是所谓区间估计问题。

  29. 我们先研究期望的区间估计问题,而且总假定总体X是正态的:我们先研究期望的区间估计问题,而且总假定总体X是正态的: 1 已知总体方差 ,对总体均值 进行区间估计 考察实际问题时,一般不能幻想有100%的“把握”(即概率)。为说理清楚,先考虑一个特殊情况:“把握”为95%。“把握”也叫置信度。前述 所在的范围[a,b]称为置信区间。

  30. 假定样本值为 ,现在来求期望 的置信度为0.95(即95%)的置信区间。 定义 设Y为随机变量,E(Y)和D(Y)均存在, 且 ,则称 为Y的标 准化随机变量。

  31. 注意到在进行点估计时,我们是用样本均值 来估计E(X)的,而 , 。故 的标准化随机变 量为

  32. 因 ,可以证明: 。 对置信度0.95,查正态分布数值表(P191)知 注意:是这样查得的:设 , 则

  33. 解不等式 ,得 故 的置信度为0.95的置信区间为 亦即

  34. 在工业生产和科学研究中,通常采用的置信度就是0.95。只要不加申明,所用置信度均为0.95在工业生产和科学研究中,通常采用的置信度就是0.95。只要不加申明,所用置信度均为0.95 例5 某车间生产滚珠,其直径X可以认为是服从正态分布的 。从某天的产品里随机抽取6个,量得直径如下(单位:毫米): 14.70 15.21 14.90 14.91 15.32 15.32 试找出平均直径的置信区间(已知直径方差是0.05)。

  35. 有时还需要采用0.90,0.99等作为置信度,习惯上,一般的置信度用 表示。完全类似地可求得 的置信度为 的置信区间为 或 其中 满足 (查正态分布数值表)。

  36. 例6 对例5,求平均直径的0.90置信区间。

  37. P176: 1. 2. 布置作业:

More Related