第四节 使用概率的统计 - PowerPoint PPT Presentation

julinka-horvath
slide1 n.
Skip this Video
Loading SlideShow in 5 Seconds..
第四节 使用概率的统计 PowerPoint Presentation
Download Presentation
第四节 使用概率的统计

play fullscreen
1 / 37
Download Presentation
第四节 使用概率的统计
100 Views
Download Presentation

第四节 使用概率的统计

- - - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

  1. 第四节 使用概率的统计 一 总体与样本概念 数理统计(即:使用概率的统计)中首先要遇到的基本而重要的概念便是所谓总体与样本概念。 总体:在数理统计中,研究某一问题时,常把要研究的对象的全体称为总体(或母体)(例如,考察某厂某天生产的一批产品时,这批产品就是总体)。

  2. 个体:把总体中每一个基本单位称为个体(如,这批产品中的每个产品就是个体)。个体:把总体中每一个基本单位称为个体(如,这批产品中的每个产品就是个体)。 由于总体 中的个体一般较多(如,这 批产品中的产品个数一般较多),有时甚至要遇到破坏性试验(如,测量一批灯泡的寿命),研究该总体时,普查的方法往往是行不通的,只能从中抽取若干个个体进行考察。

  3. 样本:假定在总体 中,抽取n个个体 这n个个体就称为来自总 体 的一个容量为n的样本(或子样), 可记作 样品:组成样本的每一个个体称为样品。 至此,我们已给出了总体、个体、样本、样本容量及样品的概念。

  4. 显然,考察样本的目的是为了由此推断总体的性质,引出科学的结论。于是有显然,考察样本的目的是为了由此推断总体的性质,引出科学的结论。于是有 数理统计的基本思想:由样本推断总体(由局部推断整体)

  5. 上面给出的总体与样本的概念是比较直观的,容易为初学者所接受。但遗憾的是,这种提法不利于进行统计分析。为此,我们通过具体例子来引出另一种便于进行统计分析的提法。上面给出的总体与样本的概念是比较直观的,容易为初学者所接受。但遗憾的是,这种提法不利于进行统计分析。为此,我们通过具体例子来引出另一种便于进行统计分析的提法。 例1 某灯泡厂生产灯泡,由于种种随机因素的影响,生产出来的灯泡的寿命是不尽相同的。为了断定所生产灯泡的质量,这批灯泡的寿命是一个重要指标。

  6. 此时,可把这批灯泡视为总体 ,而把这批灯泡中的每一个灯泡视为个体。为获得关于这批灯泡的寿命的资料,可以抽取若干个 (譬如说n个)灯泡 做寿命试验。 这样, 就是来自总体 的 一个容量为n的样本,而单个的 就是样品

  7. 但需注意,这里我们并不关心这批灯泡的所有性能,而是仅仅考察这批灯泡的寿命(记为)X,这样就把“泛泛”的 统一成了X。 我们可以假想将这批灯泡逐一编好了号码,第j个灯泡的寿命记为X(j)。现从中任取一个灯泡,简单地用j表示“取到的是第j个灯泡”,则X(j)为试验结果的函数(当j跑遍所有试验结果时),从而为随机变量。显然,可将这样的X(j)与X视为一致。这样,总体就成了随机变量X 。

  8. 再设所取灯泡 的寿命分别 为 。注意到预先根本不知 道抽取的是哪n个灯泡,因此 都是随机变量。至此已将 处 理成了随机变量 。为保证 样本能较好地代表总体,抽样(即抽取样品)时要排除人为的偏差,可把抽取 n个灯泡 的过程依下法进行:

  9. 每次抽取一个(贴上标签后)再放回去,有放回抽取n次,且要保证每一次中这批灯泡中每个灯泡被抽到的机会都一样,每次抽取一个(贴上标签后)再放回去,有放回抽取n次,且要保证每一次中这批灯泡中每个灯泡被抽到的机会都一样, 然后将取到的n个灯泡 (可 能有重复的)进行寿命试验。这样,就获得了若干个(n个)独立且与X有相同 的概率分布的随机变量 (这 里,所谓 相互独立是指它 们的取值互不影响)。 我们总结出如下较严格的定义:

  10. 定义 设 为随机变量, 若 相互独立,且都与X有 相同的概率分布(或密度函数), 则 称X为总体,而称 为来自 总体X的一个容量为n的样本,可将样本 记为 ,单个的Xi称为 样品(i=1,2, ,n)。

  11. 直观上,我们所要考察的随机变量(记为)X就是总体,而通过n次独立重复试验所获得的n个独立且与X有相同的概率分布(或密度直观上,我们所要考察的随机变量(记为)X就是总体,而通过n次独立重复试验所获得的n个独立且与X有相同的概率分布(或密度 函数)的随机变量 就是来自总 体X的一个容量为n的样本。

  12. 在实际中,进行抽样时,人们并不总是采取有放回抽取的办法。如例1中,我们有可能是一次抽取n个灯泡进行寿命试验,这样得到的在实际中,进行抽样时,人们并不总是采取有放回抽取的办法。如例1中,我们有可能是一次抽取n个灯泡进行寿命试验,这样得到的 就不具有独立性了。然而,由于灯泡寿命试验是破坏性试验,因此不可能抽取很多个来试验,即n不会很大。再注意到厂家生产的灯泡批量一般是相当大的,此时,不放回抽取可近似地当作有放回抽取来对待。故 可近似看作相互独立 且与X有相同的概率分布(或密度函数)的随机变量,仍近似满足样本的定义。 (今后,类似的地方不重申)

  13. 由于样本 是从总体X中随 机抽取出来的可能结果,在抽取之后, 它们必是具体的数值,记作 或 ,称之为样本值。 直观上讲,所谓样本值就是一批观测数据。

  14. 例2 从所加工的某种型号的零件中,抽取若干个测量其长度(单位:毫米),得数据如下: 10.7 10.5 10.8 10.5 10.6 10.4 10.9 这7个数据就可看作是一个容量为7的样本的样本值。而对应的总体X就是这批零件(不是仅指抽到的7个)的长度(不要误解为总长度)

  15. 样本值既可理解为样本的取值,也可理解为总体X在n次独立重复试验中所分别取的n个值(考察例2即知)样本值既可理解为样本的取值,也可理解为总体X在n次独立重复试验中所分别取的n个值(考察例2即知) 今后,以 表示样本值,而 以 表示随机变量。为方便 计,在不会引起混乱时, 既 表样本值,也表示样本,具体涵义视上下文而定。

  16. 数理统计包括抽样方法与数据处理两部分。 我们只考虑数据处理问题(即对人们已抽取到的样本值进行统计分析)。

  17. 二 期望与方差的点估计 1 期望的点估计 设总体X的期望E(X)未知,样本值为 因E(X)为X的“理论上的平均值”,那么估计E(X)的最简单的办法便是用“实际平均值” 来估计。

  18. 定义 称 为样本均值 于是,总体均值E(X) 样本均值

  19. 例3 某厂生产一批铆钉,为检验铆钉的质量,需测量其头部直径(毫米)。今随机地抽取了8颗铆钉,测得其头部直径为 13.30 13.38 13.40 13.43 13.51 13.32 13.48 13.50 试估计该铆钉的头部直径的平均值。

  20. 为进一步讨论用 来估计E(X)的合理性,我们引入 定义 设 为样本 的函数,若 中不包含总体的 未知参数,则称 为统计量。若 用某一统计量 来估计总 体X的某一未知参数 ,则称 为 的估计 量。若 的估计量 满足 ,则 称为 的无偏估计量(或无偏估计)。

  21. 例如,若令 则 为统计量。 令 ,若 未知,则 为总体X的 未知参数。若用 来估计 ,则 为 的估计量(即 为E(X)的估计量)。 可以证明: , 故 为 的无偏估计量。

  22. 这样,尽管用 来估计 可能会有 或大或小的随机偏差,但从总体情况(理论 平均情况)来看,用 估计E(X)是“没有系 统偏差”的。这往往是估计量应满足的起码要求。 至于在上述定义中为什么要求一个估计量必须是统计量,其实道理很简单:因为估计量是用来估计未知参数的,如果估计量本身包含有未知参数,则即使有了具体的样本值,估计量也算不出明确的已知结果,达不到估计未知参数的目的。

  23. 由上可知, 无论样本容量n为多少, 始 终是E(X)的无偏估计量。那么究竟是n大好还是n小好呢?可以证明(从略): 。可见,n越大, 的分散程 度越小, 的稳定性越好。这正是我们所 期望的。但在实际中,样本容量n过大,有时在试验中会浪费大量的人力、物力、财力,等等。因此,正确的提法是:样本容量n的大小应视问题的具体背景而定。

  24. 2 方差的点估计 有时,总体X的方差D(X)未知,如何估计它呢? 注意 到 为 随 机 变 量 的“理论平均值”,故可考虑用 的“实际平均值” 来估计D(X)。但E(X)往往也是未知的,应用X 的样本均值 代替E(X)。于是可用 来作为D(X)的估计量。然而,可以证明(从略),此估计量并非D(X)的无偏估计量,D(X) 的无偏估计量乃是

  25. 定义 称 为样本方差, 记作 于是,总体方差 样本方差 , 且 为D(X)的无偏估计量。

  26. 例4 对某型号飞机的飞行速度进行了15次试验,测得最大飞行速度(米/秒)为 422.2 417.2 425.6 420.3 425.8 423.1 418.7 428.2 438.3 434.0 412.3 431.5 413.5 441.3 423.0 求最大飞行速度之方差的无偏估计。

  27. 定义 称 为样本标准差。 用样本标准差 可估计总体标准差 不过 一般不是 的无偏估计。 象上面这种对总体未知参数 寻找估计 量 的过程就叫做对 进行点估计。

  28. 三 期望的区间估计 前面的点估计讨论的是 的问题。但是 的精确度究竟如何? 与 究竟相差多少?并不很清楚。这使我们感到:点估计是比较肤浅的。 现在深入讨论一下:总体未知参数 究竟 落在什么范围(即区间)[a,b]内?而且自然希望区间[a,b]长度越短越好(否则,譬如举一个极端的例子:我们有百分之百的把握保证 落在 内,但这又能给我们提供什么有价值的信息呢?),“把握”越大越好。这就是所谓区间估计问题。

  29. 我们先研究期望的区间估计问题,而且总假定总体X是正态的:我们先研究期望的区间估计问题,而且总假定总体X是正态的: 1 已知总体方差 ,对总体均值 进行区间估计 考察实际问题时,一般不能幻想有100%的“把握”(即概率)。为说理清楚,先考虑一个特殊情况:“把握”为95%。“把握”也叫置信度。前述 所在的范围[a,b]称为置信区间。

  30. 假定样本值为 ,现在来求期望 的置信度为0.95(即95%)的置信区间。 定义 设Y为随机变量,E(Y)和D(Y)均存在, 且 ,则称 为Y的标 准化随机变量。

  31. 注意到在进行点估计时,我们是用样本均值 来估计E(X)的,而 , 。故 的标准化随机变 量为

  32. 因 ,可以证明: 。 对置信度0.95,查正态分布数值表(P191)知 注意:是这样查得的:设 , 则

  33. 解不等式 ,得 故 的置信度为0.95的置信区间为 亦即

  34. 在工业生产和科学研究中,通常采用的置信度就是0.95。只要不加申明,所用置信度均为0.95在工业生产和科学研究中,通常采用的置信度就是0.95。只要不加申明,所用置信度均为0.95 例5 某车间生产滚珠,其直径X可以认为是服从正态分布的 。从某天的产品里随机抽取6个,量得直径如下(单位:毫米): 14.70 15.21 14.90 14.91 15.32 15.32 试找出平均直径的置信区间(已知直径方差是0.05)。

  35. 有时还需要采用0.90,0.99等作为置信度,习惯上,一般的置信度用 表示。完全类似地可求得 的置信度为 的置信区间为 或 其中 满足 (查正态分布数值表)。

  36. 例6 对例5,求平均直径的0.90置信区间。

  37. P176: 1. 2. 布置作业: