780 likes | 1.01k Views
第二章 统计量与抽样分布. § 1. 基本概念. 总体与个体 抽样、简单随机抽样 样本、简单随机样本与样本空间 分布族、参数空间 统计量与样本矩. 总体与个体. 在数理统计中,把研究对象的全体称为 总体 ( Population ) ,把组成总体的每一个单元称为 个体 在实际中, 总体通常是某个随机变量取值的全体 ,其中每一个个体都是一个实数 以后我们把总体和数量指标 X 可能取值的全体组成的集合等同起来。 随机变量 X 的分布就是总体的分布. 抽样与简单随机抽样. 从一总体 X 中随机抽取 n 个个体 x 1 ,x 2 ,…,x n ,
E N D
§1.基本概念 • 总体与个体 • 抽样、简单随机抽样 • 样本、简单随机样本与样本空间 • 分布族、参数空间 • 统计量与样本矩
总体与个体 • 在数理统计中,把研究对象的全体称为总体(Population),把组成总体的每一个单元称为个体 • 在实际中,总体通常是某个随机变量取值的全体,其中每一个个体都是一个实数 • 以后我们把总体和数量指标X 可能取值的全体组成的集合等同起来。 • 随机变量X 的分布就是总体的分布
抽样与简单随机抽样 从一总体 X 中随机抽取n个个体 x1,x2,…,xn, • 其中每个 xi 是一次抽样观察结果,我们称x1,x2,…,xn 为总体 X 的 一组样本(观察)值。 • 这里的 xi 具有二重性:1.对每一次抽样结果,它是完全确定的一组数;2.由于抽样的随机性,每一个 xi 都可以看作某一个随机变量 Xi (i=1,2,…,n)所取的观察值。 • 我们称 X1,X2,…,Xn 是容量为n的样本( Sample)。
抽样与简单随机抽样 定义:设 X1,X2,…,Xn 为来自总体 X 的容量为n的样本,如果随机变量 X1,X2,…,Xn 相互独立且与总体有相同的分布,则称这样的样本为总体 X 的简单随机样本,简称样本。这样获得简单随机样本的方法称为简单随机抽样。 • 抽样方式:随机抽样,分层抽样,等距抽样,整群抽样,多阶段抽样 • 以后如不特别声明,所提到的样本都是简单随机样本。
综上所述,所谓总体就是一个随机变量 X,所谓样本(指简单随机样本)就是 n 个相互独立且与总体 X 有相同的分布的随机变量 X1,X2,…,Xn,并称 X1,X2,…,Xn为来自于总体X的样本. 显然,若总体具有分布函数F(x),则 X1,X2,…,Xn的联合分布函数(样本联合分布)为:
抽样与简单随机抽样 • 以后对样本 X1,X2,…,Xn作两种理解: • 在理论推导中把其作为随机向量 • 在用理论推导所得出的结论进行具体推断时,作为实数向量,代入具体的观察值进行计算。
样本空间 定义:样本 X1,X2,…,Xn所有可能取值的全体称为样本空间( Sample Space),或称为子样空间。 • 样本空间为n维欧氏空间或它的一个子集。 • 一个样本观察值(x1,x2,…,xn)是样本空间中的一个点。
分布族与参数空间 • 在概率论中,总假定所用随机变量的分布函数已知,而在数理统计中,认为其是未知的,但总假定其是某一个分布族的成员。 • 一般可凭经验,直方图或经验分布函数来对总体给出假定。
分布族与参数空间 • 如果对总体了解甚少,那么总体所在的分布族可设为{F(x):F(x)为分布函数,其它条件} • 如果知道总体的分布形式,只是不知道具体参数,那么总体所在的分布族可设为 ,这里 为总体的分布函数中的未知参数(可以是向量),未知参数的全部可容许值组成的集合称为参数空间,记为 • 称为统计模型( Statistical Model )。
分布族与参数空间 定义:若一个分布族中只含有有限个未知参数,或参数空间为欧氏空间的一部分,则称此分布族为参数分布族。凡不是参数分布族的分布族称为非参数分布族。 • 由参数分布族出发所得到的统计方法称为参数统计方法;由非参数分布族出发所得到的统计方法称为非参数统计方法。这两类分布族在研究方法上有很大差异。
统计量与样本矩 • 我们对某一个问题归纳出所在的分布族,并从总体中抽出了一个样本后,就要进行统计推断,即判断这个样本是来自总体分布族中哪一个基本的分布. • 虽然样本含有总体的信息,但仍比较分散。为了使统计推断成为可能,首先必须把分散在样本中的信息集中起来,用样本的某种函数表示,这种函数称为统计量(Statistic)。
统计量与样本矩 • 定义:设X1,X2,…,Xn为总体 X 的一个样本,若样本的实值连续(可扩大为可测)函数 T=T(X1,X2,…,Xn) 不依赖于可能含于总体中的未知参数,则称T 为此分布族的一个统计量(Statistic)。 • 往往从直观或某些一般性原则考虑提出统计量,再考虑它是否在某种意义下较好地集中了样本中与所讨论问题有关的信息量。
例如,X~N(,2), 其中 已知, 2未知。而(X1,X2)是从 X 中抽取的一个样本,则 X1+X2, 是统计量,但(X1-)/ 就不是统计量了。
样本矩(Sample Moment) 设 X1,X2,…,Xn是来自于总体 X 的一个样本 样本均值(Sample Mean): 样本方差(Sample Variance):
样本标准差(Sample Standard Deviation): 样本矩(Sample Moment)
再设 Y1,Y2,…,Yn是来自总体 Y 的样本。 两个样本之间的协方差: 两个样本之间的相关系数:
记 E(X)=, D(X)=2, E(Xk)=ak 定理1若X的二阶矩存在,则有 定理2若X 的2k 阶矩存在,则有
经验分布函数 定义设 X1,X2,…,Xn为总体 X 的一个样本,x1,x2,…,xn是样本的观察值,把其从小到大重新排列得到 ,定义函数如下 称其为总体 X 的经验分布函数。
经验分布函数 在点x的函数值其实就是观测值中小于或等于x的频率,它是一个右连续的非减函数,且 ,因而它具有分布函数的性质,可以将它看成是以等概率取 的离散随机变量的分布函数。经验分布函数的图象是一个非减右连续的阶梯函数。
对于的每一数值而言,经验分布函数 为样本 的函数,它是一统计量,即为一随机变量,其可能取值为 。 事件 发生的概率,由于 相互独立且有相同的分布函数,因而它等价于次独立重复试验的贝努里概型中事件 发生k次而其余次不发生的概率,即有: 其中 ,它是总体的分布函数。
定理 (格列汶科定理) 设总体的分布函数为F(x),经验分布函数为Fn*(x),则对任何实数 x 有
从上面定理知道,经验分布函数Fn*(x)依概率1收敛于(理论)分布函数F(x)。从上面定理知道,经验分布函数Fn*(x)依概率1收敛于(理论)分布函数F(x)。 • 可以利用经验分布函数构造出非参数统计推断中许多常用的统计量。
§2 抽样分布 • 统计量的分布称为抽样分布,求出统计量的分布函数是数理统计的基本问题之一。 • 精确分布与小样本问题 • 极限分布与大样本问题
正态总体的抽样分布 • 正态总体样本的线性函数的分布 • -分布 • t-分布 • F-分布
正态总体样本线性函数的分布 定理1设总体 XN(,2),X1,X2,…,Xn是总体X的容量为 n 的样本,令 U=a1X1+a2X2+…+anXn, 其中 a1,a2,…,an 是已知常数,则U也是正态随机变量,其均值、方差分别为 E(U)= , D(U)= 2
定理2设总体 XN(,2),(X1,X2,…,Xn)是总体的容量为 n 的样本, A=(aij)是pn阶矩阵。记Y=(Y1,Y2,…,Yp)’=A(X1,X2 ,…,Xn)’,则Y1,Y2,…,Yp也是正态随机变量,其均值、方差、协方差分别为 E(Yi)= , D(Yi)= 2 Cov(Yi, Yj)= 2 当=0,且A是-nn阶正交矩阵时, Y1,Y2,…,Yp也相互独立,且服从于N(0,2)正态变换下的不变性
分布 定义 设随机变量X1,X2,…,Xn相互独立且服从N(0,1)分布,则称随机变量 服从自由度为n的 分布,记为
定理1设随机变量 ,则 的密度函 数为:
定理2设 ,则 E(X)=n, D(X)=2n 定理3设 ,且X1与X2相互独立,则 定理4 (Cochra) 设随机变量X1,X2,…,Xn相互独立且服从N(0,1)分 布,又设 Q1+Q2+…+Qk= 其中 Qj 是秩为 nj 的 X1,X2,…,Xn 的非负定二次型。则 Qj 相互独立,且分别服从于自由度为nj的 分布的充要条件是: n1+n2+…+nk=n
引理 设,则 X 的特征函数为 (t)=(1-2it)-n/2. • 定理3的证明: • 根据引理及特征函数性质,我们有得 E(X)=n,E(X2)=n2+2n,D(X)=2n
注:1. 的独立性仅当总体分布为正态时才成立。当总体分布的三阶中心矩为零时,可以推出两者是不相关的。 2. 服从精确的正态分布也只有在总体为正态分布时才成立。 定理 5 (抽样分布基本定理)设X1,X2,…,Xn是来自总体N(,2)的一个样本,则 (1) (2) 与 相互独立;
证 令 ,则 且, 选取正交矩阵A: 作为正交变换
则 ,且 1. 2. ,且 ,则 而 仅是Z1的线性函数,与 无关,故 与 相互独立。
t-分布 • 定义 设 X~N(0,1),,且 X 和 Y 相互独立,则称随机变量 所服从的分布是自由度为n的t 分布,记为 T~t(n). • 定理1设T~t(n),则T的概率密度为
此定理的证明也同前面类似。先写出X, Y的密度函数,然后利用随机变量的函数的分布的知识写出根号下 Y/n 的密度函数,再利用独立性写出(X , 根号下 Y/n )的联合密度函数,最后利用两个随机变量商的密度函数给出结果。
定理 2设 X1,X2,…,Xn是来自总体的 一个样本,则有 。 定理 3设X1,X2,…,Xm 和 Y1,Y2,…,Yn是分别来自总 体和 的样本,且假定两总体 相互独立,则有
N(0,1). 定理 4设Tn~t(n),n=1,2,...,则 Tn依分布收敛于
定理 5设T ~ t(n), n>1,则对正整数 r (r<n), ETr存在,且 定理 6设T~t(n), 若n>2,则 E(T)=0, D(T)=n/(n-2). 注:t 分布只存在阶数小于n的矩.
F-分布 定义 设随机变量 X和 Y是自由度分别为n1和n2的相互独立的分布随机变量,则称随机变量 所服从的分布为自由度是(n1,n2)的F分布,记为F~F(n1,n2). 其中n1称为第一自由度, n2称为第二自由度。
定理2若 X/ 2~ ,Y/ 2~ ,且相互独 立,则 定理3若 X~ F(n1,n2), 则 1/X~F(n2,n1). 定理4若X~ t(n), 则 X2~F(1,n). 定理5设 X1,X2,…,Xm和 Y1,Y2,…,Yn是分别来自总体 和的样本,且假定两总体相互独立,则有
定理6设Xn~ F(m,n),则当n 时, 定理7设随机变量 X1,X2,…,Xn相互独立且服从 ,又设 Q1+Q2+…+Qk= 其中Qj是秩为nj的 X1,X2,…,Xn的非负定二次型。 若n1+n2+…+nk=n,则Qj相互独立, 且
分位数(分位点) 定义1设随机变量 X 的分布函数为F(x), 0<<1, 若 x使 P{X>x}=F(x)= , 则称x为此概率分布的(上侧)分位点(或分位数)。
分位数(分位点) • 当 X~N(0,1), 将其上侧分位数记为u • 当 X~ ,将其上侧分位数记为 • 当 X~ t(n), 将其上侧分位数记为t(n). • 当X~ F(m,n),将其上侧分位数记为F(m,n). 上面几类分位数的性质 • -u=u1- , -t (n) =t1- (n) • F(m,n)=1/F1- (n,m)
有时也需要上侧分位数和双侧分位数 定义2设 X 为一随机变量, 0<<1,若使 P{X }=, 则称为此概率分布的下侧分位数。 易证为原分布的1-上侧分位数,即=x1- 定义3设 X 为一随机变量, 0< <1,若 1,2使 P{X1}=/2, P{X>2}=/2, 则称1,2为此概率分布的双侧分位数。 易证1= x1-/2,2= x/2
非正态总体的抽样分布 例 1设总体 ,X1,X2,…,Xn为来自总体X的样本,求样本均值的分布。 例 2设总体 , X1,X2,…,Xn为来自总体 X 的样本,求样本均值的分布。
非正态总体大样本的抽样分布 统计量的渐近分布 当样本容量n趋于无穷时,若统计量的分布趋于一定的分布,则称后者为该统计量的极限分布。它提供了统计推断的一种近似解法。所谓大样本指样本容量n>30,最好大于50或100.
定义1对于统计量Tn,若存在常数序列 使得 则称Tn的渐近分布为
定理1设总体X的分布函数为F(x), X1,X2,…,Xn为来自总体X的样本,则样本的均值的 渐近分布为 定理2设总体X的分布函数为F(x), X1,X2,…,Xn为来自总体 X 的样本,则