590 likes | 841 Views
概率论与数理统计. 福建师范大学福清分校数计系. 第七章 参数估计. 第 1 讲. 统计 推断 DE 基本 问题. 点 估 计. 参数估 计问题. 区间估 计. 假设检 验问题. 点估计. 区间估计. 什么是参数估计?. 参数是刻画总体某方面概率特性的数量. 当此数量未知时 , 从总体抽出一个样本, 用某种方法对这个未知参数进行估计就 是参数估计. 例如, X ~N ( , 2 ),. 若 , 2 未知 , 通过构造样本的函数 , 给出 它们的估计值或取值范围就是参数估计 的内容. 参数估计的类型.
E N D
概率论与数理统计 福建师范大学福清分校数计系
第七章 参数估计 第1讲
统计 推断 DE 基本 问题 点 估 计 参数估 计问题 区间估 计 假设检 验问题
点估计 区间估计 什么是参数估计? 参数是刻画总体某方面概率特性的数量. 当此数量未知时,从总体抽出一个样本, 用某种方法对这个未知参数进行估计就 是参数估计. 例如,X ~N ( , 2), 若, 2未知, 通过构造样本的函数, 给出 它们的估计值或取值范围就是参数估计 的内容.
参数估计的类型 点估计 —— 估计未知参数的值 区间估计—— 估计未知参数的取值范围, 并使此范围包含未知参数 真值的概率为给定的值.
统计推断问题可以分为两大类, 一类是估计问题, 一类是假设检验问题. 本章讨论总体参数的点估计和区间估计.设总体X的分布函数的形式为已知, 但它的一个或多个参数为未知, 借助于总体X的的一个样本来估计总体未知参数的值的问题称为参数的点估计问题.
例1 在某炸药厂, 一天中发生着火现象的次数X是一个随机变量, 假设它服从以l>0为参数的泊松分布, 参数l为未知, 现有以下样本值, 试估计参数l.
解 由于X~p(l), 故有l=E(X). 我们自然想到用样本均值来估计总体的均值E(X). 现由已知数据计算得到 • 得到E(X)=l的估计为1.22.
点估计的一般提法为: 设总体X的分布函数F(x;q)的形式为已知, q是待估参数. X1,X2,...,Xn是X的一个样本, x1,x2,...,xn是相应的一个样本值. 点估计问题就是要构造一个
两种常用的构造估计量的方法:矩估计法 最大似然估计法两种常用的构造估计量的方法:矩估计法 最大似然估计法
(一)矩估计法 设X为连续型随机变量, 其概率密度为f(x;q1,q2,...,qk), 或X为离散型随机变量, 其分布律为P{X=x}=p(x;q1,q2,...,qk), 其中q1,q2,...,qk为待估参数, X1,X2,...,Xn是来自X的样本. 假设总体X的前k阶矩 (其中RX是x的可能取值的范围)存在, 一般来说, 它们是的q1,q2,...,qk函数.
因为样本矩 • 依概率收敛于相应的总体矩ml(l=1,2,...,k), 样本矩的连续函数依概率收敛于相应的总体矩的连续函数. 因此就用样本矩作为相应的总体矩的估计量. 这种估计方法称为矩估计法.
矩估计法的具体做法为:设 • 这是一个包含k个未知参数q1,q2,...,qk的联立方程组. 一般可从中解出q1,q2,...,qk, 得到
以Ai分别代替上式中的mi, i=1,2,...,k, 就以 • 分别作为qi, i=1,2,...,k的估计量, 这种估计量称为矩估计量. 矩估计量的观察值称为矩估计值.
例2 设总体X~U(a,b), a,b未知. X1,X2,...,Xn是来自总体X的样本, 试求a,b的矩估计量. 解m1=E(X)=(a+b)/2m2=E(X2)=D(X)+[E(X)]2 =(b-a)2/12+(a+b)2/4. • 解得:
例3 设总体X的均值m及方差s2都存在, 且有s2>0, 但m,s2均为未知. 又设X1,X2,...,Xn是来自X的样本. 试求m,s2的矩估计量.解 • 分别以A1,A2代替m1,m2, 得m和s2的矩估计量分别为
(二)最大似然估计法 若总体X属离散型, 其分布律P{X=x}=p(x;q), qQ的形式为已知, q为待估参数, Q是q的可能取值范围. 设X1,X2,...,Xn是来自X的样本, 则X1,X2,...,Xn的联合分布律为 • 又设x1,x2,...,xn是相应的一个样本值. 则P{X1=x1,X2=x2,...,Xn=xn}的发生概率为
这一概率随q的取值而变化, 它是q的函数, L(q)称为样本的似然函数(注意, 这里的x1,x2,...,xn是已知的样本值, 它们都是常数).直观想法是: 现在已经取到样本值x1,x2,...,xn了, 这表明取到这一样本值的概率L(q)比较大 . 当然不会考虑那些不能使样本x1,x2,...,xn出现的qQ作为q的估计. 如果已知当q=q0Q时使L(q)取很大值而Q中的其它值使L(q)取很小值, 自然认为取q0为q的估计值较为合理.
若总体X属连续型, 其概率密度f(x;q),qQ的形式已知, q为待估函数, Q是q可能取值范围. 设X1,X2,...,Xn是来自X的样本, 则其联合概率密度为 • 设x1,x2,...,xn是相应的一个样本值, 则随机点(X1,X2,...,Xn)落在点(x1,x2,...,xn)的邻域(边长分别为dx1,dx2,...,dxn的n维立方体)内的概率近似地为
在很多情形下, p(x;q)和f(x;q)关于q可微, 这时q常可从方程 • 解得. 又因L(q)与ln L(q)在同一q处取到极值, 因此, q的最大似然估计q也可以从方程 求得, 而从后一方程求解往往比较方便, (1.6)称为对数似然方程.
例4 设X~b(1,p), X1,X2,...,Xn是来自X的样本, 试求参数p的最大似然估计量. 解 设x1,x2,...,xn是相应于样本X1,X2,...,Xn的一个样本值. X的分布律为P{X=x}=px(1-p)1-x, x=0,1.故似然函数为
最大似然估计法也适用于分布中含多个未知参数q1,q2,...,qk的情况. 这时, 似然函数L是这些未知参数的函数. 分别令 • 解上述由k个方程组成的方程组, 即可得到各未知参数qi (i=1,2,...,k)的最大似然估计值 . (1.7)称为 对数似然方程组.
例5 设X~N(m,s2), m, s2为未知参数, x1,x2,...,xn是来自X的一个样本值. 求m, s2的最大似然估计值.解X的概率密度为 • 似然函数为
例6 设总体X在(a,b)上服从均匀分布, a,b未知, x1,x2,...,xn是一个样本值. 试求a,b的最大似然估计量.解 记x(1)=min(x1,x2,...,xn), x(n)=max(x1,x2,...,xn). X的概率密度是 • 由于ax1,x2,...,xnb等价于ax(1),x(n)b. 似然函数
于是对于满足条件ax(1), bx(n)的任意a,b有 • 即L(a,b)在a=x(1), b=x(n)时取到最大值 • (x(n)-x(1))-1. 故a,b的最大似然估计值为 a,b的最大似然估计量为
当总体分布中含有多个参数时, 也具有上述性质. 例如, 在例5中已得到s2的最大似然估计为 • 因此标准差s的最大似然估计为
§2 基于截尾样本的最大似然估计(随机建模知识)
在研究产品可靠性时, 需要研究产品寿命T的各种特征. 产品寿命T是一个随机变量, 它的分布称为寿命分布. 为了对寿命分布进行统计推断, 就需要通过对产品的寿命试验, 以取得寿命数据. 一种典型的寿命试验是, 将随机抽取的n个产品在时间t=0时, 同时投入试验, 直到每个产品都失效. 记录每个产品的失效时间, 这样得到的样本(即由所有产品的失效时间0 t1 t2 ...tn所组成的样本)叫完全样本. 但产品的寿命往往较长, 我们不可能得到完全样本, 于是就考虑截尾寿命试验.
截尾寿命试验常用的有两种: 一种是定时截尾寿命试验. 假设将随机抽取的n个产品在时间t=0时同时投入试验, 试验进行到事先规定的截尾时间t0停止. 如试验截止时共有m个产品失效, 它们的失效时间分别为0t1t2...tmt0,此时m是一个随机变量, 所得的样本 t1,t2,...,tm称为定时截尾样本.
另一种是定数截尾寿命试验. 假设将随机抽取的n个样本在时间t=0时同时投入试验, 试验进行到有m个(m是事先规定的, m<n)产品失效时停止. m个失效产品的失效时间分别为0t1t2...tm,这里tm是第m个产品的失效时间. 所得的样本t1,t2,...,tm称为定数截尾样本. 用截尾来进行统计推断是可靠性研究中常见的问题.
设产品的寿命分布是指数分布,其概率密度为 • q >0未知. 设有n个产品投入定数截尾试验,截尾数为m, 得定数截尾样本0t1t2...tm, 现在要利用这一样本来估计未知参数q(即产品的平均寿命). 在时间区间[0,tm]有m个产品失效,而有n-m个产品在tm时尚未失效, 即有n-m个产品寿命超过tm.
用最大似然估计法估计q, 求上述观察结果的概率. 一个产品在[ti,ti+dti]失效的概率近似为 • 故上述观察结果出现的概率近似地为
其中dt1,...,dtm为常数. 因忽略一个常数因子不影响q的最大似然估计, 故可取似然函数为 • 对数似然函数为
于是得到q的最大似然估计为 • 其中s(tm)=t1+t2+...+tm+(n-m)tm称为总试验时间, 它表示直至时刻tm为止n个产品的试验时间总和
对于定时截尾样本0t1t2...tmt0(其中t0是截尾时间), 与上面的讨论类似, 可得似然函数为 • q 的最大似然估计为 其中s(t0)=t1+t2+...+tm+(n-m)t0称为总试验时间, 它表示直至时刻t0为止n个产品的试验时间的总和.
例 设电池的寿命服从指数分布, 其概率密度为 • q >0未知. 随机地取50只电池投入寿命试验, 规定试验进行到其中有15只失效时结束试验, 测得失效时间(小时)为 • 115,119,131,138,142,147,148,155,158,159,163,166,167,170,172 • 试求电池的平均寿命估计.
解 n=50, m=15, s(t15)=115+119+...+172+(50-15)172=8270, 得q的最大似然估计为