slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
概率论与数理统计实验 PowerPoint Presentation
Download Presentation
概率论与数理统计实验

Loading in 2 Seconds...

play fullscreen
1 / 48

概率论与数理统计实验 - PowerPoint PPT Presentation


  • 157 Views
  • Uploaded on

概率论与数理统计实验. 实验 3 参数估计 假设检验. 实验目的. 直观了解统计描述的基本内容。. 实验内容. 1 、参数估计. 2 、假设检验. 3 、实例. 4 、作业. 设有一个统计总体,总体的分布函数. 为 F ( x , ) , 其中 为未知参数 ( 可以是. 向量 ). 现从该总体抽样,得样本. 作出估计,或估计. 要依据该样本对参数. 的某个已知函数. 一、参数估计. 参数估计问题的一般提法. X 1 , X 2 ,…, X n. 点估计. 参数估计. 区间估计.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '概率论与数理统计实验' - chenoa


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

概率论与数理统计实验

实验3参数估计

假设检验

slide2

实验目的

直观了解统计描述的基本内容。

实验内容

1、参数估计

2、假设检验

3、实例

4、作业

slide3

设有一个统计总体,总体的分布函数

为 F(x, ),其中 为未知参数 ( 可以是

向量).

现从该总体抽样,得样本

作出估计,或估计

要依据该样本对参数

的某个已知函数 .

一、参数估计

参数估计问题的一般提法

X1, X2,…, Xn

slide4

点估计

参数估计

区间估计

点估计 ——估计未知参数的值

区间估计——根据样本构造出适当的区间,使他以一定的概率包含未知参数或未知参数的已知函数的真值

slide5

(一)、点估计的求法

1、矩估计法

基本思想是用样本矩估计总体矩.

设总体分布含有个m未知参数1,…,m

解此方程组得其根为

分别估计参数i ,i=1,...,m,并称其为i 的矩估计。

slide8

置信区间的意义

反复抽取容量为n的样本,都可得到一个区间,这个区间可能包含未知参数的真值,也可能不包含未知参数的真值,包含真值的区间占

slide9

设样本

来自正态母体X

1、数学期望的置信区间

(1) 方差2已知, 的置信区间

(2) 方差 2未知,的置信区间

slide10

2、方差的区间估计

 未知时,方差 2的置信区间为

slide11

(三)参数估计的命令

1、正态总体的参数估计

设总体服从正态分布,则其点估计和区间估计可同时由以下命令获得:

[muhat,sigmahat,muci,sigmaci] = normfit(X,alpha)

此命令以alpha为显著性水平,在数据X下,对参数进行估计。(alpha缺省时设定为0.05),返回值muhat是X的均值的点估计值,sigmahat是标准差的点估计值, muci是均值的区间估计,sigmaci是标准差的区间估计.

slide12

例1、给出两列参数 =10,=2正态分布随机数,并以

此为样本值,给出 和 的点估计和区间估计

命令:

r=normrnd(10,2,100,2);

[mu,sigm,muci,sigmci]=normfit(r);

[mu1,sigm1,muci1,sigmci1]=normfit(r,0.01);

mu=9.8437 9.9803

sigm=1.9138 1.9955

muci=9.4639 9.5843

10.2234 10.3762

sigmci=1.6803 1.7520

2.2232 2.3181

mu1=9.8437 9.9803

sigm1=1.9138 1.9955

muci1=9.3410 9.4562

10.3463 10.5043

sigmci1=1.6152 1.6841

2.3349 2.4346

slide13

例2、产生正态分布随机数作为样本值,计算区间估计的覆盖率。写出m文件。例2、产生正态分布随机数作为样本值,计算区间估计的覆盖率。写出m文件。

fuction [muratio,sgmratio]=fugailv(mu,sgm,n,m,alpha)

% mu,sgm分别为参数真值。

%n为模拟试验次数,即产生随机数的组数

%m为样本容量。即每组随机数的个数

%1-alpha为置信水平

muci=[];%mu的区间估计

sgmci=[];%sgm的区间估计

h=0;%包含mu的区间的个数

t=0;%包含sgm的区间的个数

for i=1:n

r=normrnd(mu,sgm,1,m);%产生正态分布随机数

slide14

[mu1,sgm1,muci1,sgmci1]=normfit(r,alpha);

%给出参数的点估计和区间估计

muci=muci1;

sgmci=sgmci1;

if muci(1)<=mu&muci(2)>=mu

%判断mu是否在区间内

h=h+1;

end;

if sgmci(1)<=sgm&sgmci(2)>=sgm

%判断sgm是否在区间内

t=t+1;

end;

end;

muratio=h/n;%mu的覆盖率

smgratio=t/n;%sgm的覆盖率

slide15

[muratio,sgmratio]=fugailv(0,1,1000,200,0.05)

[muratio,sgmratio]=fugailv(10,2,2000,500,0.01)

[muratio,sgmratio]=fugailv(4,6,5000,400,0.025)

slide16

2、其它分布的参数估计

(1).取容量充分大的样本(n>50),按中心极限定理,它近似地服从正态分布;

(2).使用Matlab工具箱中具有特定分布总体的估计命令.

10[muhat, muci] = expfit(X,alpha)-----在显著性水平alpha下,求指数分布的数据X的均值的点估计及其区间估计.

20 [lambdahat, lambdaci] =poissfit(X,alpha)-----在显著性水平alpha下,求泊松分布的数据X 的参数的点估计及其区间估计.

30[phat, pci] = weibfit(X,alpha)-----在显著性水平alpha下,求Weibull分布的数据X 的参数的点估计及其区间估计.

slide20

说明:命令mle的调用格式中:

[phat,pci]=mle(‘dist’,data,alpha,p1)只用于二项分布,

其中p1为试验次数

例3、rv=binornd(20,0.75,1,10)

%产生10个二项分布随机数参数为20和0.75

[p,pci]=mle(‘binomial’,rv,0.05,20)

rv=12 14 18 13 12 14 16 15 18 16

p=0.7400

pci=[0.6734, 0.7993]

slide21

例4、生成指数分布随机数100个,假设参数真值为0.5例4、生成指数分布随机数100个,假设参数真值为0.5

此为样本值,给出参数的点估计和区间估计

命令:

r=exprnd(0.5,100,1);

[lamta,lamtaci]=expfit(r);

[lamta,lamtaci]=expfit(r,0.01);

结果:

lamta=0.4579

lamtaci=0.3799, 0.5627

lamta=0.4579

lamtaci=0.3587,0.6015

slide22

F是参数向量 的函数,通常称为目标函数。此问题

就是在 的定义域 上,求目标函数的最小值点。

3、不常用分布的参数估计(极大似然估计)

此类问题一般归结为无约束最优化问题。

无约束最优化问题的一般形式:

参数的极大似然估计就是取目标函数为

的无约束最优化问题。

slide23

方法:

①最速下降法

②Newton(牛顿)法及其修正的方法。

③共轭方向法和共轭梯度法

④变尺度法(拟牛顿法)

等等

详见北京大学出版社 高惠璇编著《统计计算》

P359------P379

slide24

二、假设检验

对总体X的分布律或分布参数作某种假设,根据抽取的样本观察值,运用数理统计的分析方法,检验这种假设是否正确,从而决定接受假设或拒绝假设.

1.参数检验:如果观测的分布函数类型已知,这时构造出的统计量依赖于总体的分布函数,这种检验称为参数检验.

参数检验的目的往往是对总体的参数及其有关性质作出明确的判断.

slide25

2.非参数检验:如果所检验的假设并非是对某个参数2.非参数检验:如果所检验的假设并非是对某个参数

作出明确的判断,因而必须要求构造出的检验统计量

的分布函数不依赖于观测值的分布函数类型,这种检

验叫非参数检验.

如要求判断总体分布类型的检验就是非参数检验.

slide26

假设检验的一般步骤是:

①根据实际问题提出原假设H0与备择假设H1,

即说明需要检验的假设的具体内容 。

②选择适当的统计量,并在原假设H0成立的条

件下确定该统计量 的分布;

③按问题的具体要求,选取适当的显著性水平

并根据统计量的分布查表,确定对应于的临界值.

④根据样本观测值计算统计量的观测值,并与临界值

进行比较,从而在检验水平条件下对拒绝或接受原

假设H0作出判断

slide27

(一)、参数检验

1、单个正态总体均值检验

(1) 方差2已知

用u检验,检验的拒绝域为

(2) 方差2未知

用样本方差S2代替总体方差2,这种检验叫t检验.

slide29

未知时的检验方法,称为 检验法

2、单个正态总体方差检验

slide30

3、两个正态总体均值检验

(1)已知 选取统计量

(2)方差未知 选取统计量

slide32

5、参数检验的计算机命令

10 z检验

(1)命令ztest函数

(2)功能:给定方差条件下进行正态总体均值得检验

(3)语法:h=ztest(x,m,sigm);

h=ztest(x,m,sigm,alpha);

[h,sig,ci]=ztest(x,m,sigm,alpha,tail);

h=1,则拒绝原假设,h=0, 则接收原假设

(4)描述:ztest(x,m,sigm)在0.05水平下进行Z检验,以确定服从正态分布的样本均值是否为m,sigm为给定的标准差

h=ztest(x,m,sigm,alpha)给出显著水平控制参数alpha,

[h,sig,ci]=ztest(x,m,sigm,alpha,tail)允许指定是进行单侧检验还是双侧检验。

slide33

tail参数可以有下面几个取值:

•tail=0(为默认设置)指定备择假设

•tail=1指定备择假设

•tail=-1指定备择假设

sig为与z统计量相关的p值。即当 时,统计量Z大于其观测值z0的概率。

ci为均值真值的1-alpha置信区间。

(5)应用实例

slide34

例5、生成100个标准正态分布的随机数,假设均值和标准差的观测值与真值之间没有差异,进行检验。例5、生成100个标准正态分布的随机数,假设均值和标准差的观测值与真值之间没有差异,进行检验。

过程如下:

x=normrnd(0,1,1,100);

[h,sig,ci]=ztest(x,0,1)

结果:

h=0

sig=0.6317

ci=[-0.1481 0.2439]

slide35

例6、某批矿砂的5个样品中的镍含量,经测定为(%)例6、某批矿砂的5个样品中的镍含量,经测定为(%)

3.25 3.27 3.24 3.26 3.24

设测定值总体服从正态分布,方差为0.04,问在0.01水平上能否接受假设:这批镍含量的均值为3.25。

过程如下:

x=[3.25 3.27 3.24 3.26 3.24];

[h,sig,ci]=ztest(x,3.25,0.04,0.01)

结果:

h=0

sig=0.9110

ci=[3.2059 3.298]

slide36

例7、下面列出的是某工厂随机选取的20只部件的装配时间例7、下面列出的是某工厂随机选取的20只部件的装配时间

9.8 10.4 10.6 9.6 9.7 9.9 10.9 11.1 9.6 10.2

10.3 9.6 9.9 11.2 10.6 9.8 10.5 10.1 10.5 9.7

设总体服从正态分布,方差为0.4,问在0.05水平上能否认为装配时间的均值显著的大于10。

过程如下:

x=[9.8 10.4 10.6 9.6 9.7 9.9 10.9 11.1 9.6 10.2

10.3 9.6 9.9 11.2 10.6 9.8 10.5 10.1 10.5 9.7];

[h,sig,ci]=ztest(x,10,0.4,0.05,1)

结果:

h=1

sig=0.0127

ci=[10.0529 inf]

拒绝原假设

slide37

20 单个样本的t检验

(1)命令ttest函数

(2)功能:未知方差条件下进行正态总体均值得检验

(3)语法:h=ttest(x,m);

h=ttest(x,m,alpha);

[h,sig,ci]=ttest(x,m,alpha,tail);

h=1,则拒绝原假设,h=0, 则接收原假设

(4)格式的使用和参数的取值含义与ztest大致相同

(5)应用实例

slide38

例8、测得一批刚件20个样品的屈服点(单位:T/mm2)为:例8、测得一批刚件20个样品的屈服点(单位:T/mm2)为:

4.98 5.11 5.20 5.11 5.00 5.61 4.88 5.27 5.38 5.20

5.46 5.27 5.23 4.96 5.35 5.15 5.35 4.77 5.33 5.54

设屈服点服从正态分布,已知总体均值为5.20,在0.05水平上,对该样本进行均值的假设检验。

过程如下:

x=[4.98 5.11 5.20 5.11 5.00 5.61 4.88 5.27 5.38 5.20

5.46 5.27 5.23 4.96 5.35 5.15 5.35 4.77 5.33 5.54];

m=mean(x)

[h,sig,ci]=ttest(x,5.20,0.05)

结果:m=5.2075

h=0

sig=0.8796

ci=[5.1052 5.3098]

slide39

30 两个样本的t检验

(1)命令ttest2函数

(2)功能:两个样本均值差异的t检验

(3)语法:[h,significance,ci]=ttest2(x,y);

[h,significance,ci]=ttest2(x,y,m,alpha);

[h,significance,ci]=ttest2(x,y,alpha.tail);

h=1,则拒绝原假设,h=0, 则接收原假设

(4)格式的使用和参数的取值含义与ttest大致相同

(5)应用实例

slide40

例9、对两种不同的水稻品种A,B分别统计了8个地区的单位面积产量(单位:kg)例9、对两种不同的水稻品种A,B分别统计了8个地区的单位面积产量(单位:kg)

品种A:86 87 56 93 84 93 75 79

品种B: 80 79 58 91 77 82 76 66

要求检验两个水稻品种的单位面积产量之间是否有显著差异?

过程如下:

x=[86 87 56 93 84 93 75 79];

y=[80 79 58 91 77 82 76 66 ];

[h,significance,ci]=ttest2(x,y);

结果:

h=0

significance=0.3393

ci=-6.4236 17.4236

slide41

(二)非参数检验

1. Jarque-Bera检验

(1)数学原理: Jarque-Bera检验是评价X服从正态分布的假设是否成立。该检验基于样本偏度和峰度,样本偏度接近于0,样本峰度接近于3。

(2)函数名称:jbtest

(3)语法:H=jbtest(x);

H=jbtest(x, alpha);

[H,p,jbstat,cv]=jbtest(x, alpha);

H=1,则拒绝服从正态,H=0, 则接收服从正态

(4) alpha为显著水平,p为p值,jbstat为检验统计量的值,cv为确定是否拒绝原假设的的临界值。

slide42

(5)应用实例

例10、对例1中的数据确定其是否服从正态分布。

x=[459 362 624 542 509 584 433 748 815 505612 452 434 982 640 742 565 706 593 680926 653 164 487 734 608 428 1153 593 844527 552 513 781 474 388 824 538 862 659775 859 755 49 697 515 628 954 771 609402 960 885 610 292 837 473 677 358 638699 634 555 570 84 416 606 1062 484 120447 654 564 339 280 246 687 539 790 581621 724 531 512 577 496 468 499 544 645764 558 378 765 666 763 217 715 310 851];

[H,p,jbstat,cv]=jbtest(x, 0.05);

结果:H=0 p= 0.6913 Jbstat= 0.7384 cv=5.9915

slide43

五、线性回归

1、一元线性回归

回归模型和参数确定

一元线性回归研究因变量于一个自变量之间的线性关系。模型为

y是因变量, x是自变量,b0 b1为待估参数。

slide44

2、多元线性回归

回归模型

y是因变量,x1,x2,…,xn是自变量,

b0,b1,…bn为待估参数。

slide45

3、函数名称: regress

(1)语法:b=regress(y,x);

(2)说明:b返回参数的估计值。Yy和x均为列向量,要对数据x做一个处理,如下例题所示。

注意:在回归分析时,可先对数据划出散点图,看是否有线性关系,再进行回归分析,散点图的命令为:scatter

slide46

例10、为研究某一化学反应过程中,温度x(0C)对产品得率Y(%)的影响,测得数据如下:例10、为研究某一化学反应过程中,温度x(0C)对产品得率Y(%)的影响,测得数据如下:

温度x 100 110 120 130 140 150 160 170 180 190

得率Y 45 51 54 61 66 70 74 78 85 89

求Y关于x 的线性回归方程。

过程如下:先画散点图

x=[100;110;120;130;140;150;160;170;180;190];

Y= [45;51;54;61;66;70;74;78;85;89];

scatter(x,Y)

slide48

a=ones(length(x),1);

z=[a,x]

B=regress(Y,z);

b= -2.7394 0.4830