900 likes | 968 Views
第四章 概率函数与统计假设检验. 第一节 地理学中的概率函数. 例 : 抛一枚硬币 ,“ 正面向上”用“ x=1” 表示,“反面向上” 用“ X=0” 表示 则 X 是一个变量,其所有可能取值为 0 和 1 ,且 X 取哪个值由随机实验结果决定。. 随机变量:如上例中的变量 X ,其取值由随机实验结果决定,这种变量称为随机变量。 随机变量由概率来描述。. 一、地理数据离散型分布. ( 1 )定义 设随机变量 ξ 所可能取的值 (k=1,2,3…) , 而 是 ξ 取值 值时的概率 ,. (2) 概率分布表.
E N D
第一节 地理学中的概率函数 • 例:抛一枚硬币,“正面向上”用“x=1”表示,“反面向上” 用“ X=0”表示 • 则X是一个变量,其所有可能取值为0和1,且X取哪个值由随机实验结果决定。 随机变量:如上例中的变量X,其取值由随机实验结果决定,这种变量称为随机变量。 随机变量由概率来描述。
一、地理数据离散型分布 • (1)定义 设随机变量ξ所可能取的值 (k=1,2,3…), 而 是ξ取值 值时的概率,
(3)概率分布的性质 • (1) 0≤PK≤1 非负性 • (2) 归一性 • (4)直方图的表示
离散型概率分布的常见类型 • 一、二项分布 • 二、泊松分布
一、二项分布 (一)n重伯努利试验 如果一个试验有两个可能结果A与 ,则称这个试验为一个伯努利实验。将一个伯努利试验独立地重复n次,则称n重伯努利试验。 在n重伯努利试验中,事件A发生的次数X是一个随机变量,X的所有可能取值为0,1,2…n。若记P(A)=P(0<P<1),P( )=1-p, 则 P( )= (k=0,1,2…,n)
二项分布的定义 • 设离散型随机变量ε取值(0,1,2…,n),而且 • P( )= (k=0,1,2…,n) • 其中0<P<1,p+q=1,我们称ε服从“二项分布”。
(二)二项式分布的概率计算方法 P、q:概率,N:总样本,:k抽取的样本 例:某种昆虫在某地区的死亡率为40%,即P=0.4,现对这种害虫用一种新药进行治疗试验,每次抽取10只作为一组治疗。试问如新药无疗效,则在10只中死3只、2只、1只、以及全部愈好的概率为多少?
二、泊松分布 在二项分布中,当n>p时,二项分布将出现一个极限分布,即泊松分布(Poisson distribution)。 记为当P→0,n→∞,np=λ时,
如夏季暴雨次数的分布,近似泊松分布。 例如:自1874—1972年99年间,上海夏季(5—9月)共发生暴雨275次,每年夏季共有 则每天发生暴雨的概率为: 此值很小,而n=153则较大。把暴雨看成稀有事件,暴雨分布近似为泊松分布。
二、地理数据连续型分布 (一)几个概念 1、概率密度函数 2、分布函数 3、二者的关系 4、几何意义
一、连续性随机变量 • 随机变量ε的可能取值有无穷不可列个。所以不可能列出其分布列,为此引入随机变量密度函数和分布函数。 (一)概率密度:如观测数据不断增加,则直方图上边折线接近一条连续曲线,我们称函数为随机变量的概率密度。
(二)概率密度函数有如下性质 • (1)P(X)≥0 • (2) (三)分布函数:由累积频率曲线得到一条0~1之间的y=f(x)的曲线,称f(x)为随机变量ε的分布函数。则有f(x)=p(ε<x) 分布函数有下列性质:
(四)连续性随机变量分布函数f(x)与概率密度函数P(X)之间存在着以下关系:(四)连续性随机变量分布函数f(x)与概率密度函数P(X)之间存在着以下关系: 连续性随机变量中最常见的是服从 正态分布的变量。
(二)连续型数据的概率分布 一、正态分布的密度函数为: 特别是当m=0,σ=1时,测得 这时称随机变量服从标准正态分布(见书66页图4-4和4-5)
正态分布的概率密度曲线的特征: 1、正态分布曲线是单峰钟形曲线,以x=μ为对称轴,向左右两侧作对称分布,是一个对称曲线。 2、正态曲线以参数μ和σ的不同而表现为一系列曲线。 3、正态分布资料的次数分布表现为多数次数集中在算术平均数μ附近,离平均数越远,其相应的次数越少。 4、正态曲线与横轴之间的总面积等于1。
其密度函数是一个偶函数,因此曲线关于纵轴对称,如图其密度函数是一个偶函数,因此曲线关于纵轴对称,如图 • 当随机变量x服从标准正态分布,即x~N(0,1)时,其密度函数为
又根据其分布函数的定义,的值就是图中的阴影部分的面积又根据其分布函数的定义,的值就是图中的阴影部分的面积
教材附录中有标准正态分布函数 的数值表,表中列出了x≥0和函数值。由于对称性和密度曲线同横轴所包围的面积为1,故可利用下述公式求出对应于-x (x>0)的函数值:
如已知μ、σ,计算概率的公式为: 例如:从大气曾臭氧的含量可知某一地区空气污染的程度,从统计资料发现,臭氧含量服从正态分布,今从某城市的统计数据知道, μ=5.15,σ=1.816,希望知道臭氧含量落在范围(3,6)中的概率。
第二节 地理学研究中的统计假设检验 一、空间类型的抽样设计 • 1、随机抽样 • 2、系统点抽样法 • 3、分层区域抽样法 • 4、阶梯抽样法 • 5、横截线法
二、抽样分布 • 分布 • t分布 • F-分布
1. 分布 • 设有一标准正态变量z,即z~N(0,1)的正态分布,(z1,z2,…,zn)为该分布上的样本值。则其平方和(z12+z22+…+zn2)之统计量,称为
分布具有下列重要性质: (1)当n大于30时可使用正态分布进行变换 (2)设 与 为独立随机变量,并且是自由度为n1与n2的 分布,则 亦为自由度是(n1+n2)的 分布 (3)统计量可表示为如下形式:
2. t分布 • 设随机变量ξ与η相互独立,且ξ服从N(0,1)分布,而 (x2是服从自由度为n的x2分布的随机变量)则随机变量 (4-14)
其密度函数为 称(4-14)式所示pt(x)的作为密度函数的分布为具有自由度为n的t分布
3.F-分布 • 若F=ξ/η,其中ξ与η相互独立,则 , 为具有自由度为f1的 变量, 为具有自由度f2的 变量,则称变量F服从F-分布。
此时可以证明它的密度函数为 • 此时有两个参数f1与f2, 称它为具有第一自由度f1、第二自由度f2的分布
三、假设检验 • 小概率原理:即在指定的随机试验中,某事件出现的概率非常小,就可以认为在一次试验中此事件是不可能出现的。
假设检验的一般步骤 • (1)根据实际地理问题的需要,提出一个待检验的假设,记作H0; • (2)找出检验H0的适当的统计量,使得在假设H0成立时,其分布已知; • (3)给定适当的信度α,由信度α和统计量的分布查表定出临界值; • (4)根据样本的实测数据计算出统计量的值,并与临界值比较,从而对原假设H0拒绝与否作出判断。
(一)两个区域方差的比较 • 设有两个地理区域,其样本分别为x11,x12,…,x1n1与x21,x22,…,x2n2,它们独立地分别取自正态母体N(m1,σ12)及N(m2,σ22),其中m1, m2未知。 要检验假设H0 :σ12 =σ22是否成立。此时引入统计量
为此,考虑它们的无偏估计量,则 上式可写成
在假设H0为真时,F服从第一自由度为n1-1、第二自由度为n2-1的F-分布,记为F(n1-1,n2-1)在假设H0为真时,F服从第一自由度为n1-1、第二自由度为n2-1的F-分布,记为F(n1-1,n2-1)
例如,某地1月平均气温分别为-12ºC,-14ºC,-17ºC,-15ºC,-13ºC,-9ºC,-19ºC,-17ºC,-17ºC,-14ºC,-16ºC。7月平均气温为21ºC,22ºC,22ºC,21ºC,23ºC,24ºC,23ºC,21ºC,21ºC,21ºC,21ºC。问这两个月的方差有无明显差异(α=0.10)。例如,某地1月平均气温分别为-12ºC,-14ºC,-17ºC,-15ºC,-13ºC,-9ºC,-19ºC,-17ºC,-17ºC,-14ºC,-16ºC。7月平均气温为21ºC,22ºC,22ºC,21ºC,23ºC,24ºC,23ºC,21ºC,21ºC,21ºC,21ºC。问这两个月的方差有无明显差异(α=0.10)。 原假设 H0:σ12 =σ22
计算步骤: 第一步:计算标准差的平方
第二步:计算F值 第三步:查F分布表 自由度f1=10,f2=10,α=0.10时Fa/2=F0.05=2.98 第四步:比较F值与Fa/2值 F=6.67>2.98 拒绝原假设,也就是说1月气温和7月气温的方差有明显差异。
又如,北京地区近几年来根据地震比较清楚的几个地震记录,测得P波的速度如下:又如,北京地区近几年来根据地震比较清楚的几个地震记录,测得P波的速度如下: 试比较周口店和下花园这两组来自不同正态母体的资料的方差是否有显著差异(α=0.05)。
计算步骤: 1.作原假设H0:σ12 =σ22 2.由抽样结果算出: 周口店: 下花园: 代入统计量算得
3.查F分布表。近似地取F0.01=11.0与F0.05=5.05的平均数。3.查F分布表。近似地取F0.01=11.0与F0.05=5.05的平均数。 (11.0+5.05)/2=8.02 作为F0.05的近似值,即F0.025≈8.02 由于 F=3.47<8.01 故无理由认为两组资料的方差由明显差异。