640 likes | 781 Views
第五章 概率分布. 第一节 随机事件与概率. 确定性现象 / 必然现象. 随机现象. 随机事件. :随机现象至少有两个以上可能出现的结果,通常称每一个可能的结果为随机事件,简称事件 。. : 若随机事件 A ,在 n 次试验中出现 f 次, 则称 为随机事件 A 在 n 次试验 中出现 f 次的频率。. 频率. :是随机事件发生可能性大小的客观度量指标,随机事件 A 的概率记为 P ( A ) , 0≤ P ( A )≤ 1 。. 概率.
E N D
第五章 概率分布 第一节 随机事件与概率
确定性现象/必然现象 随机现象 随机事件 :随机现象至少有两个以上可能出现的结果,通常称每一个可能的结果为随机事件,简称事件。
:若随机事件A,在n次试验中出现f 次, 则称 为随机事件A在n次试验 中出现 f 次的频率。 频率 :是随机事件发生可能性大小的客观度量指标,随机事件A的概率记为P(A),0≤P(A)≤1。 概率
:通常称概率P≤0.05随机事件为“小概率事件”,因为“小概率事件”在一次观察或试验中发生的可能性很小,可认为其不发生的。:通常称概率P≤0.05随机事件为“小概率事件”,因为“小概率事件”在一次观察或试验中发生的可能性很小,可认为其不发生的。 小概率事件
随机变量 :表示随机现象观察结果的变量为随机变量 。 离散型随机变量:可能的取值为有限个或 无限可列个实数 。 比如:一个家庭的人口数 X 等 随 机 变 量 连续型随机变量:可能的取值充满一个区间 或在整个实数轴,无法一一列举。 比如:正常成年人的身高 X等
:即确定随机变量的取值和相应取值的概率。 随机变量的概率分布 (1)离散型随机变量:通常用概率分布描述其取值和相应取值的概率。 (2)连续型随机变量:通常用概率密度函数和概率分布函数描述其在一个区间上取值的概率。
例如记 X为抛掷1次均匀的骰子出现的点数,则可将所有可能的结果及其各结果出现的概率列成下表的形式: 表 离散型随机变量X 的概率分布表
连续型随机变量的概率密度函数与分布函数: 概率密度函数具有下列两个重要的性质: ① 对于任意实数 X,都有 ; • ,即概率密度函数曲线下的 • 面积恒等于1。
第四节 正态分布 一、正态分布概念和特征
1.正态分布概念 正态分布(normal distribution)也叫高斯分布,是最常见、最重要的一种连续型分布。
f(X) X m
1.正态分布概念 如果连续型随机变量 X 在实数范围内取值,且具有如下的概率密度函数 称连续型随机变量X服从正态分布,记为X~ 其中 表示 X 的均数, 表示 X 的方差。
2.正态分布特征 ⑴ 曲线呈钟型,以 为对称轴左右对称。 ⑵ 在 处, 取最大值,即曲线最高。 ⑶ 正态分布有两个参数,即位置参数 和形态参数 。 ⑷ 正态分布的标准化变换
标准正态分布(standard normal distribution) 一般正态分布为一个分布族: N ( m , s2 );标准正态分布只有一个N (0 , 1),这样简化了应用。
如何查 U界值表: -∞ u 附表2(P430)就是根据此公式和图形制定的
3.正态曲线下面积的分布规律 (1)服从标准正态分布的随机变量在一区间上曲线下的面积与服从标准正态分布的随机变量在其上取值的概率相等。 (2)X 轴上与正态曲线下所夹面积恒等于1。 (3)如果u ,欲求服从标准正态分布的随机变量在区间(-∞,u)(u≤0)上曲线下的面积,可直接查附表2 。 (4)在区间 ,正态曲线下面积为68.27%; 在区间 ,正态曲线下面积为95.00%; 在区间 ,正态曲线下面积为99.00%。
正态曲线下面积的分布规律——一般正态分布 68.27% 95.00% 99.00% μ+2.58σ μ+1.96σ μ-2.58σ μ μ+σ μ-1.96σ μ-σ
99.00% -2.58 -1.96 -1 0 1 1.96 2.58 正态曲线下面积的分布规律——标准正态分布 68.27% 95.00%
计算正态曲线下面积实例 例5-13 由160名7岁男孩身高测量的数据算得 , ,已知身高数据服从正态分布。试估计该地当年7岁男孩身高界于119cm 到125cm范围所占的比例。 近似看作 相当于 -0.75 0.5 119 122.6 125 0 该地当年7岁男孩身高界于119cm 到125cm范围所占的比例为46.49%。
二、 正态分布的应用 1.制定医学参考值范围 2.质量控制 3.正态分布是许多统计方法的理论基础
1. 制定医学参考值范围 • 医学参考值范围(也叫正常值范围):指绝大多数正常人的生理、生化及代谢等指标的波动范围。 • “正常人”是指没有疾病和其它因素影响所研究指标的人。 • 由于个体差异的存在,人群的医学参考值有一定波动范围,医学参考值范围是指按一定概率所确定的医学参考值的波动范围。
异常 正常 异常 正常 单侧上限 单侧下限 制定医学参考值的步骤 (1)抽取足够例数的同质“正常人”样本 (2)确定具有实际意义的统一测量标准 (3)根据指标的性质确定是否要分组 (4)根据专业知识决定单侧还是双侧 (5)选择适当的百分范围 (6)根据资料的分布类型选择相应的方法 单侧下限---过低异常 单侧上限---过高异常 双侧---过高、过低均异常 异常 正常 异常 双侧上限 双侧下限
正态分布法 方法: 正态分布法 百分位数法 双侧100(1-α)%正常值范围: 单侧100(1-α)%正常值范围: 双侧95%正常值范围: 单侧95%正常值范围: 适用于正态分布资料
百分位数法 双侧95%正常值范围:X2.5%~X97.5% 双侧90%正常值范围:X5%~X95% 单侧95%正常值范围: < X95%(上限) 或> X5%(下限) 适用于偏态分布资料
例5-14 已知成年女子血清总蛋白含量近似服从正态分布。现为确定成年女子血清总蛋白含量参考值范围,在某地抽取了“正常”成年女子200人,测量其血清总蛋白含量值,计算得均数 =74.2克/升,标准差 S =3.6克/升。试估计该地成年女子血清总蛋白含量的95%参考值范围。
例5-14 已知成年女子血清总蛋白含量近似服从正态分布。现为确定成年女子血清总蛋白含量参考值范围,在某地抽取了“正常”成年女子200人,测量其血清总蛋白含量值,计算得均数=74.2克/升,标准差S=3.6克/升。试估计该地成年女子血清总蛋白含量的95%参考值范围。 解:根据医学知识可知成年女子血清总蛋白含量过高或过低均为异常,故应制定双侧医学参考值范围。又因为指标近似正态,故可用正态分布法求该指标的95%医学参考值范围
下限为 =74.2-1.96(3.6)=67.144 (克/升) • 上限为 =74.2+1.96(3.6)=81.256 (克/升)
2.质量控制 作为上、下警戒线 作为上、下控制线 3.正态分布是许多统计方法的理论基础
第二节 二项分布 二项分布(binomial distribution)是一种常用的离散型概率分布。
一、 二项分布的概念和特征 1.二项分布的概念 Bernoulli试验: n重Bernoulli试验满足下列条: (1)每次试验只有两个互斥的结果 A 和 , 所以 P(A)+P( )=1。记 P(A)=。 (2)独立是指各次试验出现的结果之间是无关的。 (3)重复是指每次试验的条件不变,保证了在各次 试验中,结果发生的概率不变。
如果用随机变量X表示在n次Bernoulli试验中结果A出现的次数,则X服从二项分布,记为 X~B(n,)。 • X取值为k的概率的计算公式为: • 其中为在每次Bernoulli试验中结果 A出现的概率,X 取值为 0, 1, …, k,…,n; 。
例5-5 已知用某种药物治疗某一非传染疾病的有效率为0.60。今用该药治疗该病患者20人,试计算其中有12人有效的概率。 • 解:根据题意,以X表示“所用药物治疗该病有效的人数”,X服从二项分布,已知 n =20,π=0.60,X=12。按公式(5-22)计算相应的概率为 0.1797
P(X) n=3 P(X) n=15 2.二项分布的特征 P(X) P(X) n=8 P(X) n=50 图5-2 =0.35 时,不同 n 值下的二项分布
P(X) P(X) X n=6 n=12 图5-3 =0.5 时,不同 n 值下的二项分布
2.二项分布的特征 (1) 二项分布的图形特征 • 二项分布图的形状取决于n,π的取值。当π≠0.5时,图形呈偏态,但随n 的增大,图形逐渐对称;当π=0.5时,图形对称。 (2) 二项分布的均数与标准差 • X 的总体均数为 • X 的总体方差为
若以 p 表示 样本率 p 的总体均数为 样本率 p 的总体方差为
二、 二项分布的应用 • 出现“阳性”的次数至多为k次的概率为 P(X≤k) • 出现“阳性”的次数至少为k次的概率为 P(X≥k)
例5-7 保险公司为了决定保险金数额,估算公司的利润和破产的风险,需要计算各种各样的概率。若根据寿命表知道,某年龄段保险者,一年中每个人死亡的概率等于0.005,现有10000个这类人参加人寿保险,试求在未来一年中在这些保险者里(1) 有30个人死亡的概率;(2) 死亡人数不超过65个的概率。 • 解:根据题意,以X表示“10000人在一年中死亡的人数”,X服从二项分布,由题已知n=10000,π=0.005, (1) 有30个人死亡的概率为: = 0.0006647 (2) 死亡人数不超过65个的概率为 P(X≤65)= 0.983
第三节 Poisson分布 Poisson分布(Poisson distribution) 是另一种常用的离散型概率分布。它常被看作二项分布的特例,即发生率π很小,而样本例数n又很大时二项分布的特例。
一、 Poisson分布的概念和特征 1.Poisson分布的概念 一般而言,服从Poisson分布的随机变量X描述是在单位时间(或单位空间、容积)内的某随机事件发生的次数,故随机变量X 的取值为非负整数,即0,1,2,…,其相应取值概率为 (k = 0,1… ) • 称X服从以 为参数的Poisson分布,记为 • X~P( )。
在医疗卫生领域中,Poisson分布常用于研究单位时间(或单位空间、容积)内某事件发生次数的分布,如分析放射性物质在单位时间内的放射次数、在单位容积充分摇匀的水中的细菌数、单位空间中粉尘颗粒数、野外单位空间中的某种昆虫或野生动物数分布等。在医疗卫生领域中,Poisson分布常用于研究单位时间(或单位空间、容积)内某事件发生次数的分布,如分析放射性物质在单位时间内的放射次数、在单位容积充分摇匀的水中的细菌数、单位空间中粉尘颗粒数、野外单位空间中的某种昆虫或野生动物数分布等。
P(X) P(X) X X λ=3 λ=5 P(X) P(X) X λ=10 λ=20 图5-4 λ取不同值时的Poisson 分布图
2.Poisson分布的特征 (1)Poisson分布的图形特征 从Poisson分布的图形可以看出,随着的增大,Poisson分布的对称性越来越好。 (2)Poisson分布的均数与方差 (3)Poisson分布的可加性 T= X1+ X2+…+ Xk ~ P( 1+2+…+ k)
3.Poisson分布与二项分布的关系 对于二项分布X~B(n,π),当n很大,很小时,二项分布 B(n,π)近似Poisson分布。