540 likes | 913 Views
上节课内容 概率理论 概率公理及推论 随机事件之间的关系:条件概率、独立 / 条件独立、贝叶斯公式 本节课内容 随机变量及其分布 随机变量变换 常见分布族 多元随机向量的分布 联合分布、边缘分布、条件分布、独立. 第 二 章: 随机变量. 随机变量. 统计推断是与数据相关的 。 随机变量 就是将样本空间 / 随机 事件与数据之间联系起来的纽带 随机变量 是一个映射 ,将一个实数值 赋给一个试验的每一个输出
E N D
上节课内容 概率理论 概率公理及推论 随机事件之间的关系:条件概率、独立/条件独立、贝叶斯公式 本节课内容 随机变量及其分布 随机变量变换 常见分布族 多元随机向量的分布 联合分布、边缘分布、条件分布、独立 第二章:随机变量
随机变量 • 统计推断是与数据相关的。随机变量就是将样本空间/随机事件与数据之间联系起来的纽带 • 随机变量是一个映射 ,将一个实数值 赋给一个试验的每一个输出 • 例2.2:抛10次硬币,令X(ω)表示序列ω中正面向上的次数,如当 ω = HHTHHTHHTT,则X(ω) = 6。
随机变量的概率描述 • 事件的概率 随机变量的概率描述 • 给定一随机变量X及实数子集A,定义 • 例2.4:抛2次硬币,令X表示正面向上的次数,则 其中X表示随机变量,x表示X可能的取值
随机变量的分布函数 • 随机变量X的累积分布函数(cumulative distribution function, CDF) 定义为 • CDF是一个非常有用的函数:包含了随机变量的所有信息。 CDF的性质:略 (见书) 有时记为F
例:随机变量的CDF • 例2.6:公正地抛硬币2次,令X表示正面向上的次数,则 • CDF • 右连续、非减函数 • 对所有实数x都有定义 • 虽然随机变量只取0、1、2
离散型随机变量的概率函数 • 离散型随机变量的概率函数(probability function or probability mass function, pmf)定义为 • 对所有的 • CDF与pmf之间的关系为: 有时记为f
例:离散型随机变量的pmf • 例2.10:公正地抛硬币2次,令X表示正面向上的次数,则 • 概率函数为:
连续型随机变量的概率(密度)函数 • 对连续型随机变量X,如果存在一个函数 ,使得对所有的x, ,且对任意 有 • 则函数 被称为概率密度函数(probability density function, pdf)。 • CDF与pdf之间的关系: • 在所有 可微的点x,则 注意: 是可能的
例:连续型随机变量的CDF和pmf • 例2.12:设X有PDF: • 显然有 • 有该密度的随机变量为(0,1)上的均匀分布:Uniform(0, 1),即在0和1之间随机选择一个点。 • 其CDF为:
分位函数 (quantile function) • 令随机变量X的CDF为F,CDF的反函数或分位函数(quantile function)定义为 • 其中 。若F严格递增并且连续,则 为一个唯一确定的实数x,使得 。 • 为增函数 • 中值(median): • 一个很有用的统计量,对噪声比较鲁棒
随机变量的变换 • X:老的随机变量, • Y:新的随机变量, • 离散:
离散型随机变量的变换 • 例2.45:假设 • Y的取值比X少,因为该变换不是一一映射。
连续型随机变量的变换 • CDF方法 变换的三个步骤 • 对每个y,计算集合 • 计算CDF • PDF为
连续型随机变量的变换 • 当r为单调增函数/减函数,定义r的反函数 ,则 • 当X、Y存在一一映射时,上述结论仍可用—Jacobian方法 • 分区间:在每个 区间内为单调函数,可分区间利用上述结论
例:连续型随机变量的变换 • 例2.46: • 则 • 令 • 则 • 或直接用Jacobian方法
例:连续型随机变量的变换 • 例:[概率积分变换] X有连续CDF ,定义随机变量Y为 ,则Y为[0,1]上的均匀分布,即 • 对随机数产生特别有用(Chp2第15题)
1.0 0.5 0
常见分布族 • 离散型随机变量 [Ch2, p25] • 均匀(Uniform)分布 • 贝努利(Bernoulli)分布 • 二项(Binnomial)分布 • 超几何(HyperGeometric)分布 • 几何(Geometric)分布 • 泊松(Possion)分布 • 连续型随机变量 [Ch2, p27] • 均匀(Uniform)分布 • 正态(Normal)分布 • Gamma分布 • Beta分布 • 分布 • 指数(Exponential)分布
常见分布族 • 每个分布族 • pdf/pmf形式 • 参数 • 典型应用 • 均值、方差
正态分布 • 亦称高斯分布, • : 位置(location)参数 • : 尺度(scale)参数 • 如图像处理中的多尺度分析
正态分布 • 最重要的分布之一 • 在实际遇到的许多随机现象都服从或近似服从正态分布 • 如考试成绩 • 中心极限定理:随机样本的均值近似服从正态分布 • 对任意IID样本 ,则
标准正态分布 • 当 时,正态分布称为标准正态分布,通常用Z表示服从标准正态分布的变量,记为 。 • pdf和CDF分别记为 • 标准化变换: • 若 ,则 • 若 ,则 • 正态分布的线性组合仍是正态分布:若 是独立的,则
二元随机向量的联合分布 (X, Y):随机向量 • 离散型随机变量的联合分布:令X、Y为一对离散型随机变量,联合概率函数(pmf)定义为 • 联合概率分布函数(CDF)为:
联合分布 Y=0 Y=1 X=0 1/9 2/9 1/3 X=1 2/9 5/9 2/3 1/3 2/3 1 边缘分布 • 例2.18:对如下有两个随机变量的二元分布,变量X和Y取值为0、1, • 则 。
二元随机向量的联合分布 • 连续型随机变量的联合分布:令X、Y对一对连续型随机变量,联合概率密度函数(pdf)定义为 • 对任意集合 • 联合概率分布函数(CDF)为:
边缘分布 • 离散型随机变量:
边缘分布 • 连续型随机变量: 联合分布包含了随机向量概率分布的信息 联合分布唯一确定了边缘分布,但反之通常不成立
独立 PDF可以因式分解
随机变量之间的关系 • 独立 • 当且仅当 • 不独立:随机变量之间的关系用条件分布描述 • 条件分布:
条件分布 第一节课中随机事件的条件概率: • 离散型随机变量的条件概率函数: • 对连续型随机变量,条件概率定义相同,但解释不同
条件分布 • 给定变量Y时,在 X上的概率分布 • 对Y的每个可能取值,对X都定义有一个概率分布 • 是一个概率分布,满足概率分布的所有性质,如
联合分布、边缘分布与条件分布 • 边缘分布与联合分布: • 条件分布与边缘分布、联合分布: • 联合分布与条件分布、边缘分布:
条件概率 链规则(Chain Rule) • 链规则 • 或
贝叶斯规则 似然 先验 贝叶斯规则 后验
贝叶斯规则中的边缘化 • 给定 和 ,推导 • 经常使用 贝叶斯规则的归一化因子 • 通过边缘化, 已知 ?
边缘分布 • 通过使用 (1) 边缘化和 (2) 链规则,给定 ,可以计算:
条件独立 • (绝对)独立: • 给定Y,不会对X增加任何信息 • 条件独立:若在给定Z的情况下,X与Y条件独立,则 • 一旦已知Z,Y不会对X提供额外的信息 • 例:
联合概率 • 联合概率: • 定义了所有可能状态的概率 • 二值变量的情况下有 项 • 用 个独立变量表示 • 非二值变量? • 如果这些变量是独立的,则 • 对二值变量,用n个独立变量表示 • 非二值变量?
联合概率 • 若有些变量是条件独立的话,联合概率可以用少于 个变量表示 • 例: • 但若Y和W在给定X下独立,且Z和W、X在给定Y下独立,则 • 真实问题通常是这样的,贝叶斯网络就是利用了条件独立的性质
链规则推广 • 条件概率的定义 • 递归定义: 2n 1 2 4 2n-1 对二值变量
多元随机向量的分布 • 令随机向量,其中 为随机变量,用 表示X的pdf/pmf,先前讨论的关于二元随机向量分布的结论都可以推广到多元随机向量,如可以定义边缘分布、条件分布等 • 当随机向量互相独立时, • 随机向量相互独立两两独立,但反之不成立
IID(Independent Identically Distribution)样本 • 当 互相独立且有相同的边缘分布F时,记为 ,我们称 为独立同分布( Independent Identically Distribution,IID)样本,表示 是从相同分布独立抽样/采样,我们也称是分布F的随机样本。若F有密度f,也可记为 ,样本大小为n • 思考题:怎样对任意分布F进行采样(得到多个独立同分布的样本)?
常见多元分布 • 多元二项分布 • 多元正态分布
多元二项分布 • 二项分布的多元变量版本 • 其中 • 例:从箱子中共k中颜色的球, 为抽取到颜色j的概率,共抽取n次,令 为颜色j出现的次数,则
多元二项分布 • 边缘分布:若 , 其中 且 ,则 的边缘分布为
多元正态分布 • 令 ,其中 且互相独立 • 则 • Z的协方差矩阵为单位矩阵I,记为 。
多元正态分布 • 更一般地, • 其中 表示矩阵的行列式, 为均值向量,协方差矩阵为一个对称的正定矩阵