600 likes | 874 Views
第十一章 盲信号与独立分量分析. §11.1 盲信号处理导论 §11.2 独立分量分析概述 §11.3 基本概念 §11.4 ICA 的优化判据 §11.5 ICA 的优化算法. §11.1 盲信号处理导论. (一)盲信号处理 ( BSP , Blind Signal Processing ) 问题:当传输信道特性未知时,从一个传感器或转换器 的输出信号分离或估计原信号的波形。 注:不确定性是指被估计信号任意比例伸缩,排序和
E N D
第十一章 盲信号与独立分量分析 • §11.1 盲信号处理导论 • §11.2 独立分量分析概述 • §11.3 基本概念 • §11.4 ICA的优化判据 • §11.5 ICA的优化算法
§11.1 盲信号处理导论 (一)盲信号处理(BSP,Blind Signal Processing) 问题:当传输信道特性未知时,从一个传感器或转换器 的输出信号分离或估计原信号的波形。 注:不确定性是指被估计信号任意比例伸缩,排序和 时滞。依然保留了原信号的波形,是可以被BSP 接收的,对于BSP不是最关键的。
§11.1 盲信号处理导论 三个主要方向: *盲信号分离与提取(BSS:Blind Signal Separation) 确定一个或几个具有特殊统计或性质的子分量,舍弃不感兴趣的信号或噪声。 用二阶统计量可以完成。 *独立分量分析(ICA:Independent Component Analysis) 得到相互独立的输出分量。在实际应用中应作一定的处理。 用高阶统计量来进行分析。 *多通道盲解卷积和均衡(MBD)
§11.1 盲信号处理导论 (二)处理方法和思路(四个) (1)HOS:高阶统计量衡量信号的独立性和高斯性, 或稀疏性(ICA)。 (2)SOS:有时序结构用二阶统计量(SOS)即可, 不能分离具有相同功率谱形状或独立同分布信号。 (3)NS+SOS:利用非平稳信息和SOS结合,能够分 开功率谱形状相同的源信号。但若非平稳性也相 同就不可以分离。 (4)STF多样:运用信号不同多样性:时域多样性, 频域多样性,空域多样性。 TDMA, FDMA, SDMA
§11.1 盲信号处理导论 (三)应用:医学,语音增强,无线通信 (1)生物医学处理:非侵入式评估人体器官不同生 理变化。 典型:胎儿心电图信号提取。 测量方法:在母体腹部放置若干体表电极,测 量电位差信号ECG:包括MECG,FECG。 母体心电图信号=胎儿心电图信×N(N=1.5~100) 自适应滤波;胎儿的心率与母体心率不同的,可看作 是独立的。 测量
§11.1 盲信号处理导论 (2)声音提取: 典型例子:“鸡尾酒会”的问题。 人的大脑可以很快辨出或集中听某种需要关注声音。 麦克风1 麦克风2 麦克风3 归结为 的设计,声音识别,可以识别微弱声音信号。
§11.1 盲信号处理导论 (3)数字通信系统:M1M0均衡器,滤波器。 符合盲信号处理对多通道的要求, 不需要有干扰信号的训练样本。
§11.1 盲信号处理导论 (4)图像处理:建立一系列具有独立特征的组合,去 掉高阶关联性。 降噪,识别,压缩。
§11.2 独立分量分析概述 (一)前提:一般假设S中各分量相互独立;零均值, 且方差为1。 以多导信号处理为基础,即:必须借助于一组把信源 按不同比例组合起来的多通道信号同步观察。 多导 信号包括:主分量分析(PCA); 奇异值分解(SVD)。 S X H
§11.2 独立分量分析概述 (二)多导信号处理基础 对于M通道的观察值(每通道N点采样数据)组成数 据阵X 其中 是正交归一阵, 是准对角阵, M N 不失一般性;通常设 为奇异值。
§11.2 独立分量分析概述 列向量u反应在不同通道的分量,空间模式; 列向量v反应在不同时刻的贡献,时间模式。 在均值为0时,其协方差阵可表示为: 为特征值,是对 的主分量分解 。 分解出的分量是按能量大小排序的 主分量分解: 是按能量大小进行排序,反映信号主要分量。
§11.2 独立分量分析概述 (三)ICA的简单思路 ICA的任务明确为:在S,A均未知的情况下,求B,使Y=BX是 S的最优逼迫。 基本原则: (1)非线性去相关。求B,使任意两输出yi, yj(i≠j)不相 关; 且经非线性变换g(yi), h(yi)也不相关(高阶统计量)。 (2) 使输出尽可能非高斯化。Y的非高斯性的每个局部极 大值都给了一个独立分量。 (四)ICA研究机构 X=AS Y=BX S A B 混合矩阵 解混矩阵
§11.2 独立分量分析概述 对X求协方差阵(假设各导记录的均值皆为0),则有: 为特征值,上式是对Cx的主分量分解。 分解出的分量按能量大小排序 。如果原始数据的 秩小于M,则某些奇异值,特征值将等于0。 SVD,PCA分解, 保证分解出来的各分量不相关,不能保证分量 相互独立。 ICA最早是针对“鸡尾酒会问题”,从酒会嘈杂人声中提取所关心 对象的语音,针对CDMA把各用户码分解开来。
§11.2 独立分量分析概述 (三)ICA最简单框图说明 ICA任务:S,A均未知,求B,使Y=BX是S的最优逼迫。 分解基本原则: (1)非线性去相关。求B,使任意两输出yi, yj(i≠j)不相 关;且经非线性变换g(yi), h(yj)也不相关(高阶统计 量)。 (2) 使输出尽可能非高斯化,Y方差恒定, Y的非高斯性的每一个局部极大值给出了一个独立分量。 X=AS Y=BX S A B 混合矩阵 解混矩阵
§11.2 独立分量分析概述 主要研究结构: (1)美国加州大学生物系,计算神经生物实验室,提出 信息极大化( infomax )。 http://www.cnl.salk.edu. (2)日本Riken的数量神经科学实验室,互信息极小化 (minimization of mutual information MMI)采用人 工神经网络优化。 http://www.brain.riken.jp/lab/mns/amari
§11.2 独立分量分析概述 (3)芬兰赫尔辛基工业大学神经网络研究中心 www.cis.hut.fi/~oja www.cs.helsinki.fi/aapo.hyvarinen 高阶统计量引入PCA,提出了立足于逐次提取独立分 量的固定点算 法(fixed point algorithm)。fast ICA :使提取信号 非高斯性极大化。 计算量小,收敛速度快。 (4)法国学者:J.F.Cardoso http://tsi.enst.fr/~cardoso. JADE 算法 批数据处理算法 近年来引人注意的稀疏分量分析。 优化判据 优化算法 应用
§11.3 基本概念(与ICA相关) 单变量 (一)n阶矩: 一阶均值 三阶偏斜度 二阶均方 四阶峰度 统计估计时,偏斜度,峰度是对标准化了的数据x (均值 为0,方差为1)进行的。 (二)n阶累计量: 特征函数 (moment) 第二特征函数 (cumulant) Taylor展开 方差 均值
§11.3 基本概念(与ICA相关) 说明: (1)对单变量高斯型信号,二阶以上的矩和累计量或为 0,或可由一,二阶推导,是冗余的,因此,高斯型随 机变量可由一,二阶统计特征来完整描述。 (2)当pdf关于原点偶对称,m3=k3=0。 (3) k4>0 超高斯, k4<0 亚高斯, k4常用于对非高斯,但 对称的pdf分类。 用︱k4︱大小作为衡量信号距离高斯型程度的度量。
§11.3 基本概念(与ICA相关) (三)联合矩,联合累计量 性质:(1)当x各分量相互独立,互累计量必为0。 (2)比例性: cum(w1x1,w2x2,w3x3,w4x4)=w1w2w3w4cum(x1,x2,x3,x4) 联合矩:
§11.3 基本概念(与ICA相关) (四)熵: 反映平均信息量。 (1)当随机变量取值一定范围时,其取值作均匀分布将具有最大熵值。 (2)当随机变量的功率一定时,高斯分布具有最大熵值 (五)KL散度: 描述的是两个概率密度函数间相似程度(kullback-leibler 散度) 单变量: 多变量: KL≥0;p(x)=q(x), KL=0. 反映了p(x),q(x) 在某种意义下的距离。KL[p,q] ≠KL[q,p] 与距离对 称性不同,不宜称为距离。 重要应用:用来度量任意多变量概率密度函数中各分量相互独立程度。 干扰最佳形式 X代表矩阵
§11.3 基本概念(与ICA相关) (六)互信息:定义当p(X)为多变量[x1,x2,…xN]的联合 pdf,p(xi)为各分 量边际pdf. 称为互信息I(mutual information). 性质:(1)I(x) ≥0,I(x)=0,x 中各分量相互独立。 可作为独立程度度量。 (2)与信息熵的关系: 各分量信息熵的总和—联合熵 (3)反映了每个分量携带另一分量信息的含量。 def
§11.3 基本概念(与ICA相关) (七)负熵:任意pdf p(x)和具有相同协方差阵的高斯分布pG(x)的KL散 度,作为该pdf 非高斯程度的度量。 负熵(negentropy) 单变量: 多变量: 性质:(1)J[p(x) ]≥0,p(x)=pG(x):当且仅当J[p(x)]=0代表高斯分布。 (2) Cx是行列式 互信息与负熵的关系。
解混系统B y(t) x(t) s(t) 混合系统 球化 Z(t) 正交系统 A W U §11.4 ICA的优化判据 一、概述 系统简图
§11.4 ICA的优化判据 独立分量分析的实质是优化,即在某一衡量独立性判据最有意义下寻求近似解。解是近似解,且排列次序 上,幅度上允许不同 步骤:两步法解混 (1)球化: 确定线性变换W使z(t)的各分量zi(t)的方差为1,且不相关(未必相互独立)
§11.4 ICA的优化判据 (2)正交变换: yi的方差保持为1,且尽可能相互独立 第一步已经满足独立性对二阶统计量的要求,因此第二步只考虑三阶以上的统计量
§11.4 ICA的优化判据 ICA:各分量在方差相等的情况下尽可能独立,“对任意多变量数据寻求某种非正交坐标系的分解” PCA:按能量大小排序进行分解,分解出的分量相互正交
最优判据 ICA 最优算法 §11.4 ICA的优化判据 独立性判据统计学意义:联合pdf是否可以表示称各边际pdf的乘积? ?
§11.4 ICA的优化判据 ∴最直接的判据:互信息I(y) 由于 , 未知,需要对其估计,实际做法是将pdf变成高阶统计量的技术,或在输出端引入某种非线性环节,来自动引入高阶统计量
§11.4 ICA的优化判据 一、统计独立性与互信息测度间的关系 y中分量独立时 互信息极小化判据 判据:选择B,由x求 达到 极小 判据的优点:y中各分量的排序和幅度比例变化具有不变性 仍涉及pdf,需要用高阶统计量近似
§11.4 ICA的优化判据 最简单的逼近思路 输入信号的熵与B无关 等效于 极小 表示为高阶统计量的组合 若 不等于1,则 应除以
y1(t) g1(*) r1(t) y2(t) g2(*) r2(t) x(t) y(t) B yM(t) gM(*) rM(t) §11.4 ICA的优化判据 二、信息极大化判据(Informax) 用非线性函数 来代替高级统计量的估计 由于 是单调可逆,变换前后互信息具有不变性 接近信源的累计分布
§11.4 ICA的优化判据 判据:给定合适的 后,使输出的 总熵量极大,或 极小,或 极大 是接近信源的累积分布函数, 单增, 极小, 极大 可以用sigmoid,tanh等
§11.4 ICA的优化判据 通过非线性环节送出去的信息量最大, 最大 由于非线性环节确定,y一定下,r也确定 0 极大, 极大, 极小 ∴ 极大, 极小,各分量互信息极小 ,
§11.4 ICA的优化判据 三、极大似然判据 ,定义 最大为极大似然估计 目标函数 极大似然估计含义:选择A,使 极大 ,B给定,y分量独立 ICA中: x的对数极大似然函数 在独立的条件下,可以证明
§11.4 ICA的优化判据 使L(B)极大 ∴
§11.4 ICA的优化判据 与B无关,可见 极大,意味着互信息 极小
§11.4 ICA的优化判据 四、高阶统计量独立性判据 在多变量情况下,y中个分量相互独立时,全部累计量=0,y的维数高时,计算量大,不太实用
§11.4 ICA的优化判据 五、判据近似逼近 判据涉及pdf pdf未知 pdf级数展开 简化,逼近 适当选取非线性函数 如:Informax,逐分量引入 使 极大 gi的选择,单增, 之间,常用sigmod,tanh, 等
§11.5 ICA的优化算法 批处理法:JADE 对一批已取得的数据进行优化 自适应算法: 对输入信号自适应处理 逐次提取 Joint Cumulant and Correlation based signal seperation with application to EEG data analysis
§11.5 ICA的优化算法 一、逐次提取法 投影跟踪 1、思路:从“最独立的方向投影” 实际工作中,以“投影后数据的pdf(概率密度函数)距离高斯分布最远”,将各独立分量逐个提取出来,每提取一个,把该分量从原始数据中剔除 理由: ∴对y中的某个元素 有
§11.5 ICA的优化算法 最接近信源 若si非高斯的, 比yj更接近高斯分布 当vij其中只有一个为1,其余为0, yj=sk,距离高斯分布最远 实际上,A未知,只能通过改变B中的元素,使yj的分布最非高斯
§11.5 ICA的优化算法 度量非高斯程度--负熵 当 分布是高斯分布 越大,说明离高斯变量越远
§11.5 ICA的优化算法 2、方法: (1)负熵可以表示称高阶统计量的函数 较小,偶对称 结论: 与独立分量间的关系: 调节v使 达到最大/极大,就能得到独立分量 在一定约束条件下, 的极值对应与权重矢量v中只有一个元素为1,其余皆为0的情况,此时y的独立分量为某一独立分量s
§11.5 ICA的优化算法 设有两个独立源 ,经混合阵A,B得 ∴ ∵ 由于s1,s2独立,有 或 由于s1,s2,y是零均值,方差为1
§11.5 ICA的优化算法 任务:使 极大 为便于讨论,设 上式极大发生在 此时 极大能得到独立分量s1,s2 ∴
§11.5 ICA的优化算法 (2)为消除数据中的野点造成估计结果不够稳健的现象,可采用非多项式函数逼近概率密度函数 与 标准高斯分布(方差为1,均值为0)相差不太大时, 可用若干非多项式函数 的加权和来逼近: 满足: 正交归一性 矩消失性
§11.5 ICA的优化算法 可以证明 同时还可证明 极大 负熵 ∴只要选定合适的 ,求各 的统计均值就可以近似估计得
§11.5 ICA的优化算法 ① 统计特性 不难求 问题:如何选择 ② 的增长速度不能快于 对野点不敏感 实验中,N常取1,2— 和 , 奇函数,用来表示概率密度的非对称性; 偶函数,表现原点左右的双峰性 正常数, 是与 同样方差的零均值高斯变量
§11.5 ICA的优化算法 可用形式