590 likes | 735 Views
隐结构模型与中医辨证. 张连文 香港科技大学. 2004 年冬 这项工作是与 袁世宏 合作完成的. 内容概要. 介绍 一个机器学习 (machine learning) 在中医中应用的例子。 展示 机器学习在中医研究中的大有作为。 中医为机器学习提出的新问题、新挑战。. 提纲. 问题与背景 新方法 基本思想 隐结构分析工具 新方法的可行性 肾虚数据及其分析 结果的意义 总结与展望 致谢. 问题与背景 / 中医诊断. 收集病情资料 望、闻、问、切
E N D
隐结构模型与中医辨证 张连文 香港科技大学 2004 年冬 这项工作是与袁世宏合作完成的
内容概要 • 介绍 • 一个机器学习(machine learning)在中医中应用的例子。 • 展示 • 机器学习在中医研究中的大有作为。 • 中医为机器学习提出的新问题、新挑战。
提纲 • 问题与背景 • 新方法 • 基本思想 • 隐结构分析工具 • 新方法的可行性 • 肾虚数据及其分析 • 结果的意义 • 总结与展望 • 致谢
问题与背景/中医诊断 • 收集病情资料 • 望、闻、问、切 • 例:小便余沥不尽,夜尿频,精神不振,齿松脱落,下肢困乏不便,记忆力减退,失眠,头部昏晕,苔薄、尺脉不足 • 辨证 • 对病情资料进行综合分析,从而对疾病当前的病因、病位、病势、病性等本质作出判断 • 结果:证或证候 • 例:肾精亏虚,膀胱失约
问题与背景/中医辨证 • 特点 • 中医辨证没有客观标准 • 医师辨证技能的高低很大程度取决于经验,老医师才会受到充分信任 • 辨证结果受主观因素的严重影响,对同一病人不同医师所做的辨证结论往往不同
我们的工作 • 问题 • 怎样为辨证建立一个客观的、定量的标准? • 提出一种研究辨证的方法 • 利用机器学习为中医辨证提供一个统计学基础、从而为它建立客观标准。
问题与背景/相关工作 • 证实质研究 • 兴起于五十年代 • 的目标是, • 寻找证候的客观检测指标,用客观检测指标对疾病作出诊断; • 成功标志: • 是否找到与经验基本相符的指标 • 既具有敏感性,又具有特异性
问题与背景/相关工作 • 证实质研究未成功。 • 例:肾虚证研究 • “不同的学者从不同的组织系统和生理病理角度选择了上百个指标,但目前还没有发现一个指标相对肾虚具有特异性” (王洪琦等1999) • 指标例: 24小时尿17—羟(qiang4)皮质类固醇降低 • 曾一度被认为是肾阳虚的特异性指标 • 但后来发现,它在脾阳虚时也会出现
问题与背景/相关工作 • 证实质研究 • “40年来,中医证实质研究已经将成百上千的实验数据摆在我们面前,按照原定研究目标,这些不争气的数据给予我们的只是困惑和迷茫”。(赵国求1999) • 目前多数学者认为证不能用类似西医的方法靠几个特异性的指标来判定。
问题与背景/相关工作 • 回归分析和判别分析 • 出发点 • 一组已由专家分类的病例 (labelled data), • 每份病例不但有病人的症状,而且还有专家对病人所作的辨证结论。 • 目的 • 建立回归方程或判别函数 • 症状为自变量,而证候为应变量。
问题与背景/相关工作 • 聚类分析 • 出发点 • 一组未分类的病例 (unlabelled data), • 每份病例只有病人的症状,无辨证结论。 • 目的 • 按症状对病例进行聚类, • 症状相近的聚为同一类,症状不相似的聚到不同的类 • 成功标志: • 所得的类与中医证侯吻合 • 杨学鹏(1993) • 用基于距离的聚类,对阴阳两证进行了研究 • 结果不理想:所得的类与阴证和阳证的特性不吻合。
提纲 • 问题与背景 • 新方法 • 基本思想 • 隐结构分析工具 • 新方法的可行性 • 肾虚数据及其分析 • 结果的意义 • 总结与展望 • 致谢
基本思想 • 辨证理论与隐结构 • 例如关于肾阴虚,中医认为: • 肾阴亏虚,脑髓、官窍、骨骼失养,则见腰膝酸痛、眩晕耳鸣、健忘、齿松发落;……;虚火上扰心神,故烦热少寐;肾阴不足,失于滋润,虚火蕴蒸,故见口燥咽干,形体消瘦,潮热盗汗,或骨蒸发热,颧红,尿黄少。舌红少苔,脉细数,为阴虚内热之象。 • 显变量(manifest variable):直接观察到/”测量到” • 腰膝酸痛、舌红少苔、脉细数, 。。。 • 隐变量(latentvariable):不是直接观察到/”测量到”的 • 肾阴虚、肾阴虚失养、肾阴虚失滋润、阴虚内热 • 隐结构: • 隐变量之间以及隐变量与显变量之间的关系
基本思想 • 隐变量是什么? • Sobel (1994): 隐变量是人脑思维的产物 • 是为了解释在众多事例中所观察到的规律而引入的。 • 例1: • 观察:数学成绩好的学生,物理、化学成绩往往也好;反之亦然 • 引入隐变量:分析能力 • 分析能力强,则数学、物理、化学成绩一般都较好; • 分析能力差,则这三科成绩往往都较差。 • 例2: • “舌上少津”、“口渴喜饮”、“小便黄赤短少”、 “小便涩少”常常结伴出现。 • 引入隐变量:津亏 • 有津亏,则导致这些个症状的出现; • 而无津亏时,它们则一般不会出现。
基本思想 • 中医理论: • 人脑通过对众多病例的观察,发现规律,为解释这一些规律而引入的隐结构。 • 中医辨证 • 用人脑构造的隐结构来指导辨证,缺乏客观性,并且是不定量的 • 新方法的基本思想 • 系统收集病例 • 用计算机:进行分析数据,找出规律性,并且构造隐结构 • 用这个电脑构造的隐结构来指导辨证 • 客观性会大大提高, • 定量化不再是一个问题。
提纲 • 问题与背景 • 新方法 • 基本思想 • 隐结构分析工具 • 新方法的可行性 • 肾虚数据及其分析 • 结果的意义 • 总结与展望 • 致谢
隐结构分析工具 • 统计学中现存的隐结构分析工具 • 隐类分析(latent class analysis)、 • 隐特性分析(latent trait analysis)、 • 隐概况分析(latent profile analysis)、 • 因子分析(factor analysis)。
隐结构分析工具 • 隐类分析 • 隐类模型: • 一个隐变量 • 多个显变量 • 基于数据,决定 • 隐变量取值个数,即隐类个数 • 每个类的统计特性
隐结构分析工具 • 隐类分析的应用领域 • 社会科学,教育,心理学,及医疗卫生等 • 西医用它探讨一些病症的诊断标准, 包括 • 类风湿关节炎 • 抑郁症 • 慢性疲劳综合症 • 注意: • 上述三个西医病症与中医证侯有共同特点: • 它们都是无法直接观测的,没有诊断金标准,属于隐变量
隐结构分析工具 • 多层隐类分析模型 • 隐类模型:只有一个隐变量,对证候研究不足够 • 推广: • 多层树状隐结构 • 多层隐类模型(hierarchical latent class model) • 简称HLC模型
隐结构分析工具 • HLC模型研究 • Zhang (AAAI 02, JMLR 04) • 基本理论问题:equivalence, regularity, identifiability • 基本算法:DHC (双重爬山法) • Kocka & Zhang (UAI 02), Zhang & Kocka (JAIR 04), Chen, Kocka & Zhang (IJAR 04) • 模型有效复杂度 • Zhang & Kocka (ICTAI 04) • 算法:HSHC (启发式单重爬山法) • Zhang, Nielsen & Jensen (AIMED 04) • Hierarchical Naïve Bayes model: 分类 • Chen, Wang, Zhang • 研究更快算法
提纲 • 问题与背景 • 新方法 • 基本思想 • 隐结构分析工具 • 新方法的可行性 • 肾虚数据及其分析 • 结果的意义 • 总结与展望 • 致谢
肾虚数据 • 症状变量选择 • 67个:《国家证候诊疗标准》和 中医诊断学教材 • 反映了肾脏各个方面的生理功能和病理变化
肾虚数据 • 症状轻重程度判别标准: • 严石林,王米渠,等. 肾虚证辨证因子等级评判操作标准的研究[J].成都中医药大学学报,2001,24(1)
肾虚数据 • 样本空间:60岁或以上的老年人
肾虚数据分析 • 算法HSHC:Zhang & Kocka (2004) • 暂时无法处理所有67个变量 • 选择35个来进行分析 • 2.4GHz,奔腾IV • 98.5小
提纲 • 问题与背景 • 新方法 • 基本思想 • 隐结构分析工具 • 新方法的可行性 • 肾虚数据及其分析 • 结果的意义 • 总结与展望 • 致谢
结果的意义 • 模型M*有何用途? • 用它来指导辨证,建立辨证标准。 • 三个问题: • 怎样用M*来指导辨证? • 用M*来指导辨证的意义何在? • 辨证质量是否有保证?
结果的意义 • 怎样用M*来指导辨证?模型辨证 • 给定:症状变量的取值,可以计算隐变量的后验概率分布。 • 问题: • M*中的隐变量是否对应证候? • 对应哪些证候?
结果的意义 • 模型辨证的意义何在? • 提高辨证的客观性 • 推理过程的客观性 • 模型M*的内容的客观性 • 数据只包含症状显变量的取值,不包含对证候隐变量的主观判断。 • 上述第2点与回归分析不同
结果的意义 • 模型辨证质量是否有保证? • 无金标准可比较 • 只能与专家辨证比较 • 出发点相同:症状 • 推理的基础的比较 • M*的内容与辨证理论 • 推理的结果 • 案例分析
模型质量 • 在定性层面,M*与辨证理论吻合 • 在定量层面, M*与辨证理论吻合 • 在辨证结果方面,模型辨专家组辨证实质上一致。
M*与辨证理论在定性层面的比较 • 这里M*说: • 有一个隐变量h1, • 接影响畏寒怕冷、四肢冷、腰背冷 • 间接地通过隐变量h2影响便稀、完谷不化 • 这与中医理论是否吻合? • 隐变量和h1和h2的意义是什么?
M*与辨证理论在定性层面的比较 • 中医理论认为, • 肾藏元阳内寓命火,既可温煦脏腑经络、推动激发脏腑功能活动,又能温肢体暖周身。 • 当肾阳不足失温煦时则可见畏寒肢冷、腰背怕冷。 • 同时肾阳虚衰火不温脾土,则可见完谷不化,便稀。 • 在这个局部M*与中医理论完全吻合 • h1可解释为“肾阳虚失温煦程度” • h2可解释为“火不温脾土程度”
M*与辨证理论在定性层面的比较 • 这里M*说: • 有隐变量h4, • 直接影响小便余沥、夜尿频多、昼尿次多 • 同时又通过隐变量h5间接影响昼小便失禁和夜遗尿 • 这与中医理论是否吻合? • 隐变量和h4和h5的意义是什么?
M*与辨证理论在定性层面的比较 • 中医理论认为, • 膀胱为洲渎之官,它的气化约束作用控制着小便开合排泄。 • 当膀胱气化失司,约束失职关门不利,则可见小便余沥不尽、夜尿频多、昼尿次多。 • 当气化约束失职较重,关门不能,则可使尿失禁固而见夜遗尿、昼小便失禁。 • 这一局部, M*与中医理论基本吻合 • h4可解释为“膀胱失约程度”, • h5可解释为“尿失禁固程度”。
其它部分也基本吻合 肾阳虚水泛 肾阴虚 肾阳虚失温煦 膀胱失约 肾精亏虚 肾阴虚内热 肾阴虚伤津
不一致的地方 • 例: • 中医理论中, • 阴虚和精亏都可以导致失眠和头晕, • 在M*中,失眠和头晕 • 只与h10(阴虚)相连 • 不与h8(精亏)相连 • 源自HLC模型的限制 • 一个显变量只能与一个隐变量相连。 肾精亏虚 肾阴虚
M*与辨证理论在定量层面的比较 • 中医理论关于量的内容 • 症状对证候的正单调依赖关系 • 证候越重,症状越多、越重 • 症状出现相对易难关系 • 中医认为 便稀泻泄多由中焦水谷不分、清浊不别而为之,完谷不化则多有下焦肾虚、命门火衰水谷不得腐熟蒸化而成,故前者比后者更易见。
M*与辨证理论在定量层面的比较 • 吻合 • 便稀和完谷不化正单调依赖肾阳虚火不温脾土 • 如果排序:s0 < s1 < s2,则吻合 • 隐变量取值诠释:为便于使用,不对应人们心目中的程度 • s0 –无; s1—中; s2—重. • 便稀比完谷不化更易见
例3: 症状出现相对易难关系 中医学认为当肾气亏虚,膀胱气化失司,失去约束固摄功能, 轻则夜尿频多、小便余沥不尽, 重则昼小便失禁、夜遗尿。 M*与辨证理论在定量层面的比较
案例 病例1的特点:症状多,阳虚症状、阴虚 症状都有
结果的意义 • 模型辨证的质量是否有保证? • 与专家辨证比较 • 出发点相同:症状 • 推理的基础的吻合 • M*的内容与辨证理论 • 推理的结果吻合 • 案例分析 • 辨证质量是有保证!