440 likes | 599 Views
医学统计学 ( Medical Statistics ). 第一章 绪论. “ 数字虽然枯燥,但却能说明问题” 统计学是一门与数据有关或研究数据的学科 。. 第一节、统计学与医学统计学方法. 统计学的定义: 统计学是运用概率论和数理统计的原理和方法,研究数据资料的 收集 、 整理 、 分析 和 推断 ,从而反映事物内在规律的一门学科 。 医学统计学: 用统计学的方法和原理对医学数据的研究的学科 。. 医学研究. 以生物或人为对象. 研究疾病的表现. 诊断、临床表现 特征、规律. 药物疗效、 方法的比较. 病因及预后因素.
E N D
医学统计学(Medical Statistics) 第一章 绪论 “数字虽然枯燥,但却能说明问题” 统计学是一门与数据有关或研究数据的学科。
第一节、统计学与医学统计学方法 • 统计学的定义: • 统计学是运用概率论和数理统计的原理和方法,研究数据资料的收集、整理、分析和推断,从而反映事物内在规律的一门学科。 • 医学统计学: • 用统计学的方法和原理对医学数据的研究的学科。
医学研究 以生物或人为对象 研究疾病的表现 诊断、临床表现 特征、规律 药物疗效、 方法的比较 病因及预后因素 特征:变异性和不确定性(随机性) 决策和评价? 结论指导医疗工作 统计学工具
例:为鉴别胃癌、胃炎、非胃病患者,测定了各50名铜兰蛋白(X1)、兰色反应(X2)等指标,观察结果如下例:为鉴别胃癌、胃炎、非胃病患者,测定了各50名铜兰蛋白(X1)、兰色反应(X2)等指标,观察结果如下 • 胃癌(X1)228 235 143 187 250… • 胃炎(X1) 100 153 178 143 200 … • 非胃病(X1) 98 123 170 100 120 …. • 胃癌(X2) 134 167 156 1 21 187 150… • 胃炎(X2) 125 135 148 170 200 … • 非胃病(X2) 198 185 147 105 102 …. • 问:三种人的X1、X2指标有无不同?
心肌梗塞患者各预后因素与发生心性意外的关系心肌梗塞患者各预后因素与发生心性意外的关系 • 对116名心梗患者发生或不发生心性意外的22个可能因素做观察和记录。 • 预后因素:年龄、高血压病、前壁心梗、Killip分级、传导阻滞、溶栓治疗….等。 • 研究目的:哪些预后因素与发生心性意外有关系?关系的强度?
统计学研究对象 (某事物的观察数据) (1)在同质的基础上 研究对象的特点: (2)有一定的数量观察对象 (重复观测) 在同质基础上,得出研究事物的统计规律性和特征。 结论:
统计学在医学研究中的任务 • 用统计学的方法,通过对一定数量的个体值的观察,透过偶然现象,定量的揭示医学现象的规律性,为认识事物的本质提供科学的方法和依据。 • 医学科研工作必须借助统计学这个工具
统计学方法研究的内容 1.统计设计:如何科学、合理地安排实验和观察性研究,以正确的方式收集数据资料(对象的定义、获取、分组、偏差控制)。 2.统计描述:描述数据的基本特征和规律。 3. 假设检验:对不同组间实验和观察结果的差异作出统计推断。 4. 事物关系测定:研究疾病与影响因素的关系及数学模型,对疾病的预后做出预测。
第二节 • 统计学的基本概念 • (几个常用名词)
实验与观察研究 • 实验研究:研究者人为施加某种措施于研究对象(如一组用甲药,一组用乙药),比较措施的效果。 • 观察研究:研究者只是客观的记录研究对象的情况(如血压、年龄、病情等),了解现况。
一、随机变量(random variable) • 随机现象是一种带有偶然性的现象,它使其事物具有某种不确定性状态;是由许多错综复杂、而且作用微小以致容易被忽视因素左右,使其必然性被掩盖。 • 随机现象的表现称为随机变量(用X表示) • 医学中许多现象为随机现象。
随机变量(X)的特点 • 1.X的取值: • 不能事先确定;取值波动在一定范围内;各种取值的出现服从一定概率分布。 • 2.变量的类型: • 1)连续型变量(continuous variable) • 在一定区间变量取值为无限个。 • 2)离散型变量( discrete variable) • 在一定区间变量取值为有限个,可列举。
n=3, =0.8 P(X)( ,n) 0.4- n=10,=0.3 0.3- P(x) 0.2- 0.1- 0.0 X 0 1 2 3 X 0 2 4 6 8 0.2- n=20, =0.5 n=30, =0.3 0.1- 0.0 4 8 12 16 4 8 12 16 20
二、误差与误差来源 误差(error):观察结果值与真值之差 变量值或数据(data)有变异是统计数据的特征。 个体间变量值变异的主要来源: 1.随机误差(生物变异) 2.系统误差(偏倚(bias) 反映数据的质量
误 差(Error) 原因 避免否 未知众多微小因素 所引起数据的变异 医学中主要是个体差异 随机误差 不能 过失误差 :如记录、操作等人为因素。 非随机误差 (系统误差) 可控制 而缩小 病例选择、仪器、方法的不一致、对试验组结果的期望
三、统计数据的类型 • (一)观察数据的原始记录分类 • 1.分组因素数据(可能有关因素):如不同用药、方法、 不同病情、性别、疾病类型、年龄。 • 2.结果反应变量(outcome)数据:如疗效、是否某病等。
表 100例高血压患者治疗后临床记录 • 患者 年龄 性别 治疗组 舒张压 体温 疗效 • 编号X1X2X3 X4 X5X6 • 1 37 男 A 11.27 37.5 显效 • 2 45 女 B 12.53 37.0 有效 • 3 43 男 A 10.93 36.5 有效 • 4 59 女 B 14.67 37.8 无效 • 。 • 100 54 男 B 16.80 37.6 无效
(二)原始数据的类型统计上定义为: 1.计量(quantitative)数据:研究对象的指标(变量值)表现为有数字大小和单位的数据,又称计量资料. (1)连续变量: 身高值 (cm) :1.65,1.70 1.58 ….. 体重值(kg): 52,55,61….. (2)比率变量 脑电图波形变化率(%):29%,37%….
2. 分类数据(categorical): • 变量值表现为按某属性划分的定性类别。清点各类别个数后得到的资料称计数资料。 • 数据表现(名义变量和分类变量): • 两分类数据: • 阳性或阴性;存活或死亡;有效或无效, • 性别:男性或女性(名义变量) • 多分类数据:如血型:O ,A,B,AB • 计数资料(血型) 100 52 78 32
3. 等级数据(ordinal data): • 变量值按变化程度大小划分得到的分类,清点各分类的个数后得到的资料称为半计量或等级资料。 • 例:病情分级(X1):Ⅰ , Ⅱ,Ⅲ • 疗效(X2):痊愈、显效、有效、无效 • 病人满意度(X3): 好、中、差 • 人数 50 25 5
数据类型及赋值 • 数据(变量)类型 变量的表现 • 1.计量变量: 血压值:12.3kap • 2.分类(定性) • 1)两分类: 疗效:有效=1,无效=0 • 性别:男=1,女=2 • 2)多分类(无序):例:副作用(有重复选择) • 3.等级(有序) • 疗效:痊愈=4、显效=3、有效=2、无效=1
例:105人心脏外科病人心理反应情况 • 心理反应 病例 百分比 反应发生率 • 症状 数 (%) (%) • 焦虑 102 58.6 97.14 • 抑郁 57 32.8 54.28 • 自我认同紊乱 10 5.7 9.52 • 恐惧 5 2.9 4.76 • 合计 174 100.0 ——
变量值的测量与转换 原测量 转换结果 正常、可疑、异常 血压(kPa) 年龄(岁) 60岁,60岁 优、良、中、差 9-10分,7-8分,5-6分,4-1分
四、样本与总体(Sample and Population) • 总体:根据研究的目的,确定研究对象的某指标(变量)值的全体。 • 有限总体:总体中的研究对象为N个,是可以全部获得的(可一一编号)。 • 无限总体:总体中研究对象是不可能全部获得,为一假设的总体。 • (例:某药治疗高血压病的疗效)
样本:从总体中随机抽取有代表性的部分研究对象的观察值(数据)所组成,称为样本。观察对象的个数称为样本例数(n)。样本:从总体中随机抽取有代表性的部分研究对象的观察值(数据)所组成,称为样本。观察对象的个数称为样本例数(n)。 • *抽样框架:对有限总体的每个观察对象编号(1-N),可在总体内实现随机抽样。 • 抽样研究目的:用样本观察值的结论 • 推论总体的情况
例:HBsAg阳性与肝癌发生率的关系 • 组别 人数 肝癌人数 发生率% • HBsAg组+34544011.58 • HBsAg组 -1925210.052 • 结论:HBsAg阳性更容易患肝癌,其发生肝癌的机会明显大于阴性人群。 总体 HBsAg阳性和HBsAg阴性的人群 样本 3454例BsAg阳性和19252 例HBsAg阴性的人群,随访观察 抽样 结论
参数与统计量 • 参数(Parameter):总体中全部变量值所得的特征值(如疾病的发生率、平均水平),参数为一常数。 • 统计量(Statistic):通过样本观察值计算的指标值(样本的平均数、发生率),统计量为有变异数。 • 样本指标 为总体参数的估计值 • 抽样误差(sampling error):样本数据的统计量与总体参数的差异。
五、概率与频率(probability and frequency) • 概率:某事件发生的可能性,统计中用P表示。随机事件发生概率在0-1间。 • 频率:独立重复n次事件,结果A在n次中出现的比例。 • 二者的关系: • 在n,频率(样本)概率(总体)。 • 用途:1)医学中常用频率作为概率的估计值。2)统计结论是建立在概率的基础上。
六、科研工作的步骤 根据研究的目的 1.研究设计 2.收集资料 3.整理资料 4.分析资料 设计考虑: 来源: 1.日常工作记录、病历。 2.专门的调查和实验。 目的: 使资料系统化,便于进一步统计分析 方法: 用统计方 法分析资 料,阐述 规律性,得出结论。 研究对象、指标、例数、如何准确得到数据。
第二章、统计描述 • 统计方法简介 • 数据的统计处理方法: • 统计描述方法 • 1.计量数据的统计描述 • 2. 分类(有序、无序)的统计描述 • 数据的组间比较方法 • 1. 计量数据的比较:t、方差分析 • 2. 计数数据的组间比较:卡方检验
第一节、计量资料的统计描述 • 统计描述: • 1.数据分布特征的描述 • (频数表,讲义第11页) • 2.统计指标(均数、变异指标)的描述
表 100例高血压患者治疗后临床记录 • 编号 年龄 性别 治疗 舒张压 体温 疗效 • (岁) 分组 (kPa)(度) • 1 37 男 A 11.27 37.5 显效 • 2 45 女 B 12.53 37.0 有效 • 3 43 男 A 10.93 36.5 有效 • 4 59 女 B 14.67 37.8 无效 • 。 • 100 54 男 B 16.80 37.6 无效
例1:计量资料的整理 频数表 • 方法将变量值分为不同的组段,清点各组段的例数,了解变量值在各组段中例数的分布,变量值在不同组段意义是不同的。 • 某门课的考试成绩 • 组段(分) 例数(f) • 60- 1 • 70- 5 • 80- 30 • 90- 6 • 合计 42
计量资料编制频数表的步骤(第11页) • 例:表2-1,160名正常女子的血清甘油三酯数据 • 编制频数表的步骤: • 1.确定全距(R)=最大值— 最小值 • 2.定组段数(8-15组)和组距: • 3.写出组段:第1组段值小于或等于最小值,并以整数(0,5或2,4,6,8)较好。 • 4.划计并计数(见表2-2,图2-1) 组距(i)=全距(R)/组段数
表2-2、160名正常成年女性血清甘油三酯分布 • 组段 频数(f) % • 0.5- 3 1.87 • 0.6- 9 5.62 • 0.7- 12 7.50 • 0.8- 13 8.12 • 0.9- 17 10.6 • 1.0- 18 11.2 • 1.1- 20 12.5 • 1.2- 18 11.2 • 1.3- 17 10.6 • 1.4- 13 8.12 • 1.5- 9 5.62 • 1.6- 8 5.00 • 1.7- 3 1.87 • 合计 160 100.0
计量资料分布的统计描述: • 通过频数表描述数据的分布特征。 • 内容: • X值分布情况:偏态或正态分布 • 取值情况:变量值取值范围 • 集中趋势:变量值集中位置
表1-6资料出院患者住院天数的频数表 • 组段(天) 频数(f) • 0- 6 • 5- 21 • 10- 14 • 15- 13 • 20- 6 • 25- 2 • 30- 3 • 35- 1 • 40及以上 13 • 合计 79
SHIFT 第二功能键 • MODE 计算模式选择键 • LR 计算相关回归选择键 • SD 统计功能选择键 • Min 单独数据储存键 • MR 取出储存数据键 • Kin(1-6)单独数据储存键 • Kout(1-6)取出储存数据键 • X2数据平方键 • 1/X 倒数键 • Log 以Log 10的对数键 • 10x反对数键 • +/- 数据的正负符号键
本节的作业和思考题 • 练习一 • 第1题(31页) • 指出该数据的总体、样本 • 该数据的资料类型是什么? • 该数据间的的误差(差异)可能是什么原因? • ①编制该数据的频数分布表并做简单描述。
CASIO FX-100W计算器FX100计算器统计功能计算 • 步骤 说明 • 1. MODE MODE 1 进入统计功能模式 • 2.SHIFT AC = 清除数据 • 3. 55 M+ 数据输入 • 54 M+ • 58 M+ • 4 SHIFT 1 = 显示均数 • 5. SHIFT 3 = 显示标准差(S) • 6. RCL C 显示例数 • 7. RCL B 显示
二、频数表统计功能计算 • 例数较多时计算均数 • 方法1: • 例:X(年龄) 20 23 25 • f: 10 5 3 • 步骤同前: • 数据输入:20 SHIFT , 10 M+ • 23 SHIFT , 5 M+ • 25 SHIFT , 3 M+ • 步骤同前: