280 likes | 397 Views
第一章 绪论. 一. 统计学介绍. 1 . 统计学 (Statistics) 统计学是一门以社会现象总体数量方面为对象的方法论科学,是研究如何有效地收集、整理和分析受随机影响的数据,并对所考察的问题作出推断或预测,直至为采取决策和行动提供依据和建议的一门学科。. 2. 统计学的发展历史. A) 古典统计学时期 17 世纪中叶至 18 世纪中叶统计学萌芽时期 , 有记述学派和政治算术学派。 ( 1 )记述学派或过国势学派 创始人是德国的康令 (H.Coning,1606-1681) 和阿亨瓦尔 (G.Achenwall,1719-1772)
E N D
一. 统计学介绍 • 1. 统计学(Statistics) 统计学是一门以社会现象总体数量方面为对象的方法论科学,是研究如何有效地收集、整理和分析受随机影响的数据,并对所考察的问题作出推断或预测,直至为采取决策和行动提供依据和建议的一门学科。
2.统计学的发展历史 A)古典统计学时期 17世纪中叶至18世纪中叶统计学萌芽时期,有记述学派和政治算术学派。 (1)记述学派或过国势学派 创始人是德国的康令(H.Coning,1606-1681)和阿亨瓦尔(G.Achenwall,1719-1772) 很少进行数量方面的研究,未涉及统计学的实质.
(2)政治算术学派 创始人是英国的威廉.配第(W.Petty,1623-1687),用计量方法以及对比法综合研究社会经济问题。
B)近代统计学时期 18世纪末至19世纪末,主要有数理统计学派和社会统计学派。 (1)数理统计学派 产生于19世纪中叶,在概率论的基础上形成,奠基人为比利时的凯特勒(A.Quetelet,1796-1874)提出了误差理论。
(2)社会统计学派 19世纪后半叶,德国克尼斯(K.G.A.Knies,1821-1898)首创,认为统计学是一门社会科学,是研究社会现象变动原因和规律性的实质性科学。
C)现代统计学时期 20世纪初至今
3.卫生统计学 以医学为指导,用统计学的原理和方法研究医学的一门应用科学。它包括三个方面的内容: ①卫生统计学的基本原理和方法 ②健康统计 ③卫生服务统计。 这里主要介绍①。
4.医学科研中统计学的作用 吸烟危害健康的论证:Muller(1939)采用病例对照设计搜集到一组肺癌患者,并寻找一组其它特点相类似的非肺癌患者作为对照组,逐一询问是否吸烟、吸烟量、吸烟时间,发现肺癌组吸烟率高,对照组低。由此得出吸烟有害健康的结论。
但统计学权威Berkson认为,吸烟能提高许多种死因下的死亡率,这一点不可理解。除非有证据证明吸烟对整体健康有害或加速老化,否则会怀疑是对照组的选择及资料搜集带来的偏倚所致。但统计学权威Berkson认为,吸烟能提高许多种死因下的死亡率,这一点不可理解。除非有证据证明吸烟对整体健康有害或加速老化,否则会怀疑是对照组的选择及资料搜集带来的偏倚所致。 Fisher认为:已有的研究不能排除遗传的因素,也许有些人具某种遗传因素,既爱吸烟,又易得癌,而没有此因素者既厌吸烟,又难得癌。如果真是如此的话,戒烟就没有意义了。
瑞典的双生研究,调查了一方吸烟另一放不吸烟同卵双生男274对,女264对,异卵双生男733对,女653对,发现咳嗽的患病率在同卵双生的吸烟者中男、女分别为14.6%和13.6%,而不吸烟者男、女分别为7.7%和7.6%;在异卵双生的吸烟者中男、女分别为12.3%和14.5%,不吸烟者中为5.5%和5.7%,吸烟与不吸烟相比,咳嗽的相对危险度约1.8-2.5倍。瑞典的双生研究,调查了一方吸烟另一放不吸烟同卵双生男274对,女264对,异卵双生男733对,女653对,发现咳嗽的患病率在同卵双生的吸烟者中男、女分别为14.6%和13.6%,而不吸烟者男、女分别为7.7%和7.6%;在异卵双生的吸烟者中男、女分别为12.3%和14.5%,不吸烟者中为5.5%和5.7%,吸烟与不吸烟相比,咳嗽的相对危险度约1.8-2.5倍。
同卵双生 男(274对) 吸 14.6 不吸 7.7 女(264对) 吸 13.6 不吸 7.6 异卵双生 男(733对) 吸 12.3 不吸 5.5 女(653对) 吸 14.5 不吸 5.7
二.统计工作的步骤 1.设计(design) 要对所作工作的全过程有一个全面的设想,明确研究的目的,对研究的事物有一定的了解(可以通过查阅文献资料或作预试验来实现)。如:要研究什么?收集什么资料?如何收集?人力财力条件可否?观察对象和观察单位是什么?怎样汇总资料?计算哪些统计指标?样本例数是多少?预期结果怎样?
2.收集资料(collection of data) 取得准确完整的原始数据。 资料来源有: ①统计报表 ②工作记录(病历或化验报告单) ③调查或实验结果。
3.整理资料(sorting data) 将原始数据系统化条理化,即数据的预处理。
4.分析资料(analysis of data) 计算有关统计指标,阐明事物的内在联系和规律,包括统计描述和统计推断。
三.统计中的几个概念 1.变量(variable) 收集资料中确定了的观察单位称为个体,在统计工作中反映个体的特征称为变量。 如要调查某地中学生的健康状况,每一个要调查的学生称为个体,反映中学生的健康指标身高、体重、胸围、肺活量、体温、脉搏数、血压等都称作为变量。又如病人的年龄、性别、红细胞数、血红蛋白含量、患病时间等。
变量的观察值(观察结果)可以是定量的也可以是定性的,可分为变量的观察值(观察结果)可以是定量的也可以是定性的,可分为 数值变量:可以度量大小,如血压等 分类变量 无序变量:血型、性别 有序变量:如测定某人群血清反应分-、±、+、++四级
2.总体和样本(population and sample) 总体是根据目的确定的同质的研究对象的全体,样本是从总体中随机抽取的部分观察单位。统计推断就是要从样本信息去推断总体特征。 如研究某地1995年的正常成人的血压值,现随机抽取150人,分别测定其血压值,则该地1995年全部正常成人的血压值就构成了一个总体,这150人的血压值就是样本。 样本要具代表性,须:①随机抽取 ②例数足够多。
3.概率(probability) 概率是描述某事件发生的可能性大小的一个度量。如抛一枚均匀的硬币,国徽朝上的概率为50%。 对于结果不确定的现象,每一种可能结果都是一个随机事件,简称事件,用A表示,事件A发生的可能性大小记作P(A)。 区分频率与概率,大样本情况下频率是概率的一个较好的估计值。 小概率事件 P≤0.05 或≤0.01 必然事件 P=1 不可能事件 P=0
4.参数与统计量(statistic and parameter) 根据样本观察值计算出的统计指标,称统计量(statistic),常用拉丁字母表示。 反映变量值总体分布特征的统计指标,称参数(parameter),常用希腊字母表示。 例要了解某地12岁健康男孩的平均身高μ(参数),今测得100名男孩身高值,求得平均数(统计量)。
5.同质与变异(homogeneity and variation) 统计的研究对象是由个体构成的群体,必须给个体规定一些相同的因素情况,称同质(homogeneity)。 变异(variation)是指在相同条件下同类事物的观察单位在同一指标上的差别。
例研究儿童的身高,规定某地区、某民族、某性别、一定年龄的正常儿童,称同质,而同地区、同民族、同性别、同年龄的正常儿童的身高也有高有矮,称变异。例研究儿童的身高,规定某地区、某民族、某性别、一定年龄的正常儿童,称同质,而同地区、同民族、同性别、同年龄的正常儿童的身高也有高有矮,称变异。 统计分析的任务就是在同质分组的基础上,通过对变异所呈现出的统计规律性的研究,透过偶然现象,揭示同质事物的本质特征和规律。
四.统计资料的类型 根据变量的类型可以将统计资料分成三类。
1.计数资料 将观察单位按某种属性或类别分组,所得各组的观察单位数。如调查某人群的血型分布,按O、A、B、AB分组,得各血型组的人数,又如作结核菌素试验,要计算阴、阳性人数。
2.计量资料 对每个观察单位用定量方法测定某项指标量的大小,所得资料称计量资料,一般有单位。如体检时的身高、体重、胸围、肺活量、呼吸次数等,又如病人的红、白细胞数、血红蛋白、血小板数。
3.等级资料(半定量资料) 将观察单位按某种属性或某个标志分组,得到各组的观察单位数,但各组之间具等级顺序。如某病住院病人的治疗结果,按显效、有效、改善、无效分组,又如测定某项血清反应的 -、±、+、++人数。
根据分析需要,三种资料可以转化, 如每个人的血红蛋白属计量资料,若按正常与异常分组得各组人数,则得到计数资料,又若将血红蛋白按量(g/dl)的多少分成五等:<6(重度贫血),6-(中度贫血),9-(轻度贫血),12-16(正常),>16(血红蛋白增高)得各等级人数,就是等级资料。