780 likes | 997 Views
中 国 科 学 院 数学与系统科学研究院. 统计科学 —— 发展、应用与挑战. 内容. 一、什么是统计学 二、统计学的发展简史 三、统计学的应用 四、统计学面临的挑战. 一、什么是统计学. 统计学 是收集、整理和分析数据的科学和艺术 。 数据 通指 信息的载体 : 涵盖了大千世界中的文本、图像、视频、时空数据、基因数据等。. 一、什么是统计学. 一个目的: 在有变异的数据中研究和发现基本规律 两大方式: 以概率论和数学其他分支的理论为基础 用观察性研究和试验性研究获取科学数据
E N D
中 国 科 学 院 数学与系统科学研究院 统计科学 ——发展、应用与挑战
内容 一、什么是统计学 二、统计学的发展简史 三、统计学的应用 四、统计学面临的挑战
一、什么是统计学 统计学是收集、整理和分析数据的科学和艺术。 数据通指信息的载体:涵盖了大千世界中的文本、图像、视频、时空数据、基因数据等。
一、什么是统计学 • 一个目的:在有变异的数据中研究和发现基本规律 • 两大方式:以概率论和数学其他分支的理论为基础 • 用观察性研究和试验性研究获取科学数据 • 研究分析科学数据的数学模型和理论方法
一、什么是统计学 • 三大特点: • 统计学以纯数学为基础,发展形成了一套系统的统计理论和方法 • 以数据为对象,挖掘研究各种实验和现象中的数量关系 • 统计学以应用为动力,解决了许多实际问题
一、什么是统计学 • 四个作用: • 为各学科领域提供科学的数据分析工具 • 帮助科学家和人文学家发现、探索和掌握自然科学和人文社会科学中的科学真理和自然规律 • 拓宽科学家的视野,提高科学家对科学理论的更深层次的理解和认知能力 • 推动各个学科领域的发展
一、什么是统计学 • 与数学的区别(五个不同) • 出发点不同: • 数学以公理体系为出发点 • 统计以科学数据为出发点 • 推理手段不同: • 数学以演绎为主 • 统计以归纳为主
一、什么是统计学 判别标准不同: 数学的标准是“对”与“错” 统计的标准是“好”与“坏” 研究的关系不同: 数学研究的是因果关系 统计研究的是相关关系
一、什么是统计学 问题来源不同: 数学研究的问题主要来源于学科自身 统计研究的问题主要来源于学科外部
统计学发展简史 • 早期记录 • 近代发展 • 现代发展
统计学发展简史—早期记录 • 有关统计学最早的记录大约可追溯到远古 在算术出现之前,原始人就在树木上刻痕作为计算家畜及其财产的一种方法。收集数据、记录信息的必要性出现在人类放弃个体游牧生活状态,开始有组织的社会生活之时。古代人类必须集中所有的资源以便正确地分配使用,而且要计划将来所需。
统计学发展简史—早期记录 • 有证据表明:在中国 • 公元前2000年左右的夏朝,就进行了人口 • 调查统计; • 公元前1111~前211年的周朝为了管理统 • 计工作设立了“司书”职位;
统计学发展简史—早期记录 • 有证据表明:在中国 • 在《管子》一书中题为“调查”的第24章记载 • 了65个涉及到统计一个国家的各个方面的问题; • 汉高祖刘邦很重视统计,委任宰相直接管理统 • 计数字。这作为一个传统在中国历史上延续很 • 长时间。
统计学发展简史—早期记录 • 有证据表明:在国外 • 《旧约圣书》的第四册引用了公元前1400年的 • 早期人口统计结果,以及要摩西对以色列军队 • 进行统计调查的指示; • 公元前578~前534年,第六世罗马王图力斯建立 • 了罗的人口统计制度,每五年做一次人口和财 • 产的登记。
统计学发展简史—早期记录 • 有证据表明:在国外 • 公元前5年古罗马皇帝奥古斯塔斯把人口统计 • 推广到整个罗马帝国,最后一次定期的罗马帝 • 国人口统计于公元前7年进行; • 今天在印度称之为官方统计的非常完整的系 • 统在公元前300年以前就已经形成了。
统计学发展简史—近代发展 • 近代统计学的发展应该是在十七世纪,是以定期的人口统计为标志 • 格兰特(JohnGraunt,1620-1674),英国人,近代统计学始于他对伦敦“死亡公告”的研究,研究成果为著作《根据死亡公告作的自然和政治的观察》
统计学发展简史—近代发展 • 格兰特工作的意义在于: • 如何从数据中提取信息,并用数学揭示数据之间的关系 • 格兰特是第一个用统计思考的人
统计学发展简史—近代发展 • 对统计学的贡献 • 首先尝试对人口统计原始数据的归纳整理工作,他创建的生命表是现代人口统计学的基础。 • 提出了“数据简约”的概念。 • 提出并举例处理数据的可信性问题。 • 统计比率的稳定性概念 • 促成了一些主要国家建立政府统计部门
统计学发展简史—近代发展 • 佩蒂(William Petty,1623-1687)英国人,经济学家 • 1671发表的《政治算术》用统计数据对英、法、荷三国进行系统综合比较分析。 • 佩蒂自称他的方法“很不寻常”: • 一切让数据说话 • 贡献:开拓了统计方法的应用面
统计学发展简史—近代发展 • 哈雷(HalleyEdmond,1656 -1742 ),英国人,天文学家和数学家。 • 哈雷彗星的故事 • 哈雷对统计学历史发展的重大贡献: • 研究英国布雷斯劳市死亡率 • 哈雷开启了保险精算学的研究
统计学发展简史—近代发展 • 阿布兹诺特(J. Arbuthnott,1667-1735),英国人,科学家、作家。 • 阿布兹诺特对统计学历史发展重大贡献: • 提出了假设检验的原始思想
统计学发展简史—近代发展 • 勒让德(A.Legendre,1752-1833),法国人,数学家。 • 勒让德对统计学历史发展的重大贡献: • 第一个发表了最小二乘思想
统计学发展简史—近代发展 • 高斯(C. F. Gauss,1777-1855),德国人,数学家、物理学家、天文学家、大地测量学家,被誉为历史上伟大的数学家之一,和阿基米德、牛顿、欧拉并列,同享盛名。 • 高斯对统计学历史发展的重大贡献: • 建立了正态误差分布理论
统计学发展简史—近代发展 • 拉普拉斯(P.S.Laplace,1749-1827 ),法国人,数学家。 • 十九世纪用抽样调查的方法来测算法国的人口。
统计学发展简史—近代发展 • 1800年法国创设世界第一个中央统计局 • 1834年伦敦统计学会和英国皇家统计学会相继成立 • 1853年在布鲁塞尔召开了第一次国际统计大会 • 1885年国际统计学会成立
统计学发展简史—现代发展 • 卡尔·皮尔逊(Karl Pearson,1857-1936),英国人, 现代统计学的奠基人之一。 • 卡尔·皮尔逊对现代统计学发展的重大贡献: • 建立了相关回归的理论框架 • 提出复相关系数的概念 • 提出相关系数的估计方法 • 将这些方法用于生物测量数据,使得这一方法向更广泛的领域应用起了极大推动作用。
统计学发展简史—现代发展 • 拟合优度检验理论 • 原始之作研究:一组实际观察结果与一个给定的多项分布的符合程度 • 产生著名的统计量—卡方统计量 • 数理统计上的一块丰碑
统计学发展简史—现代发展 • 为统计学培养了一批大师级学者 • 哥色特(发现t-分布) • 奈 曼、爱根·皮尔逊 • (假设检验和置信区间的奠基人) • 约 尔(回归分析有重大贡献,时间序列 • 分析奠基人之一) • 费歇尔 (现代统计学的奠基人之一)
统计学发展简史—现代发展 • 费歇尔(R.A. Fisher,1890-1962),英国人,现代统计学的奠基人之一。 • 费歇尔对现代统计学发展的重大贡献: • 小样本统计理论框架 • 与哥色特一起创建统计学小样本统计理论框架 • 试验设计
统计学发展简史—现代发展 • 相关系数分布理论 • 方差分析的理论 • 充分统计量 • 显著性检验的理论框架
统计学发展简史—现代发展 • 奈曼(J.Neyman,1894-1981),俄国人。 • 爱根·皮尔逊(E.S.Pearson,1895-1980),英国人。 • 假设检验和置信区间的奠基人
统计学发展简史—现代发展 • 对现代统计学的贡献: • 奈曼—皮尔逊理论被认为是统计学发展史上的一次“准哥白尼革命”。 • 自有统计学以来,破天荒第一次在一个重要领域把其基本概念和要解决的问题严格地用数学表达出来。 • 把统计问题的解化为一个数学优化问题。 • 巨大意义:指导和影响了统计学以后的发展方向
统计学发展简史—现代发展 • 近代统计学的发展的两大路径 • 描述统计学 描述统计学的目的是在“统计描述”的意义下,综合整理给定的数据集,例如对位置、离差、各阶矩和指数的测量,计算得到各种描述统计量,比如平均值、中位数和众数等,并用来比较不同的数据集合。通过某些图形,例如直方图、条形图、箱图和二维平面图等,来表现数据直观显著的特征。相应的统计分析称为描述数据分析。
统计学发展简史—现代发展 • 近代统计学的发展的两大路径 • 推断统计学 推断统计学的目的是以概率论为基础,对观察数据所选定的随机概率模型进行估计、假设检验、预测和决策推断等统计方法的综合。数据综合整理的目的是要从数据中获取一切有效信息。相应的统计分析称为推断数据分析。 推断统计学的历史较短,产生于十九世纪,主要代表人物有凯特勒、高尔登、皮尔逊、费歇、沃尔德等。
如何有效地收集数据 • 数据是广义的 试验、观测、调查的结果以及历史记录 • 数据来自于客观世界 比如:生命科学、信息科学、物质科学、 地理环境、工程技术、社会经济 • 数据的有效收集 社会经济数据: 建立指标体系,利用统计报表; 抽样调查; 科学与技术数据:试验设计、科学实验、 实地勘测
如何有效地分析数据 • 统计建模 给数据以适当的数学描述 • 统计推断 关于模型未知部分的估计或检验 • 基本要求 • 必须对由数据作出的科学陈述的不确定性提供一种度量 回答特 定问题 提供新研 究方向信息 有效的 数据分析
如何有效地分析数据 • 结果表述 • 均值±均方差 • 统计数据证明:抽烟对健康有害 • 由统计可知:不结婚的男性会早逝十年 • 统计调查表明:两天服一片阿司匹林会减少心脏病第二次发作的机会 • 统计调查表明:怕老婆的丈夫的心脏病的机会较大 • 由统计确认:如果每天摄取500毫升的维生素C,生命可以延长6年
如何有效地分析数据 • 结果表述 分位数 中位数 区间估计数 。。。。。。。
统计学的应用—探索真理必不可少的工具 • 应用是统计科学的原动力。 • 统计科学总是与应用连在一起的, 结论的重要性 ,既使是理论统计,也是强烈依赖于与结论有关的应用类型。 • 在这方面它非常不同于计算数学以外的其它所有数学分支。
统计学的应用—探索真理必不可少的工具 今天,统计学的研究与应用已经扩展到整个自然科学、社会科学、工程技术、管理科学、经济金融、商业贸易、文学艺术等领域。 统计的普遍存在 政府:制定政策、做中长期规划、大众服务(天 气预报、控制污染等)、传播信息; 法律:统计证据、辨别血缘关系、身份识别; 医药:诊断、预后、疗效分析、制药;
统计学的应用—探索真理必不可少的工具 统计的普遍存在 研究:硬科学、软科学、艺术、历史、文学、考 古学等; 大众:终身决策、明智投资、日常工作; 工业:产品设计、配方试验、质量控制、生产管 理; 经济:宏观经济运行、经济景气预测、投资分析; 金融:风险分析、市场特征分析、衍生产品设计; 等等
统计学的应用—探索真理必不可少的工具 • 统计的应用实质上是统计学家跨出核心与其他科学领域的科学家的合作研究。这种多渠道合作研究不仅激发了其他科学领域中新的发现和新的研究,也激发了统计科学本身的发展。 • 科学技术的发展,人类社会的进步,都无时不在为统计学提出新的挑战,也给统计学提供难得的发展机遇
统计学的应用—流行病学的诞生 流行病学是医学的一个新分支,与疾病的发生、传播和控制有关。 英国医生斯诺(1813-1858)第一次把统计学用于霍乱病传染的分析,开启了流行病学研究之门。 今天统计学已经成为流行病学研究基础之一
统计学的应用— 流行病学的诞生 例、感染SARS病人数的预测 2003年春夏之交,北京经历了一场罕见的传染病威胁,在以胡锦涛为总书记的党中央正确领导下,战胜了这场灾难。 统计学家利用统计模型,建立合适的预报模型,为战胜这场灾难做出了贡献。
基于截至到5月30日上午十时的数据,建立了预测模型,预基于截至到5月30日上午十时的数据,建立了预测模型,预 • 测结果如下: • 累计确诊病例数极限值的点估计为2763,区间估计为在2732和2794之间。 • 2.到6月10日左右,确诊病例的日净增数可望下降到5人以下。 • 3.到7月15日左右,可望在其后连续20天中没有新增确诊病例。 • 4.5月30日以后,每五天左右的预测结果为:
统计学的应用—生物遗传学 例一、被称为指纹现象发现者的高尔顿(F. Galton)在研究人类身高的遗传特性时发现:子代身高有向平均身高“回归”的特性,由此产生了现已被广泛应用的回归分析这一研究方向。 例二、皮尔森(K. Pearson)在试图证明达尔文的“适者生存”及孟德尔的碗豆遗传规律的工作中,发展了拟合优度检验,此检验现已是现代科学不可或缺的一种统计方法。
统计学的应用—生物遗传学 例二、费歇尔(R. A. Fisher)一半以上的研究成果都与遗传有关,他还担任过剑桥大学遗传系的主任,他提出的许多著名方法均来自于实际问题。他的论文和著作都极大地影响了农学和生物学界科学家的工作。比如,在1926年出版的《研究工作者的统计方法》一书被科学界广泛使用,仅英文版就出了14版,且被翻译成多种文字。
统计学的应用—药理学和病毒学 上世纪40年代,美国Yale大学统计系的布利斯(C. Bliss)教授在美国农业部工作期间,他在参与研制杀虫剂时,发现在田间试验杀虫剂会受到许多无法控制变量的干扰,使结果无法解释。后来,他通过统计实验研究,创立了决定药品或毒药的剂量与模型,称之为概率单位分析(probit analysis)。此模型生成的最重要的一个参数——半数致死剂量(LD-50),已成为毒物学检测中的重要指标,该方法已成为毒物学的主要基础。
对细胞施加 药物扰动 用芯片测量 基因表达谱 微分方程建模 基因调控网络 扰动分析 药物靶点基因 生物医学中的统计建模与分析 • 复杂疾病都是多因素的(包括环境因素与遗传因素) 生物分子网络模型可用于理解其中的复杂规律 • 关键数学问题:如何利用网络特征,克服建模与分析的 “维数爆炸”困难,以便设计更好的药物治疗方案 • 例如:利用网络模型识别药物多靶点
统计学的应用—军事上 例一、1945年美国在广岛和长崎投放原子弹的主要原因为:普林斯顿统计研究小组(简称SRG--P)的统计模拟(仿真)显示;当时所有的登记方法都无法有效地毁坏日本海岸线上的地雷以减少盟军的上网,并由此促进了统计模型的研究和发展。 例二、普林斯顿统计研究小组(简称SRG--P)在第二次世界大战期间,为了更快地检测炮弹的质量,提出了一种可以实时进行修正的检测方法,这项研究结果当时被列为最高机密,直到战争结束若干年后,参加这项研究的科学家都不能对外发表相关论文。此项研究产生了统计学的一个研究方向—序贯分析。