830 likes | 1.04k Views
数理统计课简介. 王兆军 南开大学统计研究院 天津, 300071 zjwangnk@126.com 22+23498233 22+23698465. 自我介绍. 王兆军 It’s me!. 王昭君. 他们是? Zhaojun WANG. 目录. 三位名人 《 数理统计 》 课内容 本课的几个侧重点 不足之处. 南开 《 数理统计 》 课简介. 本课的几个侧重点. 统计与数学的区别 统计史及产生的背景 注重统计的应用特点 不过分强调理论 点与点的结合 数表的生成. 不足之处. 与计算机语言的结合 习题不够丰富 例题的时代感不强
E N D
数理统计课简介 王兆军 南开大学统计研究院 天津,300071 zjwangnk@126.com 22+23498233 22+23698465
王兆军It’s me! 王昭君 他们是?Zhaojun WANG
目录 • 三位名人 • 《数理统计》课内容 • 本课的几个侧重点 • 不足之处
本课的几个侧重点 • 统计与数学的区别 • 统计史及产生的背景 • 注重统计的应用特点 • 不过分强调理论 • 点与点的结合 • 数表的生成
不足之处 • 与计算机语言的结合 • 习题不够丰富 • 例题的时代感不强 • 某些内容的欠缺(某些理论的证明、非参、Bayes统计、方差分析等) • 某些结果的理论叙述不够严谨
多谢 王兆军 Tel: 022+23498233(O) Email: zjwangnk@126.com Http:// www.math.nankai.edu.cn/~zjwang
统计与数学的区别(七) 什么是统计?
数据是什么? Data = ¥¥
2012年3月29日奥巴马政府投入2亿多美元启动“大数据发展研究计划”(Big Data Research and Development Initiative) • 是美国继1993年宣布“信息高速公路计划”后又一重大科技战略部署,标志从商业、学术层面上升到国家战略。
什么是大数据? Wikipedia(维基百科) A term for a collection of data that are very large and complex so that it is difficult to process and analyze using on-hand database management tools, traditional data processing methods and analysis methodologies . ) ZB(1021), EB(1018), PB(1015), TB(1012), GB(109), MB(106)
大数据的特征 Why difficulty? Big data challenges the existing information technologies, management paradigm, statistical and computa- tional sciences. Volume Velocity Variety Value • PB—ZB in scale • Distributed storage and processing necessary • Growing tremendously • Data flow • Multisource, correlated, heterogeneous • Unstructured, unreliable, inconsistent. • Total dataset embodies great value • Individual or small subset contains less information
2013 18 14 20 1
统计与数学的区别(八) 返回
统计史及某些背景(一) Karl Pearson (1857-1936) Ronald Aylmer Fisher(1890. 2. 17-1962. 7. 29) PL HSU (1910-1970)
统计史及某些背景(二) • 统计的起源(史宁中) • Fisher 提出的显著性检验(女士品茶) • 试验设计(DOE) • 充分完备统计量(与Edington的争论) • t分布(Student的笔名) • 卡方拟合优度检验(G. Mendel) • Bayes估计(产品质量检验) 返回
注重统计的应用特点 • 上届数理统计期未成绩(分析与检验) • 死刑数据的列联表分析(茆诗松等) • 统计与欺骗(何书元) • 回归诊断(韦博成) • 非参数统计(Wilcoxon,Mann & Whitney) • 抽样调查(Mahalanobis) • 吸烟与肺癌(Fisher & Cornfield) • SPRT检验(Wilks) • 几本参考书(非理论) 返回
不过分强调理论 • 区间估计只讲枢轴量法 • 不给出Kolmogorov检验的理论证明 • 经验分布函数的Bahadur表示不讲证明 • 略讲次序统计量 • 不讲U统计量、M估计、L估计、R估计、同变检验、Minimax估计等
理论在应用中的重要性 1883年8月15日,美国物理学家Henry Augustus Rowland(1848-1901)在美国科学促进会年会上发表了一则被誉为是美国科学的独立宣言的演讲《为纯科学呼吁》,文章发表在科学杂志上。
理论在应用中的重要性 他说,“我时常被问及,科学与应用科学究竟何者对世界更重要,为了应用科学,科学本身必须存在,如停止科学的进步,只留意其应用,我们很快就会退化成中国人那样,多少代人以来他们都没有什么进步,因为他们只满足于应用,却从未追问过原理,这些原理就构成了纯科学。中国人知道火药应用已经若干世纪,如果正确探索其原理,就会在获得众多应用的同时发展出化学,甚至物理学。因为没有寻根问底,中国人已远远落后于世界的进步。我们现在只将这个所有民族中最古老、人口最多的民族当成野蛮人。……当其他国家在竞赛中领先时,我们国家(美国)能满足于袖手旁观吗?难道我们总是匍匐在尘土中去捡富人餐桌上掉下的面包屑,并因为有更多的面包屑而认为自己比他人更富裕吗?不要忘记,面包是所有面包屑的来源。” 返回
点与点的结合 • 拟合优度检验 • 显著性检验-UMP检验-UMPU检验 • 区间估计、抽样分布、显著性检验的结合 • 随机数、模拟的有机结合 返回
数表的生成 • 本讲义的所有数表均是由Fortran程序生成,且某些数表与传统给出的值有所不同,如W检验统计量的系数表是由IMSL精确求解得到的(与模拟结果一致) 返回
估计 准则 点估计 方法 枢轴量法 区间估计 极限分布法 Bayes估计 无偏性、UMVUE 相合性,ASN、LSE 矩估计、MLE EW算法 返回
UMP,UMPU UMPU 分布、列联表 返回
什么是统计? • 统计学是收集和分析数据的科学与艺术 (不列颠百科全书) • 数理统计学是数学的一个分支,它是一门用有效的方法收集和分析带有随机影响的数据的学科,且其目的是解决特定的问题(陈希孺院士) • 数理统计是一门应用性很强的学科,它是研究如何有效地收集、整理和分析受随机影响的数据,并对所考虑的问题作出推断或预测,直至为采取决策和行动提供依据和建议的一门学科。(茆诗松) 返回
统计学的起源(一) 中国在周朝就设有统计官员,称为司 书。设立“司书上士二人,中士四人,府二 人,史二人,徒八人。” 负责 “邦之六典……,以周知入出百物,……,以知田野夫家六畜之数。” (见《周礼·天官·冢宰》)
统计学的起源(二) 《管子·问》中提到65个问,即65个调 查科目,均为管理国家所需要的数据。比 如, “问少壮而未胜甲兵者几何人?” “为一民有几年之食也?” 等等。(平均数、众数?) 返回
女士品茶试验 20世纪20年代后期,在英国剑桥的一个夏日的午后,一群大学的绅士和他们的夫人们,还有来访者,正围坐在户外的桌旁,享用着下午茶。在品茶过程中,一位女士坚称:把茶加进奶里,或把奶加进茶里,不同的做法,会使茶的味道品起来不同。在场的一帮科学精英们,对这位女士的“胡言乱语”呲之以鼻。然而,在座的一个身材矮小、戴着厚眼镜、下巴上蓄着的短尖髯开始变灰的先生,却不这么看,他对这个问题很有兴趣。(实际上这位女士正确地分辨出了每杯茶) 返回