1.07k likes | 1.24k Views
统计中的数学文化. 统计的地位. 越来越多的人意识到统计在人类生活的各个方面所起的重大作用。 据说,在美国统计已经取代了计算机,成为最容易找工作的专业。而中国数学类学生赴美留学的首选专业也是统计。 由于国情,虽然国人对统计的尊重远远不如美国人,但时代在变化,中国统计专业研究生的就业前景已经令许多曾经热门的专业望尘莫及。 在不远的未来,统计的优势只会增加,而且会长期保持领先地位。. 统计的处境. 统计被人看重的原因是供不应求 。 一是统计的巨大市场;几乎所有领域都需要统计。 另一个是统计专业所需要的包括数学、统计和计算机在内的功底,绝不是通过任何速成训练就能够达到的。
E N D
统计的地位 • 越来越多的人意识到统计在人类生活的各个方面所起的重大作用。 • 据说,在美国统计已经取代了计算机,成为最容易找工作的专业。而中国数学类学生赴美留学的首选专业也是统计。 • 由于国情,虽然国人对统计的尊重远远不如美国人,但时代在变化,中国统计专业研究生的就业前景已经令许多曾经热门的专业望尘莫及。 • 在不远的未来,统计的优势只会增加,而且会长期保持领先地位。
统计的处境 • 统计被人看重的原因是供不应求 。 • 一是统计的巨大市场;几乎所有领域都需要统计。 • 另一个是统计专业所需要的包括数学、统计和计算机在内的功底,绝不是通过任何速成训练就能够达到的。 • 人们知道,学数学的改行学什么的都有(反之不然),但即使是学纯粹数学的,改行学统计,也不象数学改行力学或物理那么容易。
统计的处境 • 统计专业的研究生毕竟有限。世界上各领域的多数统计工作都还是该领域的人士进行的。 • 而专业统计工作者的主要任务,则是根据各领域的需要,发展新的统计方法和理论,建立新的模型,发展新的计算方法。
那么,什么是统计呢? • 报表?数字? • 数学公式、定理及推导?
统计 (统统忘记) 会计 (快快忘记) 什么是统计
统计的定义 • 首先必须提及似乎只有在中国才有争议的统计定义。我相信,世界上多数统计学家都会同意下面《大英百科全书》的关于统计的定义: • 用以收集数据、分析数据和由数据得出结论的一组概念、原则和方法.
这个定义强调了统计以归纳为主的思维方式,这使得统计显然不同于以演绎思维为主的数学。这个定义强调了统计以归纳为主的思维方式,这使得统计显然不同于以演绎思维为主的数学。 • 该定义也体现了统计为各个领域进行数据分析的服务性命运。
按照这个定义,目前我们所知道的统计,或者在某些“统计杂志”主编眼中的统计仅仅是统计的一个很小的部分。按照这个定义,目前我们所知道的统计,或者在某些“统计杂志”主编眼中的统计仅仅是统计的一个很小的部分。
情书(一) 亲爱的丁: 我们的感情,在组织的亲切关怀下、在领 导的过问下,一年来正沿著健康的道路蓬勃发 展。这主要表现在: (一)我们共通信121封,平均3.01天一 封。其中你给我的信51封,占42.1%﹔我给你 的信70封,占57.9%。每封信平均1502字,最 长的达5215字,最短的也有624字。
(二) 约会共98次,平均3.7天一次。其中你主动约我38次,占38.7%﹔我主动约你60次, 占61.3%。每次约会平均3.8小时,最长达6.4小时, 最短的也有1.6小时。 (三) 我到你家看望你父母38次,平均每9.4天一次,你到我家看望我父母36次,平均10天一次。 以上充分证明通过一年来的交往,我们已形成了恋爱的共识,我们爱情的主流是互相了解、互相关心、互相帮助,是平等互利的。
当然,任何事物都是一分为二的,缺点的存在是不可避免的。我们二人虽然都是积极的, 但从以上的数据看,发展还不太平衡,积极性还存在一定的差距,这是前进中的缺点。相信在新的一年里,我们一定会发扬成绩、克服缺点、携手前进,开创我们爱情的新局面。
因此,我提出三点意见供你参考: (一)要围绕一个爱字, (二)要狠抓一个亲字, (三)要落实一个敢字。 让我们弘扬团结拼搏的精神,共同振兴我 们的爱情,争取达到一个新高度,登上一个新 台阶。本着幸福由我们主宰,爱情由我们创造 ,幸福属于我们的精神来发展我们的感情,共 创我们人生的辉煌!享受人生! 你的王子
统计学的起源(一) 中国在周朝就设有统计官员,称为司 书。设立“司书上士二人,中士四人,府二 人,史二人,徒八人。” 负责 “邦之六典……,以周知入出百物,……,以知田野夫家六畜之数。” (见《周礼·天官·冢宰》)
《管子·问》中提到65个问,即65个调 查科目,均为管理国家所需要的数据。比 如, “问少壮而未胜甲兵者几何人?” “为一民有几年之食也?” 等等。(平均数、众数?)
什么地方统计用得上呢? • 任何领域.
统计历史人物 • Edmond Halley (哈雷) (1656-1742) • Leonhard Euler (欧拉) (1707-1783) • Thomas Robert Malthus (马尔萨斯) (1766-1834) • Ronald Aylmer Fisher (费歇) (1890-1962), • Moivre (棣美佛) (1667-1754) • Pierre Simon Laplace (拉普拉斯) (1749-1827) • Jacob Bernoulli (伯努利)(1654-1705) • Thomas Bayes (贝叶斯) (1702-1761), • Adrien Marie Legendre (勒让德) (1752-1833) • Friedrich Gauss (高斯) (1777-1855) • Johann Gregor Mendel (孟德尔) (1822-1884) • Karl Pearson (皮尔森) (1857-1936) • William Feller (费勒)(1906-1970). • Jerzy Neyman (1894-1981) • Egon Sharpe Pearson (1895-1980)
一些简单的问题 • 当你买了一台电视时,被告知三年内可以免费保修。你想过厂家凭什么这样说吗?说多了,厂家会损失;说少了,会失去竞争,也是损失。到底这个保修期是怎样决定的呢? • 在同一年级中,同样统计学的课程可能由一些不同教师讲授。教师讲课方式当然不一样,考试题目也不一定相同。那么如何比较不同班级的统计学成绩呢? • 大学排名是一个非常敏感的问题。不同的机构得出不同的结果;各自都说自己是客观、公正和有道理的。到底如何理解这些不同的结果呢?
一些简单的问题 • 任何公司都有一个信用问题。当然,在这些公司试图得到贷款时并没有不还贷的不良记录。如何根据它们的财务和商业资料来判断一个公司的信用等级呢? • 我国东部和西部的概念是一个比较笼统的概念。如何能够根据需要,选择一些指标来把各省,或各市县甚至村进行分类呢? • 疾病传播时,如何能够通过感染者入院前后的各种因素得到一个疾病传染方式的模型呢?
一些简单的问题 • 如何通过大众调查来得到性别、年龄、职业、收入等各种因素与公众对某项事物(比如商品或政策)的态度的关系呢? • 一个从来没有研究过红楼梦的统计学家如何根据比较写作习惯得出红楼梦从哪一段开始就不是曹雪芹的手笔了呢? • 如何才能够客观地得到某个电视节目的收视率,以确定广告的价格是否合理呢?
如何理解下面说法? • “明天降水概率为40%” • “冬天去新加坡度假的概率为10%”(为什么不说10.25%?) • “该节目收视率是30%”(按照什么标准?) • “抽样调查结果的误差为±3%” • “支持率的95%置信区间为(25%,30%)” • “某学校排名第一”
“某国的综合竞争力排名第43位” • 我昨天在飞机上遇到大学同学;难道小概率事件经常发生? • “该药品疗效99%” • “该国贫富差距大”(如何衡量?) • “该结果统计显著” • “他的血压已经正常了”(有真实标准吗?)
你相信统计结果吗? • 数据可以有误或作假 • 统计方法(有意或无意)使用不当可以误导。有低级误导和高级误导。 • 常识判断和直觉是重要的
关于美国选举的两个例子(1) • 谁会在1936选举中获胜 ?Alf London还是F.D.R.(罗斯福)? • Literary Digest(文摘)送出一千万份问卷(返回二百四十万份)后,预测London 会赢. • 而Gallop(盖洛普)只问了5000人说Roosevelt (罗斯福)会赢. • 最后罗斯福和盖洛普都赢了.文摘倒闭了.
关于美国选举的两个例子(2) • 谁会在1948选举中获胜 ? Thomas Dewey还是Harry Truman(杜鲁门)? • Crossley, Gallop(盖洛普), Roper所有都预测Dewey会赢(每个机构用了5000个问卷). • 最后(包括盖洛普)他们都输了, 而杜鲁门赢了.
问卷调查很简单? • 问卷如何写? • 问谁?问多少人? • 谁问? • 如何问?
统计的一些做法 • 统计可以指导我们收集数据. • 当拥有来自一些变量(指标)的数据或记录,但缺乏模型来描述这些变量之间关系的情况下,可用统计方法建立模型. • 在有了一定的模型时,统计可以确定手中数据是否令人信服地支持某种论点.模型也用来对未来进行预测. • 统计直观的图表展示,可以使各个领域的专家容易理解
中国统计的独特历史环境 • 中国统计过去分为“统计学”(文科的列宁主义统计)和“数理统计”(国际通常意义上的统计)
国内一些学者把统计称为是经济学科的一部分,则是中国特有的与前苏联关联的国情所造成;读者可以从《苏联大百科全书》的统计学条款得到答案。国内一些学者把统计称为是经济学科的一部分,则是中国特有的与前苏联关联的国情所造成;读者可以从《苏联大百科全书》的统计学条款得到答案。 • 但前苏联的经济学中的统计学概念是其意识形态和计划经济体系的产物,其模型多属于小学数学水平,很难称为数学模型。这与现代经济学所需要的大量的统计和数学形成鲜明对照. • 前苏联式的“统计学”不是目前国际流行意义上的统计学或统计学的分支。目前俄国也没有人问津了;但其八股形式在中国仍然流行(特别在官方统一的考试中)。
有人说,我们应该学“经济统计”、“管理统计”等等。有人说,我们应该学“经济统计”、“管理统计”等等。 • 如果统计学是“一加一等于二”,而作为统计的个别应用是“一个苹果加一个苹果等于两个苹果” 。 • 难道苹果换成香蕉就不知道该怎么办了吗?
统计的内容和需要的知识 • 数学的几乎所有内容(不一定事先知道需要什么) • 用计算机做统计计算 • 其他(对象)领域的知识
数学的重要性 • 有人说,我们在数学分析中,学到的东西后来大都没有用。 • 更不要说中学的平面几何了。 • 因此,有些人(包括一些领导)认为我们可以取消平面几何等等。 • 但也有人说:我国冤假错案那么多(除了腐败因素之外)就是因为那些执法人员没有学好平面几何。
数学给人最大的益处可能就是教会人如何合乎逻辑的思维。数学给人最大的益处可能就是教会人如何合乎逻辑的思维。 • “学数学的学什么都学的会”这句话有道理吗?
真正严格的逻辑仅存在于数学之中,只能够从学习数学中获得。(哲学,法律?)真正严格的逻辑仅存在于数学之中,只能够从学习数学中获得。(哲学,法律?) • 数学的逻辑服务于现代理性社会的所有方面。(例如法律) • 在一定的公理系统下,纯粹数学是唯一可以说得出绝对是非的世界。 • 为什么人们对数学家的印象是“呆”? • (世界并不是完美的)
统计和数学的区别 • 数学思维是以演绎为主 • 统计思维是以归纳为主,兼有演绎 • 统计各领域利用几乎所有存在的数学内容. • 但统计本身的数学是为具体目标服务的,自己一般不形成数学体系
统计和数学的区别 • 为了数学的目的,我们需要用笔和纸进行推导。 • 但为了统计的目的(实际需要的代名词)… • 我们就要不择手段。最重要的就是计算机。
计算机的重要性 • 由于统计和数据打交道,没有计算机的发展统计就没有前途. • 计算机和统计的发展相辅相成
数据和模型的关系 • 作为根据的数据(比如各地人均GDP,各种资源,自然条件等和航空旅客人数) • 基于数据建立模型(回归模型) • 模型用来指导未来, 预测未来(某城市GDP达到某水平,是否需要建立或扩建机场等决策…) • 模型随时要根据新的数据来改进(新的飞机,新的消费理念,新的旅游景点等) • 没有完美的模型 • 没有无误差的数据
统计和数学 • 由于统计需要大量的数学,而且现代统计的基础也是数学家所奠定的,统计也被人认为是数学的一个分支。这没有什么不可以,就看如何定义数学了。
统计和数学 • 但统计肯定不应属于纯粹数学的范畴。下面所提到的“数学”实际上主要指纯粹数学。(还有别的数学吗?) • 统计和数学都是可以为各个领域服务的。但是统计和数学有很大的区别。
统计和数学 • 和音乐类似,数学圈内的人士可以欣赏数学本身的美妙的境界。 • 数学的很多内容可以和实际世界没有任何关系。虽然现在越来越商品化的世界正试图改变各学校数学系的操作;但纯粹数学的纯洁性可能永远也无法改变。
统计的课程 • 因为由于历史和国情的原因,中国曾经有过两个统计观念,一个是在经济类下面的文科统计,一个是数学类下面的数理统计。 • 当然,没有人会定义谁是统计工作者或统计学家。任何与数据打交道的人都可以称自己是统计工作者。任何人都可以说自己搞的是统计。但下面关于统计(学科)的论述,是基于上面所引用的定义的。
统计教学最好不用数学的教学模式 • 从上面的定义看,统计和数学在思维方式以及在社会的地位都很不相同。因此,在教学上也应该有所区别。 • 目前的数理统计课程是公认的既不好教,也不好学的课程。其原因很简单。 • 目前多数数理统计教科书的内容主要是在计算机广泛应用之前的二十世纪中期发展的以估计和假设检验为主的统计推断理论。 • 这些理论和19世纪的微积分很不一样。
统计教学最好不用数学的教学模式 • 发展这些理论的(数学出身的)大师的贡献主要是数学上的,特别是基于大样本的统计性质推导。 • 他们关于估计和检验的几乎所有定理或者假定了总体的分布类型或者涉及大样本的极限情况。而多数成果是以数学论文的形式发表在数学味很浓的杂志上的。 • 从这些论文所发展出来的教材很难不使目前数理统计的相当大部分讲课时间都花在对公式和定理的推导和证明,而没有集中足够的精力来理解藏在这些理论背后的统计思想。
统计教学最好不用数学的教学模式 • 在这样的数理统计教学中,学生很容易得到统计是数学的一部分的印象。 • 然而,对于学过数学分析的学生来说,这些“数学”看上去既不系统、又不漂亮,但由于没有理解背后的统计思维逻辑,学生常难以理解为什么要教这些内容。 • 而对于非数学专业的人来说,这些“数学”却往往显得十分奇特深奥。 • 其根本原因是这些教科书把以归纳为主的统计按照以演绎为主的数学来写了。
统计思维 类似于物理学,统计在否定中发展
统计的一个重要但又往往不易为人所理解的特点是统计从来不绝对地说“是”或者“不是”。统计的一个重要但又往往不易为人所理解的特点是统计从来不绝对地说“是”或者“不是”。 • 统计只能够说可能。 • 负责的统计学家必须提供可能发生的概率。 • 然而,许多人不那么做(像卖假药的吗?)
你们意识到没有?在没有任何先验假定的情况下,用统计方法永远无法证明什么绝对是什么。你们意识到没有?在没有任何先验假定的情况下,用统计方法永远无法证明什么绝对是什么。
是非是人类社会的产物 • 大灰狼吃羊犯错误了吗? • 人类社会之外的自然界有是非吗? • 人类社会的“是非”是一成不变的吗?
统计只说可能性是实际世界的真实体现。真实世界充满了不确定性。统计只说可能性是实际世界的真实体现。真实世界充满了不确定性。 • 从某种意义来说,生活中唯一确定的事情就是其不确定性。