260 likes | 360 Views
挺有意思的统计学. 吴天双. 什么是统计学?. 韦伯斯特词典:数学的一个分支,用于收集、分析、解释和表现数据的一门科学。 起源:源于拉丁语 Status 分 支:概率论,数理统计,生物统计,物理统计,计量经济学,因果推断,等等等等 应 用:小到家庭记账,中到企业规划,大到国家预算,统计学无处不在。. 第一章:解释一些我们耳熟能详的名词. 随机变量( Random variable) :在 ( Ω , H ,P) 的度量空间内对于 H 可测的方程。 呵呵,炫吧 你可以理解为,一种实验,他有有限或无限种可能的结果。
E N D
挺有意思的统计学 吴天双
什么是统计学? • 韦伯斯特词典:数学的一个分支,用于收集、分析、解释和表现数据的一门科学。 • 起源:源于拉丁语Status • 分支:概率论,数理统计,生物统计,物理统计,计量经济学,因果推断,等等等等 • 应用:小到家庭记账,中到企业规划,大到国家预算,统计学无处不在。
第一章:解释一些我们耳熟能详的名词 • 随机变量(Random variable):在(Ω,H ,P) 的度量空间内对于H 可测的方程。 呵呵,炫吧 你可以理解为,一种实验,他有有限或无限种可能的结果。 • 数学期望(Expectation):在(Ω,H ,P)度量空间内,某个随机变量的某个方程关于他对应的有限测度的积分。 • 方差(Variance):在此空间内某随机变量中心化后的平方在他对应的有限测度下的积分。 呵呵,酷吧 你可以理解为,如果同样的实验无数次发生,他们的平均值就是他的数学期望。(请注意,期望值可能不等于任何可能的取值)他们距离平均值的平均距离的平方就是他的方差。 • 概率(Probability): 某示性函数关于某个有限测度的积分。 呵呵,Der吧 你可以理解为,如果同样的实验无数次发生,发生某个特定事件的频率。(所以取值在0和1之间)
关于概率和期望的大众误解 • 只按照可能性,均匀分配(反正结果就是成和不成,一半对一半) • 搞不清统计的对象(飞机和火车谁安全?加速过十字路口么?) • 愚蠢的统计学教授带炸弹上飞机的问题:如何解释他错在哪。 • 概率和期望只在渐进意义下有决定性作用,否则,只是指导性作用。(例子:买彩票和赌博,当然,这里也有很多经济学因素) • 概率和期望是对未发生事件的刻画,因此只对未来的事情有指导性。对于已经发生但是仅仅你不知道结果的事件,很多时候没有指导性。
条件期望与条件概率 • 如果(Ω,H ,P) 是概率空间,F 是 H 的一个西格玛子代数,X是一个H可测的随机变量,则称已知 F下f(X)的条件期望,为f(X)在H对于F投影空间的期望。条件概率同理。 碉堡了! • 你可以理解为,如果同样的实验无数次发生,去掉那些不符合已知事件的实验后,某种事件的平均值或频率。
独立与不相关 • 如果对于任意方程f,都有:f(X)在已知Y的条件期望等于f(X)的条件期望,则称变量X与Y独立。 • 你可以理解为,Y的信息对于刻画X没有任何帮助。 • 例子:我扔的骰子的结果与你扔的骰子的结果。 • 如果XY的期望等于X的期望乘以Y的期望,则称X于Y(线性)不相关。 • 你可以理解为,总体上,Y对于X没有影响。 • 例子:风向与跑步
条件独立(Conditional Independence) • 例1:甲乙各扔一枚硬币,显然二人硬币的结果独立。 • 例2:甲乙先后扔同一枚硬币,若不确定硬币正反面等概率出现,则此时二人硬币结果不独立。 • 例3: 假设另一变量C为硬币向上的概率。此时,如果已知C,则二人硬币结果关于C条件独立。
关于独立性的笑话 • 本来是不相关的,你非去搞条件概率(福利彩票的历史走势图) • 本来都不是随机变量,非得去算概率 • 本来是相关的,你非去当做独立事件(屌丝连续表白) • 右代宫缘寿选蛋糕问题(你让小学生去搞条件概率么)
随机变量简介,离散篇 • 均匀分布:两点(硬币),多点(骰子,俄罗斯轮盘) • 泊松分布:刻画某段时间内某独立事件发生的次数 • 几何分布:独立事件成功需要的次数 • 二项分布:多次两点分布的总和 • 习题:主持人换羊问题,四张扑克选两张同色异色问题,邮票收集问题
随机变量简介:连续篇 • 均匀分布:区间上随便戳一个点 • 指数分布:一台电扇的寿命(无记忆性?) • 正态分布:钟形曲线,统计学里最重要的分布,又称高斯分布 • 威沙特分布,伽马分布,贝塔分布,等等等等
重要定理 • 大数律:同样的、独立的实验不断重复,结果 的均值一定存在极限,而且这个极限就是这个 实验的数学期望。(应用:蒙特卡罗法,布丰 投针) • 中心极限定理:同样的、独立的实验不断重复,结果的均值减去实验的数学期望,再乘以试验次数的平方根,趋近于一个正态分布。(应用:渐进置信区间估计)
第二章:统计的应用 • 估计(Estimation) • 点估计(Point Estimator):骰子正面的概率,全中国人的平均身高,某品牌电灯泡的平均寿命。 • 方法:最小二乘(Least Square),最大似然(Maximum Likelihood)。 • 区间估计(Interval Estimation):以上参数(parameter)的可信取值范围。 • 所谓置信区间(Confidence Interval)如何去理解? • 频率论者(Frequentist)Vs贝叶斯派(Bayesian)
假设检验(Hypothesis Testing) • 一种在某种置信程度上判别一个论断(Statement)是否正确的方法。 • 构成:原假设(Null Hypothesis),备选假设(Alternative Hypothesis),统计量(Statistics),置信等级(Confidence Level,最常选取的值是0.05)。 • 流程:如果原假设正确,则所选统计量服从某分布,在这个分布下,统计量实际的取值是否在“合理”的范围。 • 衍生:p-value,你可以理解为,在原假设正确的前提下,统计量出现比观测值更“歪”的概率。
假设检验的例子 • 有人给你一袋球共一千个。已知其中不是红色就是白色。此人声称里面红白各五百个。你为了验证,有放回地取了十次,结果是九次红球,一次白球。问:此人的声称靠谱么? • 每次取出的球的颜色可以视为两点分布,假设取到红球的概率为p,则取到白球的概率为1-p。 • 原假设:p=0.5;备选假设: p≠0.5。统计量:十次球里红色球的数量N。在原假设下,N服从参数为(p,10)的二项分布。取到比观测值更“歪”的情况有四种,总概率p≈0.02。 • 结论:在95%置信等级下,我们拒绝原假设。 • 不要滥用(多次假设检验找显著)
方差分析(ANOVA) • 目的:用来鉴别来自不同组的数据是否有本质区别 • 举例:五种饲料,每种喂100只鸡。半年后得到这500只鸡的体重。我们希望知道这五种饲料的效果是不是一样的,以及如果不一样,哪种更好。 • 原假设:所有的鸡的体重的期望相同。备选假设:不同组的鸡的体重的期望不同。 • 基本思想:检查组间方差(between group variance)与组内方差(within group variance)的比值。
线性回归 (Linear Regression) • 应用十分广泛,每当你不确定用什么模型的时候,就用线性模型吧。(All models are wrong, some are useful —— Cox) • 模型假设因变量Y与一些自变量是线性关系 • +…++ • 可以用来解释和预测 • 即使原模型不是线性的,很多时候也可以通过变换转变成线性模型 • 大家试试
实验设计 • 目的:找到与感兴趣目标关联最大的变量 • 举例:为了科学养鸡,牛厂长采用了一系列新措施:科学鸡饲料,科学鸡舍,健美体操等。为了辨别哪个有用哪个仅仅是他的恶趣味而已,对于鸡们采取随机分组。 • 基本思想:比较实验组(Case)和对照组(Control)的结果。
统计学里最大最普遍的错误:偏差(Bias) • 收集数据的Bias:数据有时不具有代表性(用抽样的2000个北京市人口的身高和收入去估计全国人民的身高和收入),健身计划后只调查坚持下来的人。 • 分析数据的Bias:缺失值的处理,单向缺失值的处理 • 解释数据的Bias:用“巧妙”的方法去扭曲数据的特性(蝾螈法)
第三章:因果推断(Causal Inference) • 相关不等于因果关系:Correlation doesn’t mean causality • 因果推断在相关性研究的基础上,注重研究哪个变量如何导致另一个变量的分布改变。 • 举例:多吃水果和好皮肤是正相关,你可以通过多吃水果来改善皮肤,但是你不能通过改善皮肤来使自己吃更多的水果。 • 优点:你永远有Topic可以研究 • 缺点:即使很显著,很多人不信,你也没招。 • 举例:吸烟对于肺癌的影响,至今没有定论,尽管吸烟人群里肺癌发病率三十倍于非烟民。为毛呢?请看下一页
因果推断大招:混杂(confounder) • 一个未观测的变量同时影响着两个变量,使得这两个变量看上去是相关的,但是相互没有因果关系,这个未观测的变量就叫混杂。 • 举例:很可能有一种未观测到的东西(比如某种基因)同时导致了人喜欢吸烟和容易得肺癌。如果是这样,那么即使戒烟,也不能减小得肺癌的概率。 • 类似例子:某商场的冰淇淋销量和泳装销量明显呈正相关。但冰淇淋卖的多显然不是泳装卖的多的原因。 • 原因:夏天来了是二者销量增加的共同原因。 • 所有观测性实验(Observational Study)都可能有混杂。
最好的检验因果的方法:随机实验(Randomized Trail) • 为了检验X对于Y是否有影响,随机让一半的人取X=0,另一半取X=1。最后检查这两组的区别。 • 为了减少误差,一般采取双盲(Double Blind)。 • 最大的问题:伦理(Ethic),你也不想当731吧。 • 很显然,为了研究吸烟对于肺癌的危害,你不能强迫不吸烟的人去吸烟。 • 关于吸烟,比较好的方法是找同卵双生的双胞胎若干对,一个抽一个不抽,去对比。但也会伴随其他问题。 • 其他实验设计:半随机实验,观测性实验,各有优缺点。 • 举例:养宠物对于老年人降血压的影响 • 下面请看一组抵制吃面包的统计数据,大家看看每条有啥问题:
一、98%的犯罪者吃过面包。 • 二、平时吃面包的儿童,有大概一半人成绩在平均分以下。 • 三、90%的暴力犯罪,都是在当事人吃完面包24小时内发生的。 • 四、面包会引起成瘾的中毒症状。美国科学家给100名罪犯吃面包、喝水一周之后,再喂水两天,100名罪犯都表现出对面包强烈的渴求欲望。 • 五、给婴儿喂面包,婴儿会表现的喉部很痛苦。 • 六、18世纪的英国,家家户户都会做面包 那时候平均寿命只有55岁。 • 七、吃面包的美国人中,几乎没有人发表过什么重大的科研成果。 • 八、给100名实验对象每人发一个面包,让他们共同生活两个月,只有一个人生存了下来。
辛普森悖论 • 即使仅仅是相关性研究,也要注意此悖论。 • 举例:孙文博和牛帅比较Dota水平,各找 不同人打100场中单。孙文博先和20个高手 单挑,赢1场;再和80个庸手单挑,赢40场。 牛帅先和80个高手单挑赢8场;再和20个庸手单挑全胜。 总胜率:孙文博41%,牛帅28% 谁更牛逼呢?
辛普森悖论原因:不同人群比例不同 • 类似于上一页的Dota比赛,我们假设现在的实验是考虑吸烟与肺病的关系。下图m/n表示n个人里m个人得肺病。 • 吸烟人群里的肺病比例更少耶!大家抽个痛!
解决方法:对于占总体少数比例的样本加以更高的权重,也就是“逆概加权”(Inverse probability weighting) • 依旧是上面吸烟的例子,对于每个子群体加权,权重为该子群体在总群体里出现的概率的倒数。