800 likes | 933 Views
统计数据分析应用体会. 王惠文 北京航空航天大学经济管理学院 2010 年 10 月. 主要内容. 怎样开始动手做一个新的课题 如何把一个管理问题提炼成数据分析问题 在实践工作中发现理论研究的新方向 迎接信息爆炸时代的挑战. 第一章 怎样开始动手做一个新的课题 —— 统计数据的描述分析. 一、从数据的整理与展示来初步解系统 社会、经济数据的特点: 样本点数量大、指标变量多、带有动态特性 二、数据分析的基本作为: 1. 描述和分析系统特征 (现状、结构、因素之间关系等) 2. 分析系统的运行规律与发展趋势 (动态数据)
E N D
统计数据分析应用体会 王惠文 北京航空航天大学经济管理学院 2010年10月
主要内容 • 怎样开始动手做一个新的课题 • 如何把一个管理问题提炼成数据分析问题 • 在实践工作中发现理论研究的新方向 • 迎接信息爆炸时代的挑战
第一章 怎样开始动手做一个新的课题—— 统计数据的描述分析 一、从数据的整理与展示来初步解系统 • 社会、经济数据的特点: • 样本点数量大、指标变量多、带有动态特性 二、数据分析的基本作为: • 1. 描述和分析系统特征(现状、结构、因素之间关系等) • 2. 分析系统的运行规律与发展趋势(动态数据) • 3. 对系统的未来状态进行预测(建立模型)
案例1 北京市就业需求分析 (1)全市总就业人口1978年 — 2001年趋势图
(2)全市从业人口占总人口的比例(劳动参与率)(2)全市从业人口占总人口的比例(劳动参与率)
(4)北京市三次产业结构分析 2001年从业人员结构 2001年GDP结构
描述和比较北京市城八区的经济发展特点 2000年城八区的经济发展与生活水平
2002年三次产业内部结构 注: 批发和零售贸易、餐饮业 1994年: GDP比重为28.8%, 从业人员的比重为19.8% 2001年: GDP比重为13.8%, 从业人员的比重为26.1%
(5)全市各所有制从业人员状况 2001年五个所有制从业人员比例 2001年五个所有制从业人员数
北京市GDP、财政收入、就业的增长率 2001: GDP=2845.65(亿元)财政收入=507.68 (亿元) 从业人员=268.9(万人)
案例2 北京SARS疫情的状态评估 • 2002年11月16日,广州回溯发现第一例SARS病例; • 2003年2月15日香港报道了第一例SARS病例; • 2003年2月28日北京出现第一例输入性病例; • 世界上先后有20多个国家受到SARS疾病的侵袭。 (1)北京市政府公布的数据是真实的吗? • 香港卫生署和医院管理局自3月14日起开始发布“非典型肺炎病人字”数据,较详细的数据报告从3月17日开始。 • 中国内地从4月22日开始正式发布系统的疫情数据通报。 (当日新增确诊106人+新增疑似56人=162人)
(3)如何预测WHO解除旅游限制的时间? • WHO对一个地区撤销旅行警告的4项条件是: • (1)医院SARS病人少于60人; • (2)连续5天平均新增病例保持5人以下; • (3)本地区的病人均在控制之中; • (4)没有向外地输出病例。 • 将一个地区从疫区名单中除名的条件是: • (1)连续20天,不出现新的临床诊断病例; • (2)所有的传染源都得到控制; • (3)正常的潜伏期没有发生新的感染。 对SARS疫情发展规律的研究和对SARS疫病流行期限的预测,是对宏观经济影响程度进行评估的基本依据。
1、北京政府公布数据真实性的验证 —— SARS疫情的发作特点 根据北京和香港的模拟曲线,SARS疫情传播的指数曲线在抬头以前,已经历了31天的时间。一般来说,在指数曲线抬头之前,确实存在较好的控制时机。而一旦指数曲线抬头后,则每日新增病例的变化速度就会非常快。可以看到,香港和北京的官方报道数据都在模拟曲线上,这解释了数据的真实性和合理性。同时说明,北京在开始正式报道数据之日,已经到达了剧烈爆发的阶段。
2、我国政府与WHO谈判的依据 统计模型指出:通常情况下,WHO规定的“每日在院治疗人数少于60人”的指标都会比“三日平均新发病人数少于5人”的指标晚到达很长一段时间。这说明, WHO有关解除旅游警告限制的标准确实有值得商榷的地方。香港的情况:从5月11日开始,每日新增病例保持在5人以下(当日报道在院治疗人数为404人);5月23日香港解除旅行警告5月22日,香港政府确定仍具传染力的留院病人数目为59宗(当日香港官方公布的住院人数为217人); 北京的情况:按照统计模型可以推测:大约在2003年6月12-14日,北京每日新增的SARS入院人数将降至“三日平均5人以下”。但是,届时北京在院治疗的患者人数却约有900多人。因此可以预见北京将遇到比香港特区政府更为艰苦的与WHO的谈判。(2003年5月28日)
3、疾控管理中存在的问题:住院时间过长 SARS病患住院时间分布的仿真估计 北京
北京和香港的“传染率”的比较 • 在SARS疫病流行的整个过程中,北京的日传染率 K 都小于香港; • 香港的K值在爆发期结束时迅速下降,之后又有小的波动。而北京的K值下降过程更具单调性。
北京和香港的“当日治愈与病死率”的比较 北京的“当日治愈与病死率 I ”在很长一段时间内,一直低于香港的同期水平。但是,从6月8 日到6月14日,北京的治愈出院人数和排除疑似病例的人数陡然增加,一周之内出院1217人。因此使 I 值大幅度升高。 6月24日北京解除旅行警告,同时从疫区除名。
4、决策反应的时机:再次发生SARS疫情的情况模拟4、决策反应的时机:再次发生SARS疫情的情况模拟 注:假设出现恶性传染的情况,取北京爆发期的最大 R 值:1.173729; 从模拟的情况可以看出,疫病的早期控制时机极为重要。
数据分析的基本印象与相关建议 • SARS疫情是一种传染潜力较低的流行病,因此可以通过良好的公共卫生体系对其进行有效防控; • 而正是由于SARS危机发展缓慢,曾使我们对危机的认识和反应都相对滞后。而由于缺乏有效的危机管理计划和完善的公共卫生防控系统,最终形成疫病大规模爆发的态势; • 政府采取了一系列果断、有效的措施下,北京对疫情的控制力度和速度都明显好于香港水平; • 当SARS再次出现时,只要我们继续坚持采取早发现、早报告、早隔离、早治疗的措施。完善发烧排查制度,就完全有可能把SARS疫病的流行趋势遏制在萌芽状态。
统计绘图与使用的基本原则 1、直观:能清晰地表达主题 2、醒目:信息点特别突出 3、变化:图形使用应丰富多彩 4、图、文并茂:文字应与图、表的篇幅平衡 描述性统计的技巧:用数据说话的强烈意识 对系统特性的深入思考 尝试性分析、对信息点敏感
第二章 怎样把一个管理问题 提炼成数据分析问题
一、什么是解决问题的“抓手” 1、人员构成 1319 83% 120体系现有人员中,医生、护士、 司机占到绝大多数,配比基本为1:1:1。
二、预测建模问题 2007~2010年北京市120急救体系应配置多少辆急救车? 目前的配车依据:国家规定配车标准 5万人/辆; 回归模型: 因变量 :每年需要的急救车数量 自变量:(1)急救用车的数量应和地区的人口规模有关 (2)与居民呼救意识的不断增强有关(人均呼叫量)
三、先做描述性统计:120急救体系的规划情况 及在管理中存在的问题 1、急救相关指标 现有急救相关指标 规划后各项指标 规划中存在的问题:如何体现城乡统筹的理念?
2、呼叫反应时间分析 • (1)根据全市有效调度数据的统计分析,院前急救各工作流程的平均消耗时间分别为: • 信息受理时间2.4分钟 • 信息传递时间0.8分钟 • 出车时间3.7分钟 • 平均急救准备时间共计6.9分钟 • (2)根据下式可以计算出各区的院前急救规划反应时间 (见下页表):
各区县院前急救工作的的平均反应时间表 (按规划) 重要信息点:由于准备时间过长,因此在城区没有一个区可以完成规划指标,即在10分钟内到达呼救现场。
重要信息点:如果加强管理,在缩短准备时间的前提下,郊区的到达时间可望达到20分钟。重要信息点:如果加强管理,在缩短准备时间的前提下,郊区的到达时间可望达到20分钟。
3、全市各站2006年呼救量分布情况 按“全年零出车天数的比例”对北京市急救站进行分类 (1) 全年零出车天数比例为100%的有顺-杨镇、顺-后沙峪、顺-木林、顺-李桥、大-青云店、门-大台、怀-琉璃庙、怀-怀北、怀-汤河口、通-西集、延-千家店、延-四海、延-康庄、平-峪口、平-大华山、平-马坊、密-不老庄、密-巨各庄、密-古北口、密-田西各庄、昌-北郊、昌-小汤山等22个急救站。 约占目前总站数的24.7% (2) 全年零出车天数比例介于95%和100%的有中-东-东直门、中-西-小屯、城区-发热、顺-牛栏山、大-红星、房-房山站、房-燕山、门-斋堂、平-金海湖、通-通-漷县、通-通-徐辛庄、延-永宁、延-张山营等13个急救站。这类急救站多位于郊区的非中心地带,可见郊区的非中心地带急救站大多数时间处于空闲状态。 约占目前总站数的14.6%
(3) 零出车天数比例小于1%的有中-中-月坛、中-中-中心、中-西-八里庄、中-西-玉泉路、中-北-健翔、中-北-新外、朝-北苑、朝-朝-朝阳、朝-朝-望京、东-东城、丰-丰台、海-海淀、昌-昌平、房-房山、怀-怀柔、密-密云、通-通州等17个急救站。这类急救站多为各城区的中心站,可见各城区的中心急救站工作负荷较大,几乎每天都有出车任务。 约占目前总站数的19%
主要信息点与政策建议 1、必须加强站内管理,尽量缩短准备时间。否则城区不可能实现10分钟到达的规划目标。 2、在准备时间充分缩短的情况下,郊区的到达时间可望达到20分钟。 3、可将郊区进一步分成城区和山区。对于城区可以考虑采取10分钟到达的规划。对于山区,由于人烟稀少,从资源利用率的角度出发,不适宜制定过高的规划目标。
四、实践中的挑战: 没有因变量的回归建模问题 问题:2007-2010年北京市120急救体系应该配置多少辆急救车?这些 车在各个急救站应该怎样分配? 情况分析: (1)2005年由财政拨款,添置一批车辆后,目前可以满足急救呼叫的需要。 (2)定性分析表明,急救用车的数量应和地区的人口规模有关;另外,应该和居民呼救意识的不断增强有关。 (3)拥有2006年全年各急救站的呼救记录数据(站点、呼救时间,出车时间、呼救原因等) (4)国家规定配车标准:5万人/辆; 2006年,北京市120现有救护车配置标准为5.8万人/辆 。
题目分析 2007-2010年北京市120急救体系应该配置多少辆急救车 1、研究的主要目的: 2、预测变量 y 是什么: 每年急救车的数量 (1)按照国家标准,每年所需急救车的数量=人口预测值 /5 这样做合理吗? (2) 回归模型 • 因变量:车辆数 但是,没有全市配车数随时间增长的数据 • 自变量:人口? 用什么指标反映居民呼救意识的变化?
自变量的选择 :影响车辆数目的主要因素 自变量:(1)人口增长 (2)人均呼救量增长 呼救量=人口增长 人均呼救量增长 含义:虽然是一元回归,但是自变量包含2个方面的因素!
预测分析的技术路线 预测思路:按照呼救量的预测规模来确定配车数量 全市人口数增长预测 人均呼救量增长预测 预测全市呼救量增长 (3) 设法确定合理的“单车呼救量”,于是: **问题:什么是合理的“单车呼救量”?如何计算?
各站在一年各天中, t 时间内并行发车的最大数量 各站在 t 时间内最大并发量 该站所需 救护车的基本数量 保证及时抢救的基本需求 各站必需的救护车数量 与所需配车的数量 计算2006年合理定车的一种客观依据 97%或95%的呼救满足率 救护车与备用车的比例 中心站:1:1 其他站:1:0.5
测算特定满足率下全市所需急救车辆数、配车数和单车呼救量测算特定满足率下全市所需急救车辆数、配车数和单车呼救量 2006年总呼救量 197450 (次)
3、 2007~2010年配车方案的预测分析 预测思路:按照呼救量的规模定车 预测全市人口数增长 预测人均呼救量增长 预测全市呼救量增长 特定呼救满足率下的 单车呼救量 全市配车数增长
《政治算术》威廉.配第1899 作者立论的方法和态度《序》 我进行这项工作所使用的方法,在目前还不是常见的。因为与只使用比较级或最高级的词语以及单纯做思维的论证相反,我却采用了这样的方法,即用数字、重量和尺度的词汇来表达我自己想说的问题,只进行能诉诸人们感官的论证,以及考察在性质上有可见的根据的原因。 数据分析可以达到的目的: (1)寻找和提供新的、重要的信息点——论点 (2)给出更加充分和有说服力的证据——论据
第三章 在实践工作中发现理论研究的新方向 ——数据降维: 信息的综合与筛选 一、偏最小二乘回归方法 1、 多元线性回归模型 (OLS) 最小二乘: The Gauss-Markov Theorem 在基本假设条件下,最小二乘估计量b0 , b1 ,…, bk是总体参数 0 , 1,…, k的线性最小方差无偏估计量。
2、自变量的多重相关性(Multicollinearity) • (1) 现象:自变量之间存在严重的相关关系 • (2) 危害: • (3) 常见的表象: • 增加一个变量后,回归系数变化非常大; • R2很大,F-检验通过,但 t -检验却均不通过; • 回归系数的符号无法解释。 自变量集合中两两变量的相关系数大
例:约翰·内特(Jone Neter)等人在《应用线性回归模型》一书中给出的身体脂肪的数据:对20位25~34岁的健康女性进行测量。变量为身体脂肪 ,三头肌皮褶厚度 ,大腿围长 和中臂围长 。 • 只取三头肌皮褶厚度作为自变量,其回归模型为 • 以三头肌皮褶厚度和大腿围长作为自变量 • 以三头肌皮褶厚度,大腿围长和中臂围长作为自变量 R2=0.801, F=21.517,F—检验通过 T检验值分别是: t1=1.44, t2 = 1.11, t3= 1.37 由于 =2.921,所以,3个自变量的检验均不能通过!
3、 PLS回归的建模原则 ( Wold, 1983 ) t1 u1 求回归模型: 分别用 Y1、X1 取代 Y、X , 然后求第二个PLS成分。