1 / 80

统计数据分析应用体会

统计数据分析应用体会. 王惠文 北京航空航天大学经济管理学院 2010 年 10 月. 主要内容. 怎样开始动手做一个新的课题 如何把一个管理问题提炼成数据分析问题 在实践工作中发现理论研究的新方向 迎接信息爆炸时代的挑战. 第一章 怎样开始动手做一个新的课题 —— 统计数据的描述分析. 一、从数据的整理与展示来初步解系统 社会、经济数据的特点: 样本点数量大、指标变量多、带有动态特性 二、数据分析的基本作为: 1. 描述和分析系统特征 (现状、结构、因素之间关系等) 2. 分析系统的运行规律与发展趋势 (动态数据)

favian
Download Presentation

统计数据分析应用体会

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 统计数据分析应用体会 王惠文 北京航空航天大学经济管理学院 2010年10月

  2. 主要内容 • 怎样开始动手做一个新的课题 • 如何把一个管理问题提炼成数据分析问题 • 在实践工作中发现理论研究的新方向 • 迎接信息爆炸时代的挑战

  3. 第一章 怎样开始动手做一个新的课题—— 统计数据的描述分析 一、从数据的整理与展示来初步解系统 • 社会、经济数据的特点: • 样本点数量大、指标变量多、带有动态特性 二、数据分析的基本作为: • 1. 描述和分析系统特征(现状、结构、因素之间关系等) • 2. 分析系统的运行规律与发展趋势(动态数据) • 3. 对系统的未来状态进行预测(建立模型)

  4. 案例1 北京市就业需求分析 (1)全市总就业人口1978年 — 2001年趋势图

  5. (2)全市从业人口占总人口的比例(劳动参与率)(2)全市从业人口占总人口的比例(劳动参与率)

  6. (3)北京市GDP与就业人口的变化趋势

  7. (4)北京市三次产业结构分析 2001年从业人员结构 2001年GDP结构

  8. 2000年城八区三次产业增加值比例 (单位:%)

  9. 描述和比较北京市城八区的经济发展特点 2000年城八区的经济发展与生活水平

  10. 2002年三次产业内部结构 注: 批发和零售贸易、餐饮业 1994年: GDP比重为28.8%, 从业人员的比重为19.8% 2001年: GDP比重为13.8%, 从业人员的比重为26.1%

  11. (5)全市各所有制从业人员状况 2001年五个所有制从业人员比例 2001年五个所有制从业人员数

  12. 按所有制的从业人员数量趋势

  13. “其他”经济成分中的从业人员情况

  14. 北京市GDP、财政收入、就业的增长率 2001: GDP=2845.65(亿元)财政收入=507.68 (亿元) 从业人员=268.9(万人)

  15. 案例2 北京SARS疫情的状态评估 • 2002年11月16日,广州回溯发现第一例SARS病例; • 2003年2月15日香港报道了第一例SARS病例; • 2003年2月28日北京出现第一例输入性病例; • 世界上先后有20多个国家受到SARS疾病的侵袭。 (1)北京市政府公布的数据是真实的吗? • 香港卫生署和医院管理局自3月14日起开始发布“非典型肺炎病人字”数据,较详细的数据报告从3月17日开始。 • 中国内地从4月22日开始正式发布系统的疫情数据通报。 (当日新增确诊106人+新增疑似56人=162人)

  16. (2) SARS的病死率到底是多少?

  17. (3)如何预测WHO解除旅游限制的时间? • WHO对一个地区撤销旅行警告的4项条件是: • (1)医院SARS病人少于60人; • (2)连续5天平均新增病例保持5人以下; • (3)本地区的病人均在控制之中; • (4)没有向外地输出病例。 • 将一个地区从疫区名单中除名的条件是: • (1)连续20天,不出现新的临床诊断病例; • (2)所有的传染源都得到控制; • (3)正常的潜伏期没有发生新的感染。 对SARS疫情发展规律的研究和对SARS疫病流行期限的预测,是对宏观经济影响程度进行评估的基本依据。

  18. 1、北京政府公布数据真实性的验证 —— SARS疫情的发作特点 根据北京和香港的模拟曲线,SARS疫情传播的指数曲线在抬头以前,已经历了31天的时间。一般来说,在指数曲线抬头之前,确实存在较好的控制时机。而一旦指数曲线抬头后,则每日新增病例的变化速度就会非常快。可以看到,香港和北京的官方报道数据都在模拟曲线上,这解释了数据的真实性和合理性。同时说明,北京在开始正式报道数据之日,已经到达了剧烈爆发的阶段。

  19. 2、我国政府与WHO谈判的依据 统计模型指出:通常情况下,WHO规定的“每日在院治疗人数少于60人”的指标都会比“三日平均新发病人数少于5人”的指标晚到达很长一段时间。这说明, WHO有关解除旅游警告限制的标准确实有值得商榷的地方。香港的情况:从5月11日开始,每日新增病例保持在5人以下(当日报道在院治疗人数为404人);5月23日香港解除旅行警告5月22日,香港政府确定仍具传染力的留院病人数目为59宗(当日香港官方公布的住院人数为217人); 北京的情况:按照统计模型可以推测:大约在2003年6月12-14日,北京每日新增的SARS入院人数将降至“三日平均5人以下”。但是,届时北京在院治疗的患者人数却约有900多人。因此可以预见北京将遇到比香港特区政府更为艰苦的与WHO的谈判。(2003年5月28日)

  20. 3、疾控管理中存在的问题:住院时间过长 SARS病患住院时间分布的仿真估计 北京

  21. 北京和香港的“传染率”的比较 • 在SARS疫病流行的整个过程中,北京的日传染率 K 都小于香港; • 香港的K值在爆发期结束时迅速下降,之后又有小的波动。而北京的K值下降过程更具单调性。

  22. 北京和香港的“当日治愈与病死率”的比较 北京的“当日治愈与病死率 I ”在很长一段时间内,一直低于香港的同期水平。但是,从6月8 日到6月14日,北京的治愈出院人数和排除疑似病例的人数陡然增加,一周之内出院1217人。因此使 I 值大幅度升高。 6月24日北京解除旅行警告,同时从疫区除名。

  23. 4、决策反应的时机:再次发生SARS疫情的情况模拟4、决策反应的时机:再次发生SARS疫情的情况模拟 注:假设出现恶性传染的情况,取北京爆发期的最大 R 值:1.173729; 从模拟的情况可以看出,疫病的早期控制时机极为重要。

  24. 数据分析的基本印象与相关建议 • SARS疫情是一种传染潜力较低的流行病,因此可以通过良好的公共卫生体系对其进行有效防控; • 而正是由于SARS危机发展缓慢,曾使我们对危机的认识和反应都相对滞后。而由于缺乏有效的危机管理计划和完善的公共卫生防控系统,最终形成疫病大规模爆发的态势; • 政府采取了一系列果断、有效的措施下,北京对疫情的控制力度和速度都明显好于香港水平; • 当SARS再次出现时,只要我们继续坚持采取早发现、早报告、早隔离、早治疗的措施。完善发烧排查制度,就完全有可能把SARS疫病的流行趋势遏制在萌芽状态。

  25. 统计绘图与使用的基本原则 1、直观:能清晰地表达主题 2、醒目:信息点特别突出 3、变化:图形使用应丰富多彩 4、图、文并茂:文字应与图、表的篇幅平衡 描述性统计的技巧:用数据说话的强烈意识 对系统特性的深入思考 尝试性分析、对信息点敏感

  26. 第二章 怎样把一个管理问题 提炼成数据分析问题

  27. 一、什么是解决问题的“抓手” 1、人员构成 1319 83% 120体系现有人员中,医生、护士、 司机占到绝大多数,配比基本为1:1:1。

  28. 二、预测建模问题 2007~2010年北京市120急救体系应配置多少辆急救车? 目前的配车依据:国家规定配车标准 5万人/辆; 回归模型: 因变量 :每年需要的急救车数量 自变量:(1)急救用车的数量应和地区的人口规模有关 (2)与居民呼救意识的不断增强有关(人均呼叫量)

  29. 三、先做描述性统计:120急救体系的规划情况 及在管理中存在的问题 1、急救相关指标 现有急救相关指标 规划后各项指标 规划中存在的问题:如何体现城乡统筹的理念?

  30. 2、呼叫反应时间分析 • (1)根据全市有效调度数据的统计分析,院前急救各工作流程的平均消耗时间分别为: • 信息受理时间2.4分钟 • 信息传递时间0.8分钟 • 出车时间3.7分钟 • 平均急救准备时间共计6.9分钟 • (2)根据下式可以计算出各区的院前急救规划反应时间 (见下页表):

  31. 各区县院前急救工作的的平均反应时间表 (按规划) 重要信息点:由于准备时间过长,因此在城区没有一个区可以完成规划指标,即在10分钟内到达呼救现场。

  32. 重要信息点:如果加强管理,在缩短准备时间的前提下,郊区的到达时间可望达到20分钟。重要信息点:如果加强管理,在缩短准备时间的前提下,郊区的到达时间可望达到20分钟。

  33. 3、全市各站2006年呼救量分布情况 按“全年零出车天数的比例”对北京市急救站进行分类 (1) 全年零出车天数比例为100%的有顺-杨镇、顺-后沙峪、顺-木林、顺-李桥、大-青云店、门-大台、怀-琉璃庙、怀-怀北、怀-汤河口、通-西集、延-千家店、延-四海、延-康庄、平-峪口、平-大华山、平-马坊、密-不老庄、密-巨各庄、密-古北口、密-田西各庄、昌-北郊、昌-小汤山等22个急救站。 约占目前总站数的24.7% (2) 全年零出车天数比例介于95%和100%的有中-东-东直门、中-西-小屯、城区-发热、顺-牛栏山、大-红星、房-房山站、房-燕山、门-斋堂、平-金海湖、通-通-漷县、通-通-徐辛庄、延-永宁、延-张山营等13个急救站。这类急救站多位于郊区的非中心地带,可见郊区的非中心地带急救站大多数时间处于空闲状态。 约占目前总站数的14.6%

  34. (3) 零出车天数比例小于1%的有中-中-月坛、中-中-中心、中-西-八里庄、中-西-玉泉路、中-北-健翔、中-北-新外、朝-北苑、朝-朝-朝阳、朝-朝-望京、东-东城、丰-丰台、海-海淀、昌-昌平、房-房山、怀-怀柔、密-密云、通-通州等17个急救站。这类急救站多为各城区的中心站,可见各城区的中心急救站工作负荷较大,几乎每天都有出车任务。 约占目前总站数的19%

  35. 主要信息点与政策建议 1、必须加强站内管理,尽量缩短准备时间。否则城区不可能实现10分钟到达的规划目标。 2、在准备时间充分缩短的情况下,郊区的到达时间可望达到20分钟。 3、可将郊区进一步分成城区和山区。对于城区可以考虑采取10分钟到达的规划。对于山区,由于人烟稀少,从资源利用率的角度出发,不适宜制定过高的规划目标。

  36. 四、实践中的挑战: 没有因变量的回归建模问题 问题:2007-2010年北京市120急救体系应该配置多少辆急救车?这些 车在各个急救站应该怎样分配? 情况分析: (1)2005年由财政拨款,添置一批车辆后,目前可以满足急救呼叫的需要。 (2)定性分析表明,急救用车的数量应和地区的人口规模有关;另外,应该和居民呼救意识的不断增强有关。 (3)拥有2006年全年各急救站的呼救记录数据(站点、呼救时间,出车时间、呼救原因等) (4)国家规定配车标准:5万人/辆; 2006年,北京市120现有救护车配置标准为5.8万人/辆 。

  37. 题目分析 2007-2010年北京市120急救体系应该配置多少辆急救车 1、研究的主要目的: 2、预测变量 y 是什么: 每年急救车的数量 (1)按照国家标准,每年所需急救车的数量=人口预测值 /5 这样做合理吗? (2) 回归模型 • 因变量:车辆数 但是,没有全市配车数随时间增长的数据 • 自变量:人口? 用什么指标反映居民呼救意识的变化?

  38. 自变量的选择 :影响车辆数目的主要因素 自变量:(1)人口增长 (2)人均呼救量增长 呼救量=人口增长  人均呼救量增长 含义:虽然是一元回归,但是自变量包含2个方面的因素!

  39. 预测分析的技术路线 预测思路:按照呼救量的预测规模来确定配车数量 全市人口数增长预测 人均呼救量增长预测 预测全市呼救量增长 (3) 设法确定合理的“单车呼救量”,于是: **问题:什么是合理的“单车呼救量”?如何计算?

  40. 各站在一年各天中, t 时间内并行发车的最大数量 各站在 t 时间内最大并发量 该站所需 救护车的基本数量 保证及时抢救的基本需求 各站必需的救护车数量 与所需配车的数量 计算2006年合理定车的一种客观依据 97%或95%的呼救满足率 救护车与备用车的比例 中心站:1:1 其他站:1:0.5

  41. 测算特定满足率下全市所需急救车辆数、配车数和单车呼救量测算特定满足率下全市所需急救车辆数、配车数和单车呼救量 2006年总呼救量 197450 (次)

  42. 3、 2007~2010年配车方案的预测分析 预测思路:按照呼救量的规模定车 预测全市人口数增长 预测人均呼救量增长 预测全市呼救量增长 特定呼救满足率下的 单车呼救量 全市配车数增长

  43. (1) 预测全市人口数增长

  44. (2)预测人均呼救量增长

  45. (3)预测呼救量增长和全市配车数增长

  46. 《政治算术》威廉.配第1899 作者立论的方法和态度《序》 我进行这项工作所使用的方法,在目前还不是常见的。因为与只使用比较级或最高级的词语以及单纯做思维的论证相反,我却采用了这样的方法,即用数字、重量和尺度的词汇来表达我自己想说的问题,只进行能诉诸人们感官的论证,以及考察在性质上有可见的根据的原因。 数据分析可以达到的目的: (1)寻找和提供新的、重要的信息点——论点 (2)给出更加充分和有说服力的证据——论据

  47. 第三章 在实践工作中发现理论研究的新方向 ——数据降维: 信息的综合与筛选 一、偏最小二乘回归方法 1、 多元线性回归模型 (OLS) 最小二乘: The Gauss-Markov Theorem 在基本假设条件下,最小二乘估计量b0 , b1 ,…, bk是总体参数 0 , 1,…, k的线性最小方差无偏估计量。

  48. 2、自变量的多重相关性(Multicollinearity) • (1) 现象:自变量之间存在严重的相关关系 • (2) 危害: • (3) 常见的表象: • 增加一个变量后,回归系数变化非常大; • R2很大,F-检验通过,但 t -检验却均不通过; • 回归系数的符号无法解释。 自变量集合中两两变量的相关系数大

  49. 例:约翰·内特(Jone Neter)等人在《应用线性回归模型》一书中给出的身体脂肪的数据:对20位25~34岁的健康女性进行测量。变量为身体脂肪 ,三头肌皮褶厚度 ,大腿围长 和中臂围长 。 • 只取三头肌皮褶厚度作为自变量,其回归模型为 • 以三头肌皮褶厚度和大腿围长作为自变量 • 以三头肌皮褶厚度,大腿围长和中臂围长作为自变量 R2=0.801, F=21.517,F—检验通过 T检验值分别是: t1=1.44, t2 = 1.11, t3= 1.37 由于 =2.921,所以,3个自变量的检验均不能通过!

  50. 3、 PLS回归的建模原则 ( Wold, 1983 ) t1 u1 求回归模型: 分别用 Y1、X1 取代 Y、X , 然后求第二个PLS成分。

More Related