310 likes | 498 Views
Elizabeth Newton 博士. 幻灯片由 Elizabeth Newton (麻省理工学院)准备,其中部分由 Roy Welsch (麻省理工学院)与 Gordon Kaufman (麻省理工学院). 1. 15.075 ,应用统计学. 讲课: M , W 10-11 : 30 复习课: R 4-5 教材: 《 统计学与数据分析 》Tamhaneand Dunlop 着 编程: S-Plus 考试:期中(课内)和期末 先修课程:微积分,机率论,线性代数,. 2. 15.075 ,应用统计学,课程大纲. ? 收集数据 ? 概括和探索数据 ? 机率论复习
E N D
Elizabeth Newton 博士 幻灯片由Elizabeth Newton(麻省理工学院)准备,其中部分由Roy Welsch(麻省理工学院)与Gordon Kaufman(麻省理工学院) 1
15.075,应用统计学 讲课:M,W 10-11:30 复习课:R 4-5 教材:《统计学与数据分析》Tamhaneand Dunlop着 编程:S-Plus 考试:期中(课内)和期末 先修课程:微积分,机率论,线性代数, 2
15.075,应用统计学,课程大纲 ?收集数据 ?概括和探索数据 ?机率论复习 ?统计量的抽样分布 ?推断 点估计与区间估计,假设检验 ?线性回归 ?变量分析 ?非参数方法 ?专题(数据挖掘?) 3
统计学 是为了得出结论和决策而进行的数据采集及数据分析之科学。 Tamhane,AjitC.,Dorothy D,Dunlop,《统计学与数据分析进阶》。Prentice Hall,2000,第1页, 「统计学决不能取代判断」, Henry Clay。 4
「米」如何定义? 四分之一子午线(从极点到赤道)的一千万分之一。 但是--它不精确. 为什么? 5
《对所有事物的测量》,Ken Alder, 描述两个法兰西天文学家,Delambre and Mechain,企图确定法兰西大革命时期地球的周长。 用三角测量法确定巴塞隆那与敦刻尔克之间的距离,需要知道每一个端点的纬度 (透过测量天体高度)。 7个月到7年。 Mechain获得相矛盾的讯息 ,隐瞒了数据的部分讯息。 6
页214(《所有事物的测量》): 「什么被记为误差?谁能断言你将要犯错误? 如何近似为充分近似?Mechain和他的同事 都没有能够以相当程度的信心回答上述问题。 他们对统计简直是一无所知。」 - 引自 Alder,Ken。《测量所有事物》之〈7年奥德赛及隐藏误差改变世界〉,Free Press,2003。 7
数据:一组测量值 特性: 名义的,如颜色:红,绿,蓝 二元的,如(M,F),(H,T),(0,1) 序数的,如对待战争态度:支持,中立,不支持 数字的 离散的,如儿童数量 连续的,如距离,时间,温度 也包括: 间隔,如华氏温度 比率(绝对零),如距离,儿童数量 8
概念 总体: 所有感兴趣的单元的集合(有限或无限). 例如:麻省理工学院的所有学生 样本: 实际观察总体的一个子集. 例如:在这教室里的学生. 变量: 每一单元的性质或属性,例如 年龄,高度 观察值: 独立单元的所有变量的值 数据集常写成矩阵形式,行对应观测值,列对应变量。 10
概念(接上) 参数: 针对每一变量定义的总体的数字特性,如反对战争人数的比例。 统计量: 用于估计总体参数的样本数字函数。 精确度: 参数估计量的散布 准确度: 与偏差对应的估计量与真值的近似程度 偏倚度: 估计量与真值的系统偏离程度 11
准确度和精确度 正确且精准 正确但精准 精准但不正确 不正确且不精准 12 由麻省理工学院开放式课程提供
研究设计与执行步骤 • 背景研究和文献综述。 • 定义研究目的及具体假设。 • 确定要测量的变量及如何测量。 • 制定收集数据的计划内 • 抽样设计 • 样本大小 • 包括的范围 • 人员训练 • 汇集数据 • 分析数据 • 结果报告 13
伦理观 从人类角度: 从动物角度: (见 H u lley & C u m m i n gs之《临床研究设计》) 14
统计研究 描述性的: 一组,例如调查,选举 比较性的: 2 组以上,例如对不同教学方法效果的比较。 实验性的: 调查人员主动介入以控制研究条件 寻找预测值(解释变量)与响应(输出值)之间的关系 明确因果关系,例如药物试验 观察性的: 调查人员透过旁观记录数据 难以区分预测值干扰变量(潜变量)件间的影响。 建立联系,例如Framingham之《心脏研究》 15
观察性研究: 横截面研究 寻找某一时点的样本 例如人口普查,样本调查 预测研究(昂贵!) 对样本(一群)进行时间序列跟踪研究 。 例如Framingham之心脏研究,护士健康研究 回顾研究(案例控制) 按时间追溯 16
观察研究中的误差来源 抽样误差 样本不同于总体 测量偏差 界定问题不清晰 自我选择偏差 拒绝参与 回应偏差 不正确或不真实的回应 17
抽样类型 机率抽样(总体中的任一单元都具有非零机率) 简单随机抽样 (SRS) 分层随机抽样 多阶段分群随机抽样 系统抽样 非机率抽样 (估计可能有偏差,但 经常是唯一可行抽样方法) 便利抽样,例如超市调查 判断抽样由调查员确定 18
简单随机样本 (SRS) 总体 从大小为N的总体中无放回抽取样本规模 为n的样本,N以使每一个样本均有同样的被抽取机会。 n总体中的任一样本被抽取到的机率为:n/N (抽样分数)。 产生随机数来提取抽样架构 19
分层随机抽样 将具有不同性质的总体分成有相同性质的子总体(层). 再从每一层中进行简单随机抽样。 优点: 在整体估计的基础上可以获得各层的估计。 估计精度高于简单随机抽样 缺点:需要有抽样架构 20
多阶段分群抽样 适用于总体规模大且无抽样架构,例如美国 例如,在教育调查中,先抽取州样本,然后抽取各州的镇,然后 再抽取各镇的学校. 准备从选择的学校抽取学生样本的架构及使用简单随机抽样。 21
系统抽样 适用于当已知单元列表或单元到达顺序(汽车透过收费站)。 随机选择第一个单元,然后每隔k抽取一个单元。 有限总体,每一单元有同样的选择机率(n/N) (然而并不是所有样本是等可能的). 必须避免k与数据中的循环周期相近 22
问卷设计 • 架构问题:回应应互相排斥且具有完备性。 • 例如你每天喝几杯水? • 0到2杯 • 3到5杯 • 6杯或以上 • 非架构问题: • 例如你每天喝几杯水? • 允许更多个性化的回答,但较会带来校对的数据录入误差。 23
态度问题 1、本课程的家庭作业量适宜 非常反对 反对 既不赞同也不反对 赞同 非常赞同 通常5-9个量级。 (我们应不应当给每个量级编值?) (由高到低或由低到高?) 24
调查问题的措词 双向问题 导向问题 单边问题 含糊问题 预备调查!预备调查!预备调查! (更多讯息,见 Johnson & Wichern之《商务统计》) 25
敏感问题 例如你曾服用过海洛英吗? 随机响应可以诱发更准确的响应。 访谈者并不知道被访谈对象正在回答的问题。 例如掷骰子,如果小于3,就说状态1是真或假。 否则就说状态2是真或假。 状态 1:我服用过海洛英。 状态 2:我没有服用过海洛英。 令 p=服用过海洛英人的比例 q=回答问题1的比例(不可能为0.5) P(真)=P(真|1)P(1)+ P(真|2)P(2)= p q +(1-p)(1-q) 解P。 26
问题顺序 • 人口统计问题在末尾 • 敏感性问题靠后 • 同一主题问题同时出现 • 由一般到具体 • 避免问题没有条理 27
实验研究 目的:评估一组预测变量(因子)影响回应变量的程度。 处理因子为主要关注对象。值(水平)受控制。 干扰因子也影响回应。 处理:处理因子的一组特定组合。 实验单位(EU’s):受应用何种处理的影响。 处理组:所有 EU’s 接受同样处理。 执行:某一实验单位在特定处理下的观测。 复制:另一项独立执行 28
实验研究中的误差源 系统误差:由混淆因子导致的实验单元之间的差异。 随机误差:实验单元响应的内在变化。 测量误差:由不精确测量装置导致的误差。 29
实验研究误差控制策略 区组:将样本中相似的单元划成组 (干扰因子具有同样值)。 例如在农业实验中,可以透过田块设计来控制营养和湿度的影响。 配对:考虑干扰因子来与实验单元配对,然后配对好的每一成员可以随机分派不同的处理 (每一配对组为一区块)。 回归分析:如果干扰因子值已知,则可在最终模型中将它作为影响因子。 随机化:将实验单元随机分发到各处理。 基本思想:将容易控制的干扰因子进行区组化,其它干扰因子随机化。 30
基础实验设计 完全随机化设计(CRD) 实验单元随机分派处理。 随机区组设计(RBD) 实验单元划分成同质的区组。 在区组内随机分派处理。 随机化完全区组设计(RCBD): 区组包含所有的处理。 随机化不完全区组设计(RIBD) 区组不包含所有的处理。 31