600 likes | 1.17k Views
拟合优度(或称判定系数、决定系数). 目的:企图构造一个不含单位,可以相互进行比较,而且能直观判断拟合优劣的指标。 拟合优度的定义: 意义:拟合优度越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比高。观察点在回归直线附近越密集。 取值范围: 0-1. 拟合优度(或称判定系数、决定系数). 判定系数只是说明列入模型的所有解释变量对应变量的联合的影响程度,不说明模型中单个解释变量的影响程度。 对时间序列数据,判定系数达到 0.9 以上是很平常的;但是,对截面数据而言,能够有 0.5 就不错了。. 判定系数达到多少为宜?. 没有一个统一的明确界限值;
E N D
拟合优度(或称判定系数、决定系数) • 目的:企图构造一个不含单位,可以相互进行比较,而且能直观判断拟合优劣的指标。 • 拟合优度的定义: • 意义:拟合优度越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比高。观察点在回归直线附近越密集。 • 取值范围:0-1
拟合优度(或称判定系数、决定系数) • 判定系数只是说明列入模型的所有解释变量对应变量的联合的影响程度,不说明模型中单个解释变量的影响程度。 • 对时间序列数据,判定系数达到0.9以上是很平常的;但是,对截面数据而言,能够有0.5就不错了。
判定系数达到多少为宜? • 没有一个统一的明确界限值; • 若建模的目的是预测应变量值,一般需考虑有较高的判定系数。 • 若建模的目的是结构分析,就不能只追求高的判定系数,而是要得到总体回归系数的可信任的估计量。判定系数高并不一定每个回归系数都可信任;
4.3 判定系数和相关系数的关系:(1)联系 • 数值上,判定系数等于应变量与解释变量之间简单相关系数的平方:
拟合优度评价(或称判定系数、决定系数) 样本判定系数(Determinants of coefficient)R2 随机项μ的方差σμ2的最小二乘估计量
相关系数 • 计算方法与样本判定系数密切相关,就是其平方根,只是符号要小心。 • 含义有所不同: • 样本判定系数是判断回归方程与样本观测值拟合优度的一个数量指标,隐含的前提条件是X和Y具有因果关系。 • 相关系数是判断两个随机变量线性相关的密切程度,不考虑因果关系。
注意英文缩写的含义 • TSS:Total Square Sum / 总离差平方和 • RSS: • Regression Square Sum / 回归平方和 • Residual Square Sum / 残差平方和 • ESS • Error Square Sum / 误差平方和(残差平方和) • Explain Square Sum / 解释平方和(回归平方和)
假设检验的概念 • 定义:称对任何一个随机变量未知的分布类型或参数的假设为统计假设,简称假设。检验该假设是否正确称为假设检验。 • 统计假设,如 H0: p=0.5 (称为原假设) H1: p 0.5 (称为备择假设)
“小概率原理”在假设检验中的应用 • 数理统计学中的“小概率原理”认为:概率很小的事件在一次抽样试验中几乎是不可能发生的。 • 在H0成立的条件下,统计量落在拒绝域为一个小概率事件,因此,在一次抽样试验中,依据小概率原理,是不会发生的。 • 要是小概率事件(“统计量落在拒绝域” )居然发生了。那么,只能是提出的假设H0发生了错误,所以必须拒绝H0。
显著性水平 • 是小概率事件发生的概率; 在假设检验中也称为检验的显著性水平,简称为检验水平。
假设检验的步骤: • Step1:分析问题,提出原假设和备择假设; • Step2:选择和计算统计量U:在原假设成立时,U的分布已知;含有要检验的参数;各个参数应该都是已知的、可求的。 • Step3:构造小概率事件: • Step4:判断小概率事件是否发生: • Step5:下结论:若小概率事件发生,拒绝原假设H0;选择备择假设H1。否则,不拒绝原假设。
假设检验的具体操作步骤(以正态总体、已知方差,检验均值u为例)假设检验的具体操作步骤(以正态总体、已知方差,检验均值u为例) • 1、提出零假设 H0: = 0 H1 : 0 • 3、确定显著水平,如=0.05,查表得相应的临界值/2 • 4、判断和下结论:若|U| /2 ,拒绝H0;若|U|< /2 , 接受H0;(判断区域图示) • 5、依据结论,作出经济学上的解释。
f(x) 不拒绝H0区域 拒绝域 拒绝域 x 判断区域图示如下 返回
假设检验的应用——正态总体均值u的假设检验假设检验的应用——正态总体均值u的假设检验 设总体~N(,2), 0是已知数。对于其参数的假设检验,讨论2种情况: 1.已知方差2,H0:= 0, H1: 0 2.未知方差2,H0:= 0, H1: 0
回归系数假设检验及意义 • 回归系数的假设检验,往往是检验 • 检验的意义:该系数是否显著,该解释变量是否对应变量有解释作用。
四. 参数估计值的显著性检验(t检验) • 检验回归方程中每个解释变量前面的参数的统计显著性 • 检验统计量 t 自由度为(n-2)的 t分布 • 给定显著性水平 α,若 • 则所检验的解释变量前面的参数具有统计显著性
五. 模型整体的显著性检验(F检验) • 检验估计的回归方程作为一个整体的统计显著性 • F 检验的统计量,该统计量服从自由度为(1,n-2)的 F 分布 • 给定一个显著性水平α • 若 F > F (1, n-2),则通过方程显著性检验 • 若 F < F (1, n-2),则未通过方程显著性检验
自由度的分解 (1)什么是自由度 (2)对应于平方和分解的自由度的分解
( 1 )什么是自由度 • 模型中样本值可以自由变动的个数,称为自由度 • 自由度 = 样本个数 — 样本数据受约束条件(方程)的个数 • 例如,样本数据个数为n,它们受k个方程的约束(系数矩阵秩为k),那么,自由度df = n-k
(2) 对应于平方和分解的自由度的分解 • TSS = ESS + RSS n-1 1 n-2 总自由度dfT回归自由度dfE残差自由度dfR • 自由度分解:dfT= dfE +dfR
F检验与t检验 • 在一元线性回归模型中两者是一样的,等价的,因为t(n-2)的平方就是F(1,n-2)。但这种关系仅在一元线性回归是如此! • 也就是说在一元线性回归模型中,确实不需要用F检验,但当我们考虑多元回归的时候,F检验就不是t检验可以替代的了。
六. 模型预测 点预测(个值和均值的点预测是一样的)
区间估计的概念 • 所谓区间估计就是以一定的可靠性给出被估计参数的一个可能的取值范围。 • 具体作法是找出两个统计量 1(x1,…,xn)与2 (x1,…,xn), 使P(1 < < 2 )=1- • (1 , 2)称为置信区间, 1-称为置信系数(置信度、置信水平), 称为冒险率(测不准的概率)或者显著水平,一般取5%或1%。
置信水平1- “大概80分左右” 上限 下限 犯第一类错误的概率(也叫显著水平 ) 对区间估计的形象比喻 • 我们经常说某甲的成绩“大概80分左右”,可以看成一个区间估计。(某甲的成绩为被估计的参数) P(1 < < 2 )=大概的准确程度( 1-) 如:P(75 < <85 )=95%=1-5%
图示如下 1- /2 /2
区间估计的步骤: 1)找一个含有该参数的统计量; 2)构造一个概率为 的事件; 3)通过该事件解出该参数的区间估计.
区间预测(均值预测) E(Y|X0)的的置信区间
均值预测带 参见课本P120图6-12 和图上边的那段话!
区间预测(个值预测) 构造 则有 即 构造 Y0的的置信区间
个值预测带 • 个值预测带的区间宽度与均值预测带比较而言是更大的,也就是预测精度更差!
应变量Y区间预测的特点,图示如下 Y SRF X Y均值的置信区间 Y的个别值的置信区间
扰动项的区间估计 • 对扰动项的区间估计使用的统计量为:
一元线性回归模型举例 • 研究我国固定资产投资总额与GDP的关系 • 第一步:建立模型 • 第二步:收集数据 采用1980~1998年的数据,数据来源《中国统计年鉴(2000)》 说明:在理论经济学中I表示私人部门投资,在我国的统计体系中,固定资产投资总额既包括私人部门投资,也包括公共部门(政府)的投资。
举例 • 第三步:参数估计(OLS),得
举例 • 第四步:模型检验 • 经济意义检验:b1的经济含义是固定资产投资乘数,肯定大于1,按我国的实际情况,不是很大,估计在4或5以下,通过检验。 • 统计检验:拟合优度检验、参数估计值显著性检验、模型显著性检验。 • 计量经济检验(异方差、序列资相关、随机解释变量、多重共线性) • 模型预测检验
统计检验-拟合优度检验 • 样本判定系数 • 线性模型解释了因变量的99.29%,拟合程度很好。
统计检验-参数估计值显著性t检验 • 提出原假设: 备择假设: • 构造统计量 计算得 • 检验:取 =5%,查表得 拒绝原假设,b1显著不为零
统计检验-方程显著性F检验 • 提出原假设: 备择假设: • 构造统计量 计算得 • 检验:取 =5%,查表得 拒绝原假设,b1显著不为零,线性关系显著。可以发现t2=2362约等于2367=F,那是因为计算有误差。否则应该相等的。
预测 • 点预测 1999年固定资产投资总额29854.7亿元 • 个值区间预测
相关关系 分类: • 只有两个变量:简单相关; 三个及三个以上:多重相关(复相关); • 线性相关、非线性相关; • 正相关、负相关、不相关
正相关(我国人均消费函数) Y为我国人均消费 X为我国人均国民收入 相关系数:0.98 1200 1000 800 Y 600 400 200 0 500 1000 1500 2000 2500 X
负相关 Y与X的相关系数: -0.92 80 70 60 Y 50 40 30 20 0 10 20 30 40 X
60 40 20 0 -20 -40 -60 -60 -40 -20 0 20 40 60 不相关(不排除存在曲线相关) • 相关系数为: • 4.24E-18 Y X