390 likes | 654 Views
§3 数据资料与拟合模型. 一 . 数据资料与数学模型. 数据资料 数据资料 是在实际问题中收集到的观测数值。 是组建数学模型的重要依据和检验数学模型 的重要标准。. 数据获取 年鉴报表、学术刊物、网络资源、实验观测等等. 数据误差 观测数据中一般都包含有误差。正确对待和处理这 些误差是数学建模中不可回避的问题 . 系统误差 :偏差,来自于系统,有规律,可避免。 随机误差 :无偏,来自随机因素,无规律,不可免. 2. 资料与模型
E N D
一. 数据资料与数学模型 • 数据资料 • 数据资料 是在实际问题中收集到的观测数值。 • 是组建数学模型的重要依据和检验数学模型 • 的重要标准。 数据获取 年鉴报表、学术刊物、网络资源、实验观测等等 数据误差 观测数据中一般都包含有误差。正确对待和处理这 些误差是数学建模中不可回避的问题. 系统误差:偏差,来自于系统,有规律,可避免。 随机误差:无偏,来自随机因素,无规律,不可免
2. 资料与模型 10. 数据资料可以直接应用于数学模型的组建。 20. 对于情况较复杂的实际问题(因素不易化简,作用机理不详)可直接使用数据组建模型寻找简单的因果变量之间的数量关系, 从而对未知的情形作预报。 这样组建的模型为拟合模型。 30. 拟合模型的组建主要是处理好观测数据的误差,使用数学表达式从数量上近似因果变量之间的关系。
3. 拟合模型 • 10. 拟合模型的组建是通过对有关变量的观测数据的观察、分析和选择恰当的数学表达方式得到的。 • 20. 拟合模型组建的实质是数据拟合的精度和数学表达式简化程度间的一个折中。折中方案的选择将取决于实际问题的需要。
30. 经验模型和插值模型 • 经验模型:问题主要是探讨变量间的内在规律,容许出现一定的误差。 • 模型将侧重于选择规律的简单的数学表达。 • 简单在的数学表达式中选择拟合效果好的。 • 插值模型:模型以拟合效果为主。 • 要求精确地拟合观测数据,即在观测点之间插入适当的数值。
二. 经验模型与最小二乘法 • 1. 经验模型及其组建 • 在简单模型中选择拟合效果好者。 • 例 人口预测 • 1949年—1994年我国人口数据资料如下: 年 份 xi 49 54 59 64 69 74 79 84 89 94 人口数 yi 5.4 6.0 6.7 7.0 8.1 9.1 9.8 10.3 11.3 11.8 建模分析我国人口增长的规律, 预报1999年我国人口数。 1. 在坐标系上作观测数据的散点图。 2. 根据散点分布的几何特征提出模型 3. 利用数据估计模型的参数 4. 计算拟合效果
例3.1 • 假设:人口随时间线性地增加 • 模型:y = a + b x • 参数估计 • 观测值的模型: • yi = a + b xi + εi ,i = 1,…,n • 拟合的精度: • Q = i 2 = (yi - a – b xi)2, • 误差平方和。
最小二乘法: • 求参数 a 和 b,使得误差平方和最小。
参数估计 • 可以算出:a = – 1.93, b = 0.146 • 模型:y = – 1.93 + 0.146x
拟合效果 年 份 xi 49 54 59 64 69 74 79 84 89 94 人口数 yi5.4 6.0 6.7 7.0 8.1 9.1 9.8 10.3 11.3 11.8 模型值 5.24 5.97 6.70 7.43 8.16 8.90 9.62 10.36 11.09 11.82 误差 .16 .03 .00 -.43 -.06 .20 .18 -.06 .01 -.02
模型二 人口自然增长模型 设数据满足 最小二乘法 算得 模型 拟合精度
结论 • 预报:1999年12.55亿,13.43亿 • 人口白皮书: • 2005年13.3亿, 2010年14亿 • 模型 I 2005年13.43亿,2010年14.16亿 • 模型II 14.94亿, 16.33亿
讨论 xi 49 54 59 64 69 74 79 84 89 94 yi 5.4 6.0 6.7 7.0 8.1 9.1 9.8 10.3 11.3 11.8 yi 5.24 5.97 6.70 7.43 8.16 8.90 9.62 10.36 11.09 11.82 • 0.16 0.03 0.00 -0.43 -0.06 0.20 0.18 -0.06 0.01 -0.02 yi 5.55 6.06 6.62 7.23 7.90 8.64 9.44 10.31 11.26 12.31 • -0.15 –0.06 0.08 –0.23 0.20 0.46 0.36 –0.01 –0.13 –0.51
3. 可化简的非线性最小二乘法 • 10. y=a+b1f1(x)+b2 f2(x)+…+bn fn(x) • 令 ui= fi(x), 则有 • y=a+b1u1+…+bnun. • 20. y=a ebx . • 令 z=ln y, 则有 • z = ln a + b x = a* + b x . • 30. y = a xb . • 令 z = ln y, u = ln x, 则有 • z = ln y = lna+b ln x = a*+ b u
40. y = 1/(a+bx) • 令 z = 1/y, 则有 • z = 1/y = a + bx . • 50. y = x/(b+ax) • 令 z = 1/y, u=1/x, 则有 • z = 1/y = a + b/x = a + b u
例 2 表列数据为1977年以前六个不同距离的中短距离赛跑成绩的世界纪录. • 试用这些数据建模分析赛跑的成绩与赛跑距离的关系。 • 距离 x(m)100 200 400 800 1000 1500 • 时间 t (s) 9.95 19.72 43.86 102.4 133.9 212.1
模型: t = a + b x • 参数: a= - 9.99, b = 0.145 • t = - 9.99 + 0.145 x • Q1 = 82.04 • 检验: 当 x < 68.89 m 时, t < 0. • 当 x = 100 m 时, t = 4.51 s • 与实际情形差距较大 ! • 中间数值偏低
模型: t = a xb, 令 z = ln t, u = ln x , 则有 z = ln t = ln a+b ln x = a* + b u 参数: a* = - 0.734, a = ln a* = 0.48, b = 1.145 t = 0.48 x1.145. Q2 = 23.55 x 100 200 400 800 1000 1500 t 9.95 19.72 43.86 102.4 133.9 212.1 I 4.56 19.10 48.20 106.4 135.5 208.2 II 9.39 20.78 45.96 101.68 131.29 208.9
讨论 1. 经验模型是众多因素作用综合在因果关系上的结论。会因时因地发生变化且不宜在另外的环境下套用和从机理作过多的分析。 2. 前面的最小二乘法实质上是近似求解线性方程组 a + xk b = yk,k = 1,…,n
讨论 • 3. 关于最小二乘技术 • 可以使用计算器计算 • 使用excel计算: \数据分析\回归分析 • 使用MATLAB计算 • x=49:5:94; y=[5.4 6. 6.7 7. 8.1 … ]; • A=[ones(10,1), x’]; b=A\y’; • z=b(1)+b(2)*x; • plot( x, z, ’b’, x, y,’r*’)
问题 • 利用赛艇比赛成绩的数据建模分析运动员的人数 n 与赛艇成绩 t 的关系. • n 1 2 4 8 • t 7.125 6.878 6.340 5.835
三. 插值模型与样条插值法 当数据量不够,需要补充,且认定已有数据可信时 , 通常利用函数插值方法组建模型. 目标:根据一组观测数据 • 寻找函数关系y=(x), 满足 yi =φ(xi), i =1,…,n • 线性插值: • 如果 函数 y = φ(x) 在每个小区间 [xi, xi+1]上是线性函数, • 则称 y = φ(x) 是这组数据的线性插值函数。
例 地形模型: 已知平面区域上的海拔高程 h(x, y) • x\y 0 400 800 1200 1600 2000 • 0 370 470 550 600 670 690 • 400510 620 730 800 850 870 • 800 650 760 880 970 1020 1050 • 1200 740 880 1080 1130 1250 1280 • 1600830 980 1180 1320 1450 1420 • 2000 880 1060 1230 1390 1500 1500 • 给出这个平面区域内地形的模型。
假设: • 1. 观测点的高程数值是准确的。 • 2. 地形的各观测点之间没有剧烈的变化。 • 3. 相邻观测点之间的高程的变化是线性的。 • 模型: • 拟合坐标轴方向相邻观测点间的高程. 给出地形变化的等高线图.
令 hij = h (xi, yj), 考虑点 (xi, yj), (xi+1, yj) 间高程的变化。记 hi = hij, hi+1 = hi+1j.则由直线方程的两点式 • 椐此就可在坐标系中画出平面区域的地形图
2. 样条插值:实质上是指光滑连接起来的分段的多项式曲线。给定区间[a,b]的一个分划 • : a = x0< x1<< xn-1< xn = b • 称函数Sk(x)是[a, b]上关于的k次多项式样条函数,如果它满足条件: • 1. 在结点 xi 处等于给定的数值 yi = Sk(xi ) • 2. 在每个子区间[xi-1, xi]上是 k 次多项式 • 3. Sk(x) 及其直到k-1阶导数在区间[a, b]上连续.
k 次样条多项式的构造 • 1. k 次半截幂函数 • 2. 0次样条函数: 称阶梯函数 • S0(x) = a0 + bj(x - xj)+0 • 为0次样条函数. • 3. k 次样条函数: 将S0(x) 积分k次, 得k次样条函数
通常人们多使用三次样条函数: • 式中n+3个任意常数{aj}, {bj}可由n-1个内结点的数值和根据实际问题的要求附加于区间的端点四个条件来确定.
3. 插值技术 • x=0:4:20;%给出X轴的坐标 • y=0:4:20; %给出Y轴的坐标 • z=[37 51 65 74 83 88; 47 62 76 88 98 106; … ; 69 87 105 128 142 150];%给出(x,y)点的高程 • [X,Y]=meshgrid(0:1:20,0:1:20);% 给出新的插值坐标 • Z=interp2(x,y,z,X,Y’,’spline’);%在新的坐标上进行样条插值 • clf;%清空图形坐标系中的内容 • axis xy;%设置坐标的单位一致 • mesh(X,Y,Z)%用网格画出插值的结果 • hold on%打开在同一坐标系中画图的功能 • contour(X,Y,Z)%画平面等高线 • contour3(X,Y,Z)%画三维等高线
例 3 一水库上游河段降暴雨.,根据预报测算上游流入水库的流量为Q(t) (102立方米/秒) : t (时) 8 12 16 24 30 44 48 56 60 Q( t ) 36 54 78 92 101 35 25 16 13 利用这个预报值估计14:30 和 20:30 时上游流入水库的流量。 假设: 1 已知数据准确。 2 相邻两个时刻之间的流量没有突然的变化。
t=[8,12,16,24,30,44,48,56,60]; • q=[36,54,78,92,101,35,25,16,13]; • t1=8:0.5:60; • q1=interp1(t,q,t1,'linear'); • plot(t,q,'b',t1,q1); • hold on; • q2=interp1(t,q,t1,'spline'); • plot(t,q,'b',t1,q1,t1,q2,'r') • q1 • q2