100 likes | 314 Views
实验七. 身高、体重与体育成绩. 统计推断. 引例:学生的身高、体重与体育成绩. 现有某高中高三学生中随机抽取100名男生的身高、体重与体育成绩 (1)给出这些数据的直观图形描述 (2)根据这些数据对全小学生的平均身高和体重进行估计 (3)若普通中学同龄男生平均身高为168.3 cm, 平均体重为56.2 kg, 能否认为该中学男生身高和普通中学相比有显著区别? (4)身高和体重对体育成绩有何影响?. 数理统计的基本概念. 总体和样本 统计量 样本均值 样本中位数 样本方差 样本协方差 抽样分布及分位数 标准正态分布 t 分布 F 分布 χ 2 分布.
E N D
实验七 身高、体重与体育成绩 统计推断
引例:学生的身高、体重与体育成绩 现有某高中高三学生中随机抽取100名男生的身高、体重与体育成绩 (1)给出这些数据的直观图形描述 (2)根据这些数据对全小学生的平均身高和体重进行估计 (3)若普通中学同龄男生平均身高为168.3cm,平均体重为56.2kg,能否认为该中学男生身高和普通中学相比有显著区别? (4)身高和体重对体育成绩有何影响?
数理统计的基本概念 • 总体和样本 • 统计量 • 样本均值 • 样本中位数 • 样本方差 • 样本协方差 • 抽样分布及分位数 • 标准正态分布 • t分布 • F分布 • χ2分布
MATLAB统计分析工具箱 • 正态分布 • y=normpdf(x,mu,sigma): 返回参数为mu和sigma的正态分布密度函数在x处的值 • p=normcdf(x,mu,sigma): 正态分布函数值 • x=norminv(p,mu,sigma): 生成参数为mu和sigma的正态分布的p分位数 • t分布, χ2分布,F分布 • x=tinv(p,n): 自由度为n的t分布p分位数 • x=chi2inv(p,n): 自由度为n的χ2分布p分位数 • x=finv(p,m,n): 自由度为m,n的F分布p分位数
统计推断方法 • 参数估计(根据样本对总体分布中的参数θ进行估计) • 点估计:直接给出参数θ的估计值 • 区间估计:给出参数θ的估计值区间,并附加一个概率(即每个区间的置信度) • 置信区间:设总体分布中含有参数θ,若有区间I使得θ位于I中的概率为1-α,则称I为θ的1-α置信区间
对于均值μ和标准差σ均未知的正态总体,可以用下面的命令进行两个参量的点估计对于均值μ和标准差σ均未知的正态总体,可以用下面的命令进行两个参量的点估计 [muhat, sigmahat, muci, sigmaci]=normfit(x,alpha) 其中:x—样本数据,alpha—置信度, muhat—μ的点估计,sigmahat— σ的点估计,muci—μ的置信区间,sigmaci—σ的置信区间
假设检验 • 零假设(原假设) 备择假设(对立假设) • 显著性检验 • 单边检验,双边检验 • 已知标准差σ的正态总体的均值检验:z方法 [h,sig]=ztest(x,m,sigma,alpha,tail) 其中:x—样本列向量,m—μ0,sigma—σ, tail—值为0表示双边检验,值为1表示右边检验,值为-1表示左边检验 alpha—显著性水平(缺省为0.5) h—返回为1表示拒绝原假设,返回0表示接受 sig—返回临界值的拒绝概率,sig<alpha时h=1
例:比例检验 某外商称他所提供的某种零件至少有95%是符合标准的。现测试200台这种设备,发现有15台是不符合规范的。在显著性水平α=0.05下,能否相信外商的话?
线性回归 • 多元线性回归模型y=b1x1+…+ bnxn+ε, 其中ε服从N(0, σ2)分布,β为回归系数组成的向量 • 任务1:对观察到的y和x的值求回归系数 • 任务2:判断模型的有效性 • regress命令 [b,bint,r,rint,stats]=regress(y,x,alpha) Y—y的数据向量 x—x的数据矩阵 b—β的估计值bint—的置信区间 r—残差 rint—的置信区间 stats—1×3检验统计量,第一个值为回归方程的置信度,第二个值为F统计量值,第三个值是与F统计量相应的p值,p值很小说明回归方程系数不为0 使用rcoplot(r,rint)可以作出残差图
实验例题 学生的身高、体重与体育成绩分析