1.03k likes | 1.3k Views
第二章 测验中的基本统计概念. 测量水平与数据类型 频数表和图 正态分布 集中量数 差异量数 百分 等级 标准分数. 一、测量水平和数据类型. 称名量表 分类数据. 等级量表 等级数据. 等距量表 等距数据. 等比量表 等比数据. 四 种测量 尺度. 数据 的计量尺度. 分类尺度 ( 概念要点 ). 计量层次最低 对事物进行平行的分类 各类别可以指定数字代码表示 使用时必须符合类别穷尽和互斥的要求 数据表现为“类别” 具有 = 或 的数学特性. 等级尺度 ( 概念要点 ). 对事物分类的同时给出各类别的顺序 比分类尺度 精确
E N D
第二章 测验中的基本统计概念 • 测量水平与数据类型 • 频数表和图 • 正态分布 • 集中量数 • 差异量数 • 百分等级 • 标准分数
称名量表 分类数据 等级量表 等级数据 等距量表 等距数据 等比量表 等比数据 四种测量尺度 数据的计量尺度
分类尺度(概念要点) • 计量层次最低 • 对事物进行平行的分类 • 各类别可以指定数字代码表示 • 使用时必须符合类别穷尽和互斥的要求 • 数据表现为“类别” • 具有=或的数学特性
等级尺度(概念要点) • 对事物分类的同时给出各类别的顺序 • 比分类尺度精确 • 未测量出类别之间的准确差值 • 数据表现为“类别”,但有序 • 具有>或<的数学特性
等距尺度(概念要点) • 对事物的准确测度 • 比等级尺度精确 • 数据表现为“数值” • 没有绝对零点 • 具有 + 或 - 的数学特性
等比尺度(概念要点) • 对事物的准确测度 • 与等距尺度处于同一层次 • 数据表现为“数值” • 有绝对零点 • 具有 或 的数学特性
称名尺度 等级尺度 等距尺度 等比尺度 分 类 √ √ √ √ 等 级 √ √ √ 等距 √ √ 等 比 √ 四种计量尺度的比较
数据类型与统计方法 分类数据 等级数据 等距数据 等比数据 品质数据 数量数据 非参数方法 参数方法 数据类型与统计方法
频数分布表的编制(实例) 【例2.3】某大学物理系50名新生入学物理成绩如下。试采用单变量值对数据进行分组。 • 117 122 124 129 139 107 117 130 122 125 • 108 131 125 117 122 133 126 122 118 108 • 110 118 123 126 133 134 127 123 118 112 • 112 134 127 123 119 113 120 123 127 135 • 137 114 120 128 124 115 139 128 124 121
组距分组(要点) • 将变量值的一个区间作为一组 • 适合于连续变量 • 适合于变量值较多的情况 • 必须遵循“不重不漏”的原则 • 可采用等距分组,也可采用不等距分组
分组数据—直方图(直方图的制作) • 用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布 • 在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(Histogram) • 直方图下的总面积等于1
直方图下的面积之和等于1 15 频 数 (人) 12 9 6 3 105 110 115 120 125 130 135 140 入学物理成绩(个) 图2-5 某校物理系新生入学物理成绩的直方图 分组数据—直方图(直方图的绘制)
分组数据—直方图(直方图与条形图的区别) • 条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的 • 直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义 • 直方图的各矩形通常是连续排列,条形图则是分开排列
分组数据—折线图(折线图的制作) • 折线图也称频数多边形图(Frequency polygon) • 是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉。 • 折线图的两个终点要与横轴相交,具体的做法是 • 第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴。 • 折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的。
未分组数据—茎叶图(茎叶图的制作) • 用于显示未分组的原始数据的分布 • 由“茎”和“叶”两部分构成,其图形是由数字组成的 • 以该组数据的高位数值作树茎,低位数字作树叶 • 对于n(20≤n≤300)个数据,茎叶图最大行数不超过 • L = [ 10 × log 10 n] • 5. 茎叶图类似于横置的直方图,但又有区别 • 直方图可大体上看出一组数据的分布状况,但没有给出具体的数值 • 茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息
10 3 11 13 12 24 13 10 茎叶图类似横置的直方图 未分组数据—茎叶图(茎叶图的制作) 树茎 树叶 数据个数 788 022347778889 0012222333344466777889 0133445799 图2-7 某校物理系新生入学物理成绩的茎叶图
树茎 树叶 树茎 树叶 10s 10. 11* 11t 11f 11s 11. 12* 12t 12f 12s 12. 13* 12t 13f 13s 13. 7 8 8 0 2 2 3 4 5 7 7 7 8 8 8 9 0 0 1 2 2 2 2 3 3 3 3 4 4 4 5 5 6 6 7 7 7 8 8 9 0 1 3 3 4 4 5 7 9 9 10* 10. 11* 11. 12* 12. 13* 13. 7 8 8 0 2 2 3 4 5 7 7 7 8 8 8 9 0 0 1 2 2 2 2 3 3 3 3 4 4 4 5 5 6 6 7 7 7 8 8 9 0 1 3 3 4 4 5 7 9 9 图2-8 图2.7扩展后的茎叶图 未分组数据—茎叶图(扩展的茎叶图)
未分组数据—箱线图(箱线图的制作) • 用于显示未分组的原始数据或分组数据的分布 • 箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成 • 其绘制方法是: • 首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU) • 连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接
中位数 X Q Q X 最小值 L U 最大值 4 6 8 10 12 图2-9 简单箱线图 未分组数据—单批数据箱线图(箱线图的构成)
下四分位数 117.75 中位数 123 上四分位数 128 最小值 107 最大值 139 105 110 115 120 125 130 135 140 图2-10 50名新生入学物理成绩的箱线图 未分组数据—单批数据箱线图(实例)
中位数 Q Q 中位数 Q Q 中位数 Q Q U L U L U L 左偏分布 对称分布 右偏分布 分布的形状与箱线图 图2-11 不同分布的箱线图
未分组数据—多批数据箱线图(实例) 【例2.4】从某校学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表2-8。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征
图2-12 8门课程考试成绩的箱线图 未分组数据—多批数据箱线图
未分组数据—箱线图 105 95 85 75 65 55 Min-Max 45 25%-75% 学生1 学生3 学生5 学生7 学生9 学生11 Median value 学生2 学生4 学生6 学生8 学生10 图2-13 11名学生8门课程考试成绩的箱线图
数据类型与显示 数值型数据 品质数据 总计表 分组数据 原始数据 多元数据 时序数据 直方图 折线图 茎叶图 箱线图 雷达图 线 图 条形图 圆形图 环形图 数据类型及图示(小结)
左偏分布 对称分布 右偏分布 U型分布 正J型分布 反J型分布 频数分布的类型 图2-17 几种常见的频数分布
集中量数 • 所谓集中量数是以一个数值来描述统计数据,看那一个数值是最具代表性,或数据集中在那个中心位置。 • 最常见的集中量数主要有三种,即算术平均数(Mean)、中位数(Median)、和众数(Mode),到底用那一个集中量数和数据衡量尺度以及研究的目标有关。 • 此外,在某些情况下,还会用到一些其他的平均数。
集中量数 • 算术平均数(mean) • 中数(median) • 众数(mode) • 加权平均数(weighted mean) • 几何平均数(geometricmean) • 调和平均数(harmonicmean)
算术平均数 • 算术平均数常简称为平均数为所有数值总和除以所有数值的个数。 • 总体平均数(μ) • 样本平均数( )
算术平均数 • 求法: • 由原始数据计算 • 由分组数据计算--组中值法
算术平均数 • 意义:同一指标的多次测量值的平均数是“真值”的渐近、最佳估计值
算术平均数 • 优点: • 反应灵敏 • 便于理解 • 计算严密 • 较少受抽样变动的影响 • ……
算术平均数 • 缺点: • 易受极端数据的影响 • 数据不全时无法计算
算术平均数 • 适用条件: • 适用于同质数据(例) • 要求一组数据中每个数据都比较准确、可靠,若数据模糊不清或分组资料存在不确定的组限时,不能计算(例) • 无极端值出现(例) • 需要得到一个相对可靠的集中量数或进一步参与其他运算时
中数 • 将数据由小到大(或由大到小)顺序排列后,位于中心的数值称为中数(median) ,也称中位数, 通常以Md表示。
中数 • 求法: • 未分组数据:将数据由小到大排序写成x(1), x(2), …, x(n)
中数 例3.1:全班12位学生的体重分别为38、46、43、51、54、50、40、48、39、42、54、35千克,求12位学生的体重的中数。 解:将12位学生的体重由小到大排序如下:35,38,39,40,42,43,46,48,50,51,54,54,因为n=12为偶数,故中位数为排序第六和第七位数值的平均,即
中数 • 求法: • 分组数据: • 式中Lb为中数所在组的精确下限, Fb为中数所在组的下限以下的累积次数,f为中数所在组的次数,i为组距,N为总次数