840 likes | 1.06k Views
第三章. 敘述統計( II) 統計量數. 平均數. 算術平均數 所有觀察值的總和除以觀察值的個數 算術平均數在數線上代表資料的平衡點. N. 母體平均數. n. x i. i=1. X=. n. Xi. i=1. µ=. N. 樣本平均數. 資料的平衡點. 平均數. 28000. 25000. 18000. 20000. 50000. 27000. 眾 數( Mode): 觀察值中其 出現次數最多 的 那一個數值. 中位數: 數值 大小順序排列 的觀 察值中央的那一個數值. 四分位數: 將順序資料分成 四等分 數值 的分位數.
E N D
第三章 敘述統計(II) 統計量數
平均數 算術平均數 所有觀察值的總和除以觀察值的個數 算術平均數在數線上代表資料的平衡點
N 母體平均數 n xi i=1 X= n Xi i=1 µ= N 樣本平均數
資料的平衡點 平均數 28000 25000 18000 20000 50000 27000
眾數(Mode):觀察值中其出現次數最多的那一個數值眾數(Mode):觀察值中其出現次數最多的那一個數值 中位數: 數值大小順序排列的觀 察值中央的那一個數值 四分位數: 將順序資料分成四等分數值的分位數
求下列二組資料之中位數與眾數: (I): 3, 8, 9, 9, 5 (II): 4, 8, 6, 2 Sol: 按大小順序排列,找中間位置 • 3, 5, 8, 9, 9 • 2, 4, 6, 8 (4+6)/2=5
百分位數 (Pk): 將順序資料均分為一百等分數值,取第k個等分點 將順序資料排列 求位置指標i i= n (k /100) n: 觀測值個數 I : 非整數 Pk:下一個整數位置值 I :整數 Pk:( 第i +第i+1位置值)/2
Ex:假定某一班級20位學生之統計學成績如下: 42 55 66 76 96 80 69 59 46 28 22 44 56 68 78 88 74 63 53 39 計算平均數,中位數,P35, P68 Sol: 22 28 39 42 44 46 5355 56 59 63 66 68 69 74 76 78 80 88 96
中位數: (59 +63)/2=61 P35: i= 20 (35/100)=7 為整數取第7與第8兩位置之平均數 (53+55)/2=54 P68: i= 20 (68/100)=13.6 不為整數取第14位置值69
全距 R = 最大值-最小值 四分位距 IQR = 第3四分位數-第1四分位數 =Q3-Q1
Ex:病房中的兩個病人, 他們一天要測量脈搏三次, 結果如下: A: 72 75 78 B: 48 64 113 A= 75= B 請問:可否只從平均數據下結論?
Ex:兩個學生的各項成績如下: 甲: 80 76 78 83 83 乙: 85 60 95 65 95 甲 = 80 = 乙 請問: 可否只從平均數下結論?
平均分數相同 能力或表現相同 • 比較兩組數值時, 需要考慮每個數值的變異程度 • 變異程度: 全距 甲: 83-76=7 分 乙: 95-60=35 分 請問: 從全距可否得到?資訊
變異數 • 將所有數據都納入考慮, 來測量一組數據的變異程度, 分布程度, 離散程度, 或一致性 • 變異程度: 測量各個數值和平 均數的差距 • 平均絕對離差: 為了避免正負 值相抵消
母體變異數 測量原始數值和平均數的相近程度 式中:µ:母體平均數,N:母體個數。
甲的成績 x x-u (x-u)² 0 16 4 9 9 80-80= 0 76-80= -4 78-80= -2 83-80= 3 83-80= 3 80 76 78 83 83 變異數: 38/5=7.6
樣本標準差 母體標準差
N 1 = MAD Xi-µ N i=1 N 1 mad = Xi-X N i=1 平均絕對離差 母體: 平均絕對離差 樣本: 平均絕對離差越大 分散程度越大
一組數據資料中的標準差越大, 這些數的離散或變異程度越大 標準差不只考慮到資料中的最 大數和最小數, 資料中的每一個 數都有被列入計算 平均數 中央數. 探討各個數值分佈在平均數的附近 用標準差來精確敘述這種離散程度
變異數 樣本變異數 式中:X:樣本均數,n:樣本數 此離差為(Xi-X);一般而言, µ為未知,以樣 本平均數 X 來推估µ,故失去一個自由度
一家銀行有八台自動櫃員機, 在1小時中, 各機器的使用次數如下: 24 31 20 16 35 28 25 29 試問每台櫃員機使用次數的平均值和標準差
² 16 16-26=-10 100 20 20-26=-6 36 24 24-26=-2 4 25 25-26=-1 1 28 28-26= 2 4 29 29-26= 3 9 31 31-26= 5 25 35 35-26= 981 Total: 260 S²=260/8=32.5 S = =5.75每小時每台服務次數 x x-u (x-u) 32.5
相對差異量數:用來比較兩種或 性質不同,或單位不同的資料,或單位相同但平均數相差很大
Ex:兩組測量同一批鋼管長度的觀測值: I:8, 9, 10, 11, 12 (公尺) II: 800, 900, 1000, 1100, 1200 (公分) 變異數I:2 標準差I: 2 變異數II:20000 標準差II:100 2
柴比氏(Chebyshev)定理 2 不論資料為何種分配,至少有(1-1/k )的資料落在距離平均數 k個標準差的範圍內 K為大於1的任意數即k>1 由平均數和標準差 柴比氏定理資料的範圍比例
根據柴比氏定理,當k=2時,至少有 1-1/22=3/4=75% 觀測值落在平均數左右的兩個標準差的區間內.即(x-2s, x+2s) k 區間 落於該區間的比例 1 (x-s, x+s) 至少為0 2 (x-2s, x+2s) 至少為3/4 or (75%) 3 (x-3s, x+3s) 至少為8/9 or (89%)
標準差的顯著程度 若資料為鐘形分配,則有68%的觀察值落在 內,有95%的觀察值落在 內,有99%的觀察值落在 內 (S為標準差)
Ex:隨機抽出200名員工,發現每日支出平均為615元,標準差為135元.Ex:隨機抽出200名員工,發現每日支出平均為615元,標準差為135元. • 利用柴比氏,求每日支出落於(345,885)的區間人數 • 假設呈對稱分配,試利用經驗法則求出落於(i)區間的人工員數
Sol: x=615, s=135 • 345=615-k * 135 885=615+k*135 k=2 • 根據柴比氏,至少有1-1/22=3/4=75%的員 • 工其每日支出落在(345, 885)的區間內, • 即0.75*200=150個員工 • (ii)根據經驗法則,約95%的觀測值落在(x-2s, x+2s)的區間.故約200 * 95%=190個員工每日支出金額在(345,885)之內
中位數 組別 組界 次數 fi以下累積次數 Fi 1 20~30 f1 F1 2 30~40 f2 F2 …. …. ……………………………………………………… i-1 h ~ k fi-1 Fi-1 i p ~ q fi Fi 假設中位數於此組 i+1 r ~ s fi+1 Fi+1 ……………………… Fk=n 內插法 p Fi-1 Me n/2 q Fi Me –p n/2- Fi-1 q - pFi -Fi-1 = P: Me所在組的組下界 q-p:Me所在組的組距 Fi: Me所在組的組次數Fi-1:Me前一組的累加次數
眾數 粗略法眾數 皮爾生眾數
眾數 金氏法眾數 式中:
四分位數 全部資料 的末25% 全部資料的前25% 全部資料的第二個25% 全部資料的第三個25% Q1 Q2Q3 P25P50 P75 中位數
?分位數 • 位置指標i=n*(k/100) n:總次數 • k:第k個百分位數 • 計算以下累積次數,確定Pk組所在位置 • 利用內插法求Pk 分組資料的第? 分位數
Ex: 某一班50位學生統計成績次數分配如下: 求中位數,第三四分位數與P70 組別 組界 次數 以下累積次數 1 30~40 1 1 2 40~50 2 3 3 50~60 7 10 4 60~70 10 20 5 70~80 18 38 6 80~90 8 46 7 90~100 4 50
插入法 ? - 該組下界 ? - 在組中的 的臨界值 順位 = 該組的組距 該組的總次數
樣本共變數 母體共變數
相關係數 • 顯示出兩個變數的關係或趨勢 • 點分佈圖形 …. .. … …. ... ……. …………….... ... …. …. ….. …… ….. ……… . . . ... . . .
2.23
由導出的,將C=0
HW 1)某研究針對某大學生每晚的睡眠時間進行統計, 一個含20位學生的隨機樣本統計結果如下: 6, 7, 5, 6, 8, 4, 5, 6.5, 7, 3.5, 6, 5, 6, 6, 4.5, 7.5, 3, 6, 5, 7 請求出這組資料的平均數, 中位數, 眾數, 變異數, 標準差, 及繪製箱圖
HW 2) 一所大學針對每天學生攝取卡 路里數進行調查. 結果得知平均數為1450卡路里, 標準差為300卡路里. 試問: (a)有多少比例的學生, 其每天攝 取卡路里數介於850~2050間? (b)68%的學生卡路里攝取數落 在甚麼區間中?
HW 3) 一所大學對於其學生申請助學金的貸款進行統計, 結果如下表: 貸款金額 學生人數 <999 300 1000~1999 1800 2000~2999 2100 3000~3999 1150 4000~4999 600 5000~5999 50 試估計學生貸款金額之平均數, 標 準差, 中位數.
Ex:民國87年某人研究台灣地區騎機車未戴安全帽的比率,在台南市某交通要道觀看半小時內經過之機車,得到如下資料:Ex:民國87年某人研究台灣地區騎機車未戴安全帽的比率,在台南市某交通要道觀看半小時內經過之機車,得到如下資料: 未戴安全帽 戴安全帽 男 52 158 女 30 85 82 推估台灣地區未戴安全帽的比率: =5.23% 325 此推估是否恰當?