1 / 49

第 3 章

第 3 章. 敘述統計:數值方法 Part B (3.3 - 3.6). 分配的形狀. 分配形狀的重要數值衡量則是 偏度 (skewness) 。 計算偏度的公式有些複雜。 衡量樣本的偏度公式是: 但是若以統計軟體來計算,則是輕而易舉。. 第 3 章 敘述統計:數值方法 Part B (3.3 - 3.6) 第 103 頁. 分配的形狀. 對稱 ( 不偏 ) 偏度為 0 。 對稱分配的平均數及中位數是相等的。. 第 3 章 敘述統計:數值方法 Part B (3.3 - 3.6) 第 103-104 頁 圖 3.3. 分配的形狀.

Download Presentation

第 3 章

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第 3 章 敘述統計:數值方法 Part B (3.3-3.6)

  2. 分配的形狀 • 分配形狀的重要數值衡量則是偏度(skewness)。 • 計算偏度的公式有些複雜。 • 衡量樣本的偏度公式是: • 但是若以統計軟體來計算,則是輕而易舉。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第103頁

  3. 分配的形狀 • 對稱 (不偏) • 偏度為 0 。 • 對稱分配的平均數及中位數是相等的。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第103-104頁 圖3.3

  4. 分配的形狀 • 適度左偏 • 偏度為負值。 • 平均數常小於中位數。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第103-104頁 圖3.3

  5. 分配的形狀 • 適度右偏 • 偏度是正值。 • 平均數通常大於中位數。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第103-104頁 圖3.3

  6. 分配的形狀 • 高度右偏 • 偏度是正值。 (通常大於1.0) • 平均數通常大於中位數。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第103-104頁 圖3.3

  7. 分配的形狀 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第103-104頁 圖3.3

  8. z分數 z分數通常稱為標準化值(standardized value)。 每個 xi會有一個稱之為 z 分數(z -score)的數值與之對應。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第104-105頁

  9. z 分數 利用平均數與標準差,我們便能決定任何觀察值的相對位置。 資料集小於樣本平均數則 z分數小於 0。 資料集大於樣本平均數則 z分數大於 0。 資料集等於樣本平均數則 z分數等於 0。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第105頁

  10. 表 3.5 是班級人數資料的 z分數,之前算出平均數為 =44,樣本標準差為 s=8。第 5 個觀察值的 z分數為 -1.50,是離平均數最遠的資料值,比平均數小 1.50個標準差。 z分數實例 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第105頁 表3.5

  11. 柴比雪夫定理 在資料集內,至少有 (1 – 1/z2)百分比的觀察值與平均數的差距在 z個標準差之內,此處 z為任何大於 1 之值。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第105頁

  12. 柴比雪夫定理 至少有 0.75 或 75% 的觀察值,與平均數的差距在 z=2 個標準差之內。 至少有 0.89 或 89% 的觀察值,與平均數的差距在 z=3 個標準差之內。 至少有 0.94 或 94% 的觀察值,與平均數的差距在 z=4 個標準差之內。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第106頁

  13. 柴比雪夫定理實例 若某學院商用統計課程有 100 位學生修課,期中考成績之平均數為 70,標準差為 5。有多少學生的分數介於 60 與 80 之間?又有多少學生的分數介於 58 與 82 之間? 我們注意到 60 的值是小於平均數 2 個標準差,而80 則是大於平均數 2 個標準差。利用柴比雪夫定理,我們可看出至少 0.75 或至少75% 的觀察值與平均數的差距必須在2 個標準差之內。因此,100 個學生至少有75 人分數介於 60 與 80 之間。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第106頁

  14. 柴比雪夫定理實例 而分數介於 58 與 82 的人數又是多少?我們可看出 (58-70)/5=-2.4,表示58 是小於平均數 2.4 個標準差;而 (82-70)/5=+2.4,表示 82 大於平均數 2.4 個標準差。利用柴比雪夫定理 z=2.4,我們可得到 至少有82.6%的學生的分數必須介於58與82之間。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第106頁

  15. 經驗法則 • 針對鐘形分配的資料集而言: • 大約68%的觀察值與平均數的差距在1個標準差內。 • 大約95%的觀察值與平均數的差距在2個標準差內。 • 幾乎所有的觀察值與平均數的差距在3個標準差內。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第107頁

  16. 99.72% 95.44% 68.26% 經驗法則 x m m + 3s m – 3s m – 1s m + 1s m – 2s m + 2s 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第107頁 圖3.5

  17. 離群值的偵測 • 有時資料集會有一個或更多極大或極小的觀察值。此類極端觀察值為離群值(outliers)。 • 使用 z分數確認離群值時,觀察值之 z分數若小於−3或大於 +3,就是離群值。 • 離群值可能是 • 未被正確登錄的資料 • 被錯放在資料集 • 離群值若是登錄正確的資料,而且也屬於這個資料集的話,則必須保留。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第107-108頁

  18. 離群值的偵測 根據資料分析制定決策時,最好先檢查離群值。誤差通常產生自記錄資料,並將其輸入電腦時。並非一定要刪除離群值,但必須適當確認其正確性與適當性。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第107頁

  19. 離群值的偵測實例 參考表 3.5 的班級人數資料之 z分數,z分數為 − 1.50 表示第 5 個觀察值為離平均數最遠的值。然而,此標準化值仍在 − 3 到 +3 之間,因此, z分數顯示出在班級人數資料中並無離群值。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第108頁

  20. 評註 • 柴比雪夫定理適合用於任何的資料集,用來指出至少有多少個觀察值與平均數的差距在特定個標準差之內。若資料集已知為鐘形時,則會得到更多的訊息。例如,經驗法則告訴我們:有大約 95% 的觀察值與平均數的差距在兩個標準差之內;由柴比雪夫定理所得到的結論只是:至少有 75% 的觀察值會在上述的差距之內。 • 在分析一個資料集之前,統計學者通常做各種檢查以確信資料的有效性。在大型研究中,登錄資料或將資料鍵入電腦的過程中發生錯誤也很常見。確認離群值是檢查資料有效性的方法之一。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第108頁

  21. 五數彙總 • 五數彙總(five-number summary)是利用下列五個數來匯總資料。 • 最小值 • 第一四分位數 (Q1) • 中位數 (Q2) • 第三四分位數 (Q3) • 最大值 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第110頁

  22. 3310 3355 3450 3480 3480 3490 3520 3540 3550 3650 3730 3925 Q1=3465 Q2=3505 Q3=3600 (中位數) 五數彙總實例 以表 3.1 的起薪資料為例,可以得到下列結果。 由3.1節已知中位數為3905,Q1=3865且Q3=4000。檢視此資料集之最小值為3710,而最大值為4325。因此,此資料集之五數彙總為3710、3865、3905、4000、4325。大約有1/4或25% 的資料值會介於這五數的兩兩間隔之間。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第110頁

  23. 箱形圖 箱形圖(box plot)是根據五數彙總而繪製的圖形。 繪製箱形圖的關鍵在求出四分位數距 IQR=Q3-Q1。 箱形圖是另一種辨別離群值的方法。但是這種方法不見得會與用 z 分數找出的離群值相同。 運用兩種方法或只用任一種方法皆可行。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第110頁

  24. 箱形圖 圖3.6為每月起薪資料的箱形圖以及上、下界限。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第110頁 圖3.6

  25. 箱形圖 • 繪製箱形圖的步驟如下: • 箱形的製作以第一四分位數、第三四分位數為前後邊。以起薪資料為例,Q1=3865, Q3=4000,箱形包含中間50% 的資料。 • 箱形中的垂直線位置為中位數 (以起薪資料而言是 3905)。因此,中位數位置的直線將所有資料分割成兩等分。 • 使用四分位數距 IQR=Q3-Q1時,必須設定界限 (limits),箱形圖的界限分別位於 Q1之下1.5(IQR)或 Q3 之上1.5(IQR)。對起薪資料而言,IQR= Q3-Q1=4000-3865=135。因此,界限為 3865-1.5(135)=3662.5 與 4000+1.5(135)=4202.5。在界限之外的值為離群值。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第110頁

  26. 箱形圖 • 圖 3.6 的虛線稱之為鬚 (whiskers)。鬚的畫法是從步驟 3 中箱形的兩邊至界限內最大值與最小值,以圖 3.6 為例,分別是 3310 與 3730。 • 最後,以 * 表示離群值的位置;在圖 3.5 中,可看到一個離群值 3925。 • 圖 3.6 中有標示上、下界限的直線。這些線用來標示資料的範圍,雖然我們會算出這些數值,但在箱形圖中通常不會顯示出來。圖 3.7 是起薪資料的箱形圖的一般形式。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第111頁

  27. 箱形圖 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第111頁 圖3.7

  28. 評註 • 探究性資料分析過程的優點之一是容易使用;需要的計算很少,我們僅是將資料由小到大排序並找出中位數與第一四分位數、第三四分位數去獲得五數彙總,便可很容易地做出箱形圖,並不需要計算資料的平均數與標準差。 • 附錄 3.1 將說明如何以 Minitab 繪製起薪資料箱形圖,其箱形圖與圖 3.7 相似,只是圖形轉了 90°。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第112頁

  29. 共變異數 共變異數(covariance)是兩變數間線性相關的敘述量數。 共變異數為正值表示正相關。 共變異數為負值表示負相關。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第114頁

  30. 共變異數 樣本共變異數 母體共變異數 樣本共變異數 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第114-115頁

  31. 共變異數實例 回顧 2.4 節立體音響設備店的例子。該店的經理有興趣研究未來幾個週末的電視廣告與銷售量的關係,樣本資料列於表 3.6 中。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第114頁 表3.6

  32. 共變異數實例 圖 3.9 為兩變數的散布圖,其顯示出一種正向的關係:較高的銷售量 (y) 伴隨著較高的廣告次數 (x)。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第114頁 圖3.9

  33. 共變異數實例 為了測量廣告次數 x與銷售額 y的線性關係之強度,我們利用式(3.12)計算樣本共變異數。表3.7是 的計算過程。請注意 = 30/10=3且 =510/10=51,利用式(3.12),可得共變異數為 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第115頁

  34. 共變異數實例 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第115頁 表3.7

  35. 共變異數的意義 以圖3.10來解釋樣本共變異數。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第114頁 圖3.10

  36. 圖3.11 樣本共變異數的解釋 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第117頁 圖3.11

  37. 圖3.11 樣本共變異數的解釋 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第117頁 圖3.11

  38. 圖3.11 樣本共變異數的解釋 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第117頁 圖3.11

  39. 相關係數 相關係數的範圍由−1到+1。 樣本相關係數為+1代表兩變數 x與 y之間是完全正線性相關。 樣本相關係數為− 1代表兩變數 x 與 y 之間是完全負線性相關。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第119頁

  40. 相關係數 樣本資料 母體資料 相關係數 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第116-117.118頁

  41. 相關係數 相關係數讓我們瞭解兩個變數間線性相關的程度,而非因果關係存在與否。 兩變數間的高度相關並不表示兩變數間必然有因果關係。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第119頁

  42. 相關係數實例 以立體音響店的資料為例,求其樣本相關係數。利用表3.6的資料,我們便能計算兩變數的樣本標準差。 因為 sxy=11,可得到樣本相關係數為 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第117-118頁

  43. 相關係數的解釋 圖3.12的散佈圖是根據以下樣本資料而得。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第118頁

  44. 相關係數的解釋 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第119頁 圖3.12

  45. 相關係數的解釋 通過這三點的直線顯示變數 x與 y存在有完全線性相關。為了套用式(3.14)來計算樣本相關係數,要先算出 sxy、sx 與 sy,某些計算過程列在表3.8。運用表中的資料,我們發現因此,樣本相關係數為1。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第119-120頁

  46. 相關係數的解釋 假設某一特定資料集顯示 x與 y間有正線性相關但不是完全正線性相關,rxy之值將會小於1,表示在散布圖上的點並非全部落在一條直線上。當資料點愈來愈偏離完全正線性相關, rxy的值會愈變愈小。 rxy之值等於零表示 x與 y之間沒有線性關係,且 rxy之值接近零表示一種微弱的線性相關。 以立體音響店的資料為例, rxy=0.93,因此,我們的結論是:廣告次數與銷售量之間存在強大正的線性關係。更明確地說,廣告次數增加時,銷售量也增加。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第119頁

  47. 相關係數實例 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第114頁 表3.8

  48. 3.6 資料儀表板:增加數值量數以提升效能 資料儀表板不僅限於圖形顯示。 增加諸如關鍵績效指標 (key performance indicators, KPIs) 的平均值與標準差的數值量數到資料儀表板是很緊要的,因為數值量數可以作為評估 KPIs 的目標或標竿。 資料儀表板經常是互動式的。 向下鑽取 (drilling down) 是指互動式資料儀表板的功能,讓使用者可以在更細部的層次存取資訊、進行分析。 第3章 敘述統計:數值方法 Part B (3.3-3.6) 第121-125頁

  49. End of Chapter 3, Part B

More Related