1 / 29

楊良河博士 香港大學統計及精算學系

數據分析及表達. 楊良河博士 香港大學統計及精算學系. 香港統計學會. 展開統計研究的主要步驟. 大功告成. 選擇研究主題的要訣. 腦震蕩 (brainstorming) 得出一些有興趣的題材 同學分組或個別搜集可能有用的數據 對每個題材,同學提出批評及比較 數據足夠嗎? 題 目 太廣泛? 題 目 太高深? 擬定研究主題及目的 擬定工作時間表及分工. 數據分析. 將所得的數據以統計數字、圖表的形式表達出來。 統計數字、圖表亦可利用文字加以綜合分析。. 製作圖表. 利用不同的 圖表 ,找出資料之間的 關係 : 棒形圖 :易於看出各部分頻數之間的差異

fruma
Download Presentation

楊良河博士 香港大學統計及精算學系

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 數據分析及表達 楊良河博士香港大學統計及精算學系 香港統計學會

  2. 展開統計研究的主要步驟 大功告成

  3. 選擇研究主題的要訣 • 腦震蕩(brainstorming)得出一些有興趣的題材 • 同學分組或個別搜集可能有用的數據 • 對每個題材,同學提出批評及比較 • 數據足夠嗎? • 題目太廣泛? • 題目太高深? • 擬定研究主題及目的 • 擬定工作時間表及分工

  4. 數據分析 • 將所得的數據以統計數字、圖表的形式表達出來。 • 統計數字、圖表亦可利用文字加以綜合分析。

  5. 製作圖表 利用不同的圖表,找出資料之間的關係: • 棒形圖:易於看出各部分頻數之間的差異 • 折線圖:顯示數據的變化情況,幫助推測變化趨勢 • 圓形圖:較清晰的表明部分佔整體的百分數

  6. 棒形圖Bar Chart 來源:政府統計處文章:住戶用於電子產品、美容健身及補習方面的開支顯著增加

  7. 100%堆積棒形圖100% Stacked Bar Chart 來源:政府統計處文章:港人傾向組織小家庭

  8. 人口金字塔 來源:香港的發展(1967-2007) -統計圖表集

  9. 折線圖VIX走勢 來源:信報 2011年10月10日

  10. 誤導性的統計圖

  11. 誤導性的統計圖

  12. 圓形圖按年齡組別劃分的年中人口

  13. 簡單的數據描述方法 數據描述方法 集中趨勢 離散程度 其他位置 Mean Range Percentiles Median Interquartile Range Quartiles Mode Variance Standard Deviation

  14. 集中趨勢 集中趨勢 眾數Mode 平均值Mean 中位數Median

  15. 分布形狀Shape of a Distribution • 描述數據如何分布 • 對稱(symmetric) 或偏歪(skewed) Right-Skewed Symmetric Left-Skewed Mean < Median Mean = Median Median <Mean (Longer tail extends to left) (Longer tail extends to right)

  16. 其他位置測量Other Location Measures The pth percentile in a data array: • p% are less than or equal to this value • (100 – p)% are greater than or equal to this value (where 0 ≤ p ≤ 100) 其他位置測量 百分位數Percentiles 四分位數Quartiles • 1st quartile = 25th percentile (Q1) • 2nd quartile = 50th percentile (Q2) = median • 3rd quartile = 75th percentile (Q3)

  17. 框線圖 Box and Whisker Plot Left-Skewed Symmetric Right-Skewed Q1 Q2 Q3 Q1 Q2 Q3 Q1 Q2 Q3

  18. 框線圖 Box and Whisker Plot

  19. 離散程度 離散程度 Range Variance Standard Deviation Population Standard Deviation Interquartile Range Population Variance Sample Variance Sample Standard Deviation

  20. 測量數據的變異 離散程度

  21. 四分位數間距Interquartile Range 例子: Median (Q2) X X Q1 Q3 maximum minimum 25% 25% 25% 25% 12 30 45 57 70 Interquartile range = 57 – 30 = 27

  22. 小心運用統計數據 • 例如根據香港撒瑪利亞防止自殺會2008年報,在2008年,香港的自殺死亡數字總數是1001人,其中的319人年齡是在60歲或以上。 • 若果我們單從上述數字作表面分析,超過三成的自殺者是60歲或以上的老人,很可能會認為老人自殺的情況已到了非常嚴重的地步! • 若以「年齡組別自殺率」來看,在該年齡組別的自殺人數只是每萬名人口中約有2.6個,並非如數字表面般嚇人。當然,老人自殺的情況仍是值得關注。

  23. 小心合併兩組數據 • 假設今有甲、乙兩所高中,甲校參加大學入學考試的學生中,文科生有400人、理科生100人;乙校參加大學入學考試的學生中,文科生有100人、理科生400人。 • 考慮兩校的大學取錄率, • 甲校的大學取錄率文、理科生依序為40%、60% • 乙校的大學取錄率文、理科生依序為30%、50% • 乍看之下,乙校整體的大學取錄率似乎較低,但經過仔細計算: • 甲校的大學取錄率為 (400x0.4 + 100x0.6)/500 = 44% • 乙校的大學取錄率為 (100x0.3 + 400x0.5)/500 = 46% • 反而乙校整體的大學取錄率比甲校高。

  24. 小心合併兩組數據 • 那麼讀那學校入大學最好呢? • 辛普森悖論(Simpson's Paradox) • 即在某個條件下的兩組數據,分別討論時都會滿足某種性質,可是一旦合併考慮,卻可能導致相反的結論。

  25. Garbage In Garbage Out No Copy!!!

  26. Talent wins games, but teamwork and intelligence wins championships

  27. 記住參加中學生統計習作比賽

More Related