數據分析及表達
This presentation is the property of its rightful owner.
Sponsored Links
1 / 29

楊良河博士 香港大學統計及精算學系 PowerPoint PPT Presentation


  • 91 Views
  • Uploaded on
  • Presentation posted in: General

數據分析及表達. 楊良河博士 香港大學統計及精算學系. 香港統計學會. 展開統計研究的主要步驟. 大功告成. 選擇研究主題的要訣. 腦震蕩 (brainstorming) 得出一些有興趣的題材 同學分組或個別搜集可能有用的數據 對每個題材,同學提出批評及比較 數據足夠嗎? 題 目 太廣泛? 題 目 太高深? 擬定研究主題及目的 擬定工作時間表及分工. 數據分析. 將所得的數據以統計數字、圖表的形式表達出來。 統計數字、圖表亦可利用文字加以綜合分析。. 製作圖表. 利用不同的 圖表 ,找出資料之間的 關係 : 棒形圖 :易於看出各部分頻數之間的差異

Download Presentation

楊良河博士 香港大學統計及精算學系

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


5714976

數據分析及表達

楊良河博士香港大學統計及精算學系

香港統計學會


5714976

展開統計研究的主要步驟

大功告成


5714976

選擇研究主題的要訣

  • 腦震蕩(brainstorming)得出一些有興趣的題材

  • 同學分組或個別搜集可能有用的數據

  • 對每個題材,同學提出批評及比較

    • 數據足夠嗎?

    • 題目太廣泛?

    • 題目太高深?

  • 擬定研究主題及目的

  • 擬定工作時間表及分工


5714976

數據分析

  • 將所得的數據以統計數字、圖表的形式表達出來。

  • 統計數字、圖表亦可利用文字加以綜合分析。


5714976

製作圖表

利用不同的圖表,找出資料之間的關係:

  • 棒形圖:易於看出各部分頻數之間的差異

  • 折線圖:顯示數據的變化情況,幫助推測變化趨勢

  • 圓形圖:較清晰的表明部分佔整體的百分數


Bar chart

棒形圖Bar Chart

來源:政府統計處文章:住戶用於電子產品、美容健身及補習方面的開支顯著增加


100 100 stacked bar chart

100%堆積棒形圖100% Stacked Bar Chart

來源:政府統計處文章:港人傾向組織小家庭


5714976

人口金字塔

來源:香港的發展(1967-2007) -統計圖表集


5714976

折線圖VIX走勢

來源:信報 2011年10月10日


5714976

誤導性的統計圖


5714976

誤導性的統計圖


5714976

圓形圖按年齡組別劃分的年中人口


5714976

簡單的數據描述方法

數據描述方法

集中趨勢

離散程度

其他位置

Mean

Range

Percentiles

Median

Interquartile Range

Quartiles

Mode

Variance

Standard Deviation


5714976

集中趨勢

集中趨勢

眾數Mode

平均值Mean

中位數Median


Shape of a distribution

分布形狀Shape of a Distribution

  • 描述數據如何分布

  • 對稱(symmetric) 或偏歪(skewed)

Right-Skewed

Symmetric

Left-Skewed

Mean < Median

Mean = Median

Median <Mean

(Longer tail extends to left)

(Longer tail extends to right)


Other location measures

其他位置測量Other Location Measures

The pth percentile in a data array:

  • p% are less than or equal to this value

  • (100 – p)% are greater than or equal to this value

    (where 0 ≤ p ≤ 100)

其他位置測量

百分位數Percentiles

四分位數Quartiles

  • 1st quartile = 25th percentile (Q1)

  • 2nd quartile = 50th percentile (Q2)

    = median

  • 3rd quartile = 75th percentile (Q3)


Box and whisker plot

框線圖 Box and Whisker Plot

Left-Skewed

Symmetric

Right-Skewed

Q1

Q2

Q3

Q1

Q2

Q3

Q1

Q2

Q3


Box and whisker plot1

框線圖 Box and Whisker Plot


5714976

離散程度

離散程度

Range

Variance

Standard Deviation

Population

Standard

Deviation

Interquartile

Range

Population

Variance

Sample

Variance

Sample

Standard

Deviation


5714976

測量數據的變異

離散程度


Interquartile range

四分位數間距Interquartile Range

例子:

Median

(Q2)

X

X

Q1

Q3

maximum

minimum

25% 25% 25% 25%

12 30 45 57 70

Interquartile range

= 57 – 30 = 27


5714976

小心運用統計數據

  • 例如根據香港撒瑪利亞防止自殺會2008年報,在2008年,香港的自殺死亡數字總數是1001人,其中的319人年齡是在60歲或以上。

  • 若果我們單從上述數字作表面分析,超過三成的自殺者是60歲或以上的老人,很可能會認為老人自殺的情況已到了非常嚴重的地步!

  • 若以「年齡組別自殺率」來看,在該年齡組別的自殺人數只是每萬名人口中約有2.6個,並非如數字表面般嚇人。當然,老人自殺的情況仍是值得關注。


5714976

小心合併兩組數據

  • 假設今有甲、乙兩所高中,甲校參加大學入學考試的學生中,文科生有400人、理科生100人;乙校參加大學入學考試的學生中,文科生有100人、理科生400人。

  • 考慮兩校的大學取錄率,

    • 甲校的大學取錄率文、理科生依序為40%、60%

    • 乙校的大學取錄率文、理科生依序為30%、50%

  • 乍看之下,乙校整體的大學取錄率似乎較低,但經過仔細計算:

    • 甲校的大學取錄率為 (400x0.4 + 100x0.6)/500 = 44%

    • 乙校的大學取錄率為 (100x0.3 + 400x0.5)/500 = 46%

    • 反而乙校整體的大學取錄率比甲校高。


5714976

小心合併兩組數據

  • 那麼讀那學校入大學最好呢?

  • 辛普森悖論(Simpson's Paradox)

    • 即在某個條件下的兩組數據,分別討論時都會滿足某種性質,可是一旦合併考慮,卻可能導致相反的結論。


Garbage in garbage out

Garbage In Garbage Out

No Copy!!!


5714976

Talent wins games, but teamwork and intelligence wins championships


5714976

記住參加中學生統計習作比賽


  • Login