230 likes | 317 Views
第一章. 認識統計. 1.1 統計有什麼用. 1.2 母體和樣本. 1.3 資料 的 蒐集方式. 1.1 統計有什麼用. 假設某大學一門通識課的 56 位同學學期成績如下 : 82 、 60 、 77 、 73 、 75 、 80 、 63 、 77 、 44 、 97 、 52 、 85 、 60 、 94 …… 同一門課另外一班 62 位同學的學期成績如下 : 43 、 70 、 20 、 70 、 43 、 74 、 61 、 81 、 32 、 90 、 80 、 70 、 60 、 60 …….
E N D
第一章 認識統計
1.1 統計有什麼用 1.2 母體和樣本 1.3 資料的蒐集方式
1.1 統計有什麼用 • 假設某大學一門通識課的 56 位同學學期成績如下: 82、60、77、73、75、80、63、77、44、97、52、 85、 60、94 …… • 同一門課另外一班 62 位同學的學期成績如下: 43、70、20、70、43、74、61、81、32、90、80、 70、60、60 …… 兩班同學的成績表現是否相近,要怎樣判斷呢?
1.1 統計有什麼用 像這樣沒有經過整理的數據,裡面所含的訊息躲在雜亂的數字背後,很難看得清楚,因此很難做比較;我們需要某種整理數據的方式,能夠把訊息清楚地呈現出來。比如,我們可以把分數分成若干區間:90 以上、80-89、70-79、等等,把兩班的分數分別歸類在各區間,並計算出落在每一個區 間的分數個數,再把兩班的結果利用表列,或直方圖表示出來。也可以分別計算出兩班分數的平均數和標準差之後再做比較。像上述這些使用圖、 表,或代表性數字來有效整理和呈現數據的方式,就是統計的第一種功能。
1.1 統計有什麼用 如果教育部想要知道大學生的打工情況,比如,在學期當中打工的大 學生,在全體大學生當中佔怎樣的比例,怎樣可以知道呢?當然教育部可以取得各校學生名單,然後一一詢問;但是人數太多了,很難確實執行。 另一個可能的做法就是抽出一部份學生 ( 樣本 ) 做調查,再根據從這個樣本所得到的結果,推估全體學生 ( 母體 ) 的狀況。像這樣由小推大、從樣本推母體,是統計的另一種主要功能。
1.1 統計有什麼用 • 以內容的份量來 說,敘述統計只佔了非常小的一部份,而這部份只包括整理和呈現數據, 使用到的數學也很簡單。 • 推論統計則需要依賴得自小小樣本的訊息,去推論出很大母體的狀 況,背後就有許多學問。
1.1 統計有什麼用 • 全台灣的大學生有多少?根據教育部網站的資料,97 學年度第一學期的日間部大學生,人數將近 79 萬。這樣龐大的一個母體要抽 取多大的樣本才夠?怎樣才能知道所抽出的樣本具有代表性呢?還有,如 果用樣本的訊息來估計母體狀況,是否有辦法可以評估誤差的大小? 這些問題都有答案, 而且都屬於推論統計的範圍
1.1 統計有什麼用 • 敘述統計的內容是「整理和呈現數據」 • 推論統計要做「推論」,從樣本推母體,內容包括如何蒐集數據 ( 用什 麼方式從母體抽樣本 ),並從數據當中找出有用的訊息。 • 我們可以這樣說:只要牽涉到數據,就需要用到統計;舉凡行銷研究、景氣預估、品質管制、河川流量分析、新藥療效評估、電腦輔助教學成效評估、失業率調 查、農作物改良評估等等,全都要依賴數據,因此全部都要使用統計。
1.2 母體和樣本 • 政府想要知道,台灣成年民眾當中,會用電腦的人所佔百分比,因 此做了抽樣調查,訪問到 1083 位成年人。這裡所考慮的母體和樣本 分別為: 母體: 樣本: 台灣所有的成年民眾 訪問到的 1083 位成年人
1.2 母體和樣本 • 生產某零件的工廠想要知道,一條新生產線所出產零件的瑕疵品比例是否符合標準,因此由品管工程師從整批零件中抽出一部份來檢 查。對品管工程師來說: 母體: 樣本: 整批零件 被抽出檢查的那些零件
1.2 母體和樣本 • 所有新藥在獲准上市之前,都必須經過嚴謹的測試程序,一旦安全 性和有效性都有合理的保障之後,就會進行臨床試驗,也就是在部 份病人身上所做的測試。測試成功之後,新藥獲准上市,就可以給 廣大有相同疾病的病人使用。對於這樣的測試來說: 母體: 樣本: 所有有同樣疾病的病人 參與臨床試驗試吃新藥的那些病人
1.2 母體和樣本 • 我們通常會對母體的某個數字感興趣,比如在例 1.2-1,我們想要知 道全台灣成年民眾當中,會使用電腦的人所佔之百分比,這種用來描述母 體的數字,叫做參數 (parameter)。 • 參數是一個固定的數,但是因為母體多 半很大、很難掌握,因此參數的值通常沒辦法知道。通常的做法是退而求 其次,從母體當中抽出一個樣本,然後計算出對應樣本的這個值,當作母 體參數的估計。這個根據樣本算出來的值,叫做統計量 (statistic)。
1.2 母體和樣本 • 以例 1.2-1 來說,無法知道全台灣成年民眾會使用電腦的人所佔百分比 ( 參數 ),因為全台灣成年民眾有一千多萬人,不可能問得到每一個 人。但是樣本當中只有 1083 位成年人,只要訪問完這些人,就可以得到樣本當中會使用電腦的比例 ( 統計量 ),而這個樣本比例可以當作母體比 例的一個估計值。統計量的值是會跟著樣本變動的,如果我們重新抽一次樣本,因為樣本的組成份子會改變,所以這個樣本比例的值也會跟著改變。
1.2 母體和樣本 • 例 1.2-2 :生產某零件的工廠想要知道,一條新生產線所出產零件的瑕疵品比例是否符合標準,因此由品管工程師從整批零件中抽出一部份來檢 查。對品管工程師來說: • 新生產線所出產零件的瑕疵品比例 • 整批零件中抽出來檢查的那部份零件當中之瑕疵品比例
1.2 母體和樣本 用來描述母體的數字。它是一個固定的數,然而因為母體多半很大,所以它的值通常沒辦法知道 是用來描述樣本的一個量。它是樣本的函數,一旦樣本抽出之後就可以計算出統計量的值。通常我們用統計量的值來估計未知參數的值
1.2 母體和樣本 通常,我們說「資料」時,所包括的範圍比「數據」要廣,因為有些資料並不是以數據表示的。像星座、血型這類只是分類的資料,叫做類別資料 (categorical data,也稱分類資料或名目資料 )。 其他的例子包括性別、宗教信仰,以 及購買樂透彩時是否用電腦選號 ( 只分「是」或「否」兩類 ) 等等。
1.3 資料的蒐集方式 類別 資料 即便類別資料本身不是數據,但是在整理和分析類別資料時, 通常我們最關心的訊息,就是每一類所佔的百分比,而百分比 本身是數據。 所以處理類別資料時一定也會用到數據,故仍屬於統計的 範圍。 當我們說:「統計是從數據當中尋找訊息的科學」時,這裡的「 數據」是做廣義的解釋,類別資料也包括在內。
1.3 資料的蒐集方式 • 統計既然是從數據當中尋找訊息的科學,在分析數據、找出有用的 訊息之後,還可能根據這些訊息做出重要的判斷,則數據的「品質」就非 常重要,必須給予特別的關注。 • 數 據的品質好壞要如何判斷?主要的判斷依據在於數據是如何取得的。
1.3 資料的蒐集方式 • 想要取得適當的樣本,就必須用正確的抽樣方式。 • 怎樣才可以避免人為因素,選出客觀的樣本呢? 使用隨機方式。常用的隨機抽樣方式有許多種,其中最基本, 也最容易了解的一種叫 做簡單隨機抽樣,所抽出的樣本叫做簡 單隨機樣本。 大樂透開獎時,是從49 個號碼球當中隨機抽出 6 個 ( 不計入特 別號 );49 個號碼球的材質、重 量、形狀等都盡量做得一模一 樣,使得每個球被抽出的機會均等,也因此 使得任意 6 個號碼 的組合開出來的機會都一樣。所以每一期開出的 6 個號碼,都 可以視為從 1 到 49 的 49 個號碼之母體當中抽出的簡單隨機樣本
1.3 資料的蒐集方式 簡單 隨機 樣本 當一個樣本當中共包含 n 個個體時, 我們稱樣本大小為 n。 例如一項民調若成功訪問了 1083 個人,則這項民調的樣本大小就等於 1083。
1.3 資料的蒐集方式 真實人生中的抽樣調查,母體 往往非常大,若要抽取 簡單隨機樣本,幾乎不可能執行。以全台灣的成年 民 眾來說,人數在一千六百萬附近,即便有辦法抽出兩 千人的簡單隨機樣 本,要連絡上這兩千人,就不知需 要花費多少人力和時間了。 因此,專業的民調機構會發展出較易執行的抽樣方式, 可能分階段抽樣,並且混合使 用好幾種不同的隨機抽樣 方式。以台灣的媒體民調來看,最常用的就是隨 機抽取 電話號碼,因為這是最容易執行的方式。