320 likes | 514 Views
第十章 估計. 點估計與區間估計. 推論統計的理論乃在根據樣本的訊息,猜測母體的特性或參數。主要的推論型式是參數(母數)的估計與假設的檢定,參數的估計又可分為 點估計( point estimation ):根據樣本資料,求得一統計量的觀測值,作為參數(母數)的估計值。 區間估計( interval estimation ):根據樣本資料,求得兩個數值,構成一個信賴區間( confidence interval , C. I. ),概括出參數(母數)的可能範圍。
E N D
點估計與區間估計 • 推論統計的理論乃在根據樣本的訊息,猜測母體的特性或參數。主要的推論型式是參數(母數)的估計與假設的檢定,參數的估計又可分為 • 點估計(point estimation):根據樣本資料,求得一統計量的觀測值,作為參數(母數)的估計值。 • 區間估計(interval estimation):根據樣本資料,求得兩個數值,構成一個信賴區間(confidence interval,C. I.),概括出參數(母數)的可能範圍。 • 點估計之優點為算法簡單,意義簡單明瞭;但其缺點為無法判斷估計結果的準確性,且其估計值會因樣本不同而有所差異。所以才會有區間估計之推出。 • 假定,我們估計全體大學生平均每月可用零用金為5000元,那是點估計,該估計為單一數值,可視為線上的一點;若我們估計全體大學生平均每月可用零用金介於4000~6000元,那就是區間估計,因為涉及兩點,可視為線上的一個區段。
母體平均數μ的估計 • 實務上,最常碰到對母體均數μ的估計。如:大學生的平均智商、平均成績、平均身高、每月平均可用零用金、平均手機的使用月費;國民平均所得、工廠的平均生產數量、百貨公司的平均營業額、每戶家庭每月的平均支出、……。 • 估計母體平均數μ的方法可為:樣本中位數、中距()與平均數。其中,以樣本平均數為最優,因其具有不偏性與一致性,且變方最小。
大樣本時 • 若樣本數n>30,則以其為μ的點估計。若樣本數n>30,且母體變異數σ2已知,則以 為μ的100(1-α)%之信賴區間。 • 但實務上,母體變異數σ2通常未知,當樣本數n>30,可以樣本標準差S來取代母體標準差σ。故以 為μ的100(1-α)%之信賴區間。
而即我們可容忍的誤差(e)。所以,我們於第四章計算樣本大小時,就是將簡化成來計算樣本數。而即我們可容忍的誤差(e)。所以,我們於第四章計算樣本大小時,就是將簡化成來計算樣本數。 • 式中,Zα/2值可用Excel之NORMSINV()函數來求算(詳第三章之說明),其公式應為:=NORMSINV(1-α/2)以α=0.05時為例,其Zα/2值為1.96:(詳範例Ch10.xlsx『依α査Z值』工作表)
未分組資料 • 若資料為未分組之數值資料,可直接以AVERAGE()與STDEV()來求算樣本均數與標準差。續代入先前之求得μ的點估計與信賴區間。 • 以範例Ch10.xlsx『飲料花費』工作表內容言,其飲料花費μ的點估計為83.225元;μ的95%信賴區間為即71.83~94.62元。我們可以說,有95%的信賴水準,母體(全體大學生)的一週飲料花費會落在71.83~94.62元:轉為媒體上所常用之口語,就是:此次調查之結果,全體大學生的一週飲料平均花費為83.225元,於95%信賴水準之下,其誤差不會超過±11.39元。
其內,信賴區間之上下限的公式,於F12與G12分別為:其內,信賴區間之上下限的公式,於F12與G12分別為: F12 =$F$2-NORMSINV(1-$E12/2)*$F$3/SQRT($F$4) G12 =$F$2+NORMSINV(1-$E12/2)*$F$3/SQRT($F$4) 然後,將F12:G12,抄給F13:G14即可。 • 若依不同之顯著水準求算,其信賴區間分別為: α 信賴區間 0.10 75.20~92.54 0.05 73.54~94.20 0.01 70.30~97.44 可發現,顯著水準愈小(信賴水準愈大),信賴區間將愈大。
馬上練習 • 以範例Ch10.xlsx『運動時間』工作表內容,求α=0.05時,大學生每週運動時間之均數μ的點估計及其95%信賴區間。
馬上練習 • 續上題,求α=0.01、α=0.05與α=0.1時,運動時間之均數μ的信賴區間分別為何?
信賴區間之範圍CONFIDENCE() CONFIDENCE(α,σ,n) CONFIDENCE(顯著水準,標準差,樣本數) • 本函數可傳回母體平均數的信賴區間之範圍,α為顯著水準,α=0.05時表求算95%信賴區間之範圍。σ為母體標準差,n為樣本數。 • 若處理對象為常態分配,母體標準差(σ)已知,其計算公式為:實務上,很少會已知母體標準差,就以樣本標準差來替代。其計算公式為:故其μ的100(1-α)%之信賴區間為:
馬上練習 • 依範例Ch10.xlsx『成績』工作表內容,求α=0.05時,成績均數μ的點估計,並以CONFIDENCE()求其95%信賴區間。
分組資料 • 對問卷上,採用勾填某一區間所獲得之數字。如: 請問您整個家庭月所得狀況: □1. 5萬元以下 □2. 5至10萬元 □3. 10至15萬元 □4. 15至20萬元 □5. 20萬元以上 • 得將其轉為組中點(25000,75000,…,225000),再計算其均數、變異數與標準差。然後,即可使用前文之相同公式來求其點估計及區間估計。 • 以範例Ch10.xlsx『分組資料-所得』工作表之資料,其毎月所得之均數μ的點估計為87500,其95%信賴區間為87500 ± 11091.876408~98592
馬上練習 • 以範例Ch10.xlsx『分組資料--每月零用金』工作表內容,求每月零用金之均數μ的點估計及其95%信賴區間。毎月零用金之均數μ的點估計為5696,其95%信賴區間為4977.67~6413.64。
敘述統計 • 假定,以範例Ch10.xlsx『飲料花費-敘述統計』工作表之資料 擬使用『資料分析』之「敘述統計」,來計算飲料花費之各敘述統計值。其處理步驟為: • 切換到『資料』索引標籤, 點選『分析』群組『資料分析』指令按鈕, 於『分析工具』處選「敘述統計」
按鈕 • 於『輸入範圍』處,以選取方式設定要處理之資料範圍(B1:B201) • 於『分組方式』選「循欄」 • 點選「類別軸標記是在第一列上(L)」(因資料含『一週飲料花費』之字串標記) • 設定輸出範圍,本例安排於目前工作表之D1位置 • 點選「摘要統計(S)」 • 點選「平均數信賴度(N)」,設定「95%」
按 鈕結束,即可獲致詳細之相關統計數字。其內之『信賴度(95%)』即容忍誤差,也就是本例之信賴區間應為83.225±11.46與前文之83.225±11.39雖有些許誤差,但應是運算中小數點四捨五入所造成。
以資料庫統計函數求信賴區間 • 若要求以性別、部門、…等,分組後之母體均數的點估計與區間估計,可使用DAVERAGE()、DSTDEV()與DCOUNT()統計函數,來依準則求平均數、標準差與樣本數,然後即可使用前文相同之公式,來求其母體均數μ之點估計及區間估計。 • 以範例Ch10.xlsx『依性別求飲料花費』工作表之資料言,其男/女之母體均數μ及其95%信賴區間的估計值分別為: 組別 μ 95%信賴區間 男 93.29 72.93~113.65 女 77.44 63.80~91.00 全體 83.22 71.83~94.62 看起來,男性一週飲料平均費用要比女生高些,且因變異較大,其95%信賴區間範圍也較大些。
馬上練習 • 依範例Ch10.xlsx『依性別求運動時間』工作表內容,計算出男/女性及全體運動時間之母體均數μ及其95%信賴區間的估計值。
小樣本時 • 若母體為常態分配,樣本數n<30,仍以其為μ的點估計。若母體為常態分配,樣本數n<30,且母體變異數σ2已知,則以為μ的100(1-α)%之信賴區間。 • 但實務上,母體變異數σ2通常未知,當樣本數n<30,因為樣本太小,樣本標準差S的變化會較大,就不可以樣本標準差S來取代母體標準差σ。故以為μ的100(1-α)%之信賴區間。
式中, 為查『附錄四 t方分配的臨界值』自由度為n-1時之t值。由於t值比z值來得大,故所求得之估計區間會加大一點,可以確保原有的信賴度。(以小樣本推估母體,本就較為不準,故得將估計區間放寬一點) • 於Excel,t值可用TINV()函數來求算(詳下文說明),以n為11,自由度為10(t分配之自由度為n-1),α=0.05時為例,其 值為2.228:(詳範例Ch10.xlsx『t分配表』工作表)
假定,範例Ch10.xlsx『成績-小樣本』工作表內,A1:H9為全班之72人之成績(母體),隨機抽取11人(加網底之儲存格),計算出其樣本均數(75.45)、標準差(11.53)及其95%信賴區間:=75.45±7.74=67.71~83.20比於C17:C18以母體資料所計算出之73.32~79.57來得更寬,故更有把握母體均數μ能有95%的信賴度可落在67.71~83.20:假定,範例Ch10.xlsx『成績-小樣本』工作表內,A1:H9為全班之72人之成績(母體),隨機抽取11人(加網底之儲存格),計算出其樣本均數(75.45)、標準差(11.53)及其95%信賴區間:=75.45±7.74=67.71~83.20比於C17:C18以母體資料所計算出之73.32~79.57來得更寬,故更有把握母體均數μ能有95%的信賴度可落在67.71~83.20:
t分配TDIST() TDIST(t,自由度,單尾或雙尾) TDIST(t,degrees_freedom,tails) • t是要用來計算累計機率之t值。 • 自由度(d.f.,degrees of freedom)是指一統計量中各變量可以自由變動的個數,當統計量中每多一個限制條件(即,已知條件),自由度就減少一個。(t分配之自由度為樣本數減1,n-1) • 單尾或雙尾指定要傳回單尾或雙尾之累計機率值?為1,表傳回單尾之累計機率值;為2,表傳回雙尾之累計機率值。 • 本函數在求:於某一自由度下之t分配中,求t值以外之右尾的總面積(機率)。如為單尾,即求下圖之陰影部份:
如為雙尾,即求左右兩尾之陰影部份:t分配之圖形及機率值,將隨自由度不同而略有不同。以自由度為10之情況下,不同t值所求得之單尾及雙尾累計機率分別為:(詳範例Ch10.xlsx『TDIST』工作表)
t分配反函數TINV() TINV(累計機率,自由度) TINV(probability,degrees_freedom) • 用以於已知自由度之t分配中,求某累計機率所對應之t值。此t為依雙尾累計機率所求;若要求單尾之t值,得將累計機率乘以2。 • 由於t分配之圖形及機率值,將隨自由度不同而略有不同。範例Ch10.xlsx『TINV』工作表,是以自由度為10之情況下,所求得之結果。如:雙尾機率5%之t值為2.228,其求算之公式為:=TINV(5%,10)=TINV(G5,$B$1)有了此函數,即可省去查t分配表之麻煩:
馬上練習 • 以範例Ch10.xlsx『t值』工作表內容,安排d.f.為1~15之情況下,單尾機率為25%、10%、5%、2.5%、1%與0.5%之t值:
馬上練習 • 依範例Ch10.xlsx『外食費用-小樣本』工作表內容,計算大學生每月在外面吃飯費用之母體均數μ及其95%信賴區間的估計值。 大學生每月在外面吃飯費用之均數為:6026.67,其95%信賴區間為:4432.13~7621.20。
母體比例p的估計 • 實務上,也經常要估計母體比例p。如:估計平均失業率、產品不良率、品牌佔有率、政策支持率、候選人支持率、政黨支持率、數位相機擁有率、個人電腦擁有率、……。 • 若樣本數n>30,則以其樣本比率為母體比例p的點估計。母體比例p的100(1-α)%之信賴區間為: • 其中, 即我們可容忍的誤差(e)。所以,我們於第四章計算樣本大小時,就是將其簡化成 來計算樣本數。
式中,Zα/2值可用Excel之NORMSINV()函數來求算,以α=0.05時為例,其Zα/2值為1.96。式中,Zα/2值可用Excel之NORMSINV()函數來求算,以α=0.05時為例,其Zα/2值為1.96。 • 以範例Ch10.xlsx『政黨支持率』工作表之資料,調查1000位受訪者中有228個支持執政黨,其樣本比率為22.8%,則母體比例p的95%之信賴區間為20.20%~25.40%:=22.8%±2.60%=20.20%~25.40%如果以口語化講,就是:此次調查民進黨的支持率為22.8%,在95%的信賴水準下,調查的誤差不超過±2.60%。
馬上練習 • 以範例Ch10.xlsx『數位相機擁有率』工作表內容,求數位相機母體擁有率p的點估計及其95%信賴區間。 此次調查位相機擁有率為33.7%,在95%的信賴水準下,調查的誤差不超過±9.36%。