1 / 31

第十章 估計

第十章 估計. 點估計與區間估計. 推論統計的理論乃在根據樣本的訊息,猜測母體的特性或參數。主要的推論型式是參數(母數)的估計與假設的檢定,參數的估計又可分為 點估計( point estimation ):根據樣本資料,求得一統計量的觀測值,作為參數(母數)的估計值。 區間估計( interval estimation ):根據樣本資料,求得兩個數值,構成一個信賴區間( confidence interval , C. I. ),概括出參數(母數)的可能範圍。

Download Presentation

第十章 估計

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第十章 估計

  2. 點估計與區間估計 • 推論統計的理論乃在根據樣本的訊息,猜測母體的特性或參數。主要的推論型式是參數(母數)的估計與假設的檢定,參數的估計又可分為 • 點估計(point estimation):根據樣本資料,求得一統計量的觀測值,作為參數(母數)的估計值。 • 區間估計(interval estimation):根據樣本資料,求得兩個數值,構成一個信賴區間(confidence interval,C. I.),概括出參數(母數)的可能範圍。 • 點估計之優點為算法簡單,意義簡單明瞭;但其缺點為無法判斷估計結果的準確性,且其估計值會因樣本不同而有所差異。所以才會有區間估計之推出。 • 假定,我們估計全體大學生平均每月可用零用金為5000元,那是點估計,該估計為單一數值,可視為線上的一點;若我們估計全體大學生平均每月可用零用金介於4000~6000元,那就是區間估計,因為涉及兩點,可視為線上的一個區段。

  3. 母體平均數μ的估計 • 實務上,最常碰到對母體均數μ的估計。如:大學生的平均智商、平均成績、平均身高、每月平均可用零用金、平均手機的使用月費;國民平均所得、工廠的平均生產數量、百貨公司的平均營業額、每戶家庭每月的平均支出、……。 • 估計母體平均數μ的方法可為:樣本中位數、中距()與平均數。其中,以樣本平均數為最優,因其具有不偏性與一致性,且變方最小。

  4. 大樣本時 • 若樣本數n>30,則以其為μ的點估計。若樣本數n>30,且母體變異數σ2已知,則以 為μ的100(1-α)%之信賴區間。 • 但實務上,母體變異數σ2通常未知,當樣本數n>30,可以樣本標準差S來取代母體標準差σ。故以 為μ的100(1-α)%之信賴區間。

  5. 而即我們可容忍的誤差(e)。所以,我們於第四章計算樣本大小時,就是將簡化成來計算樣本數。而即我們可容忍的誤差(e)。所以,我們於第四章計算樣本大小時,就是將簡化成來計算樣本數。 • 式中,Zα/2值可用Excel之NORMSINV()函數來求算(詳第三章之說明),其公式應為:=NORMSINV(1-α/2)以α=0.05時為例,其Zα/2值為1.96:(詳範例Ch10.xlsx『依α査Z值』工作表)

  6. 未分組資料 • 若資料為未分組之數值資料,可直接以AVERAGE()與STDEV()來求算樣本均數與標準差。續代入先前之求得μ的點估計與信賴區間。 • 以範例Ch10.xlsx『飲料花費』工作表內容言,其飲料花費μ的點估計為83.225元;μ的95%信賴區間為即71.83~94.62元。我們可以說,有95%的信賴水準,母體(全體大學生)的一週飲料花費會落在71.83~94.62元:轉為媒體上所常用之口語,就是:此次調查之結果,全體大學生的一週飲料平均花費為83.225元,於95%信賴水準之下,其誤差不會超過±11.39元。

  7. 其內,信賴區間之上下限的公式,於F12與G12分別為:其內,信賴區間之上下限的公式,於F12與G12分別為: F12 =$F$2-NORMSINV(1-$E12/2)*$F$3/SQRT($F$4) G12 =$F$2+NORMSINV(1-$E12/2)*$F$3/SQRT($F$4) 然後,將F12:G12,抄給F13:G14即可。 • 若依不同之顯著水準求算,其信賴區間分別為: α 信賴區間 0.10 75.20~92.54 0.05 73.54~94.20 0.01 70.30~97.44 可發現,顯著水準愈小(信賴水準愈大),信賴區間將愈大。

  8. 馬上練習 • 以範例Ch10.xlsx『運動時間』工作表內容,求α=0.05時,大學生每週運動時間之均數μ的點估計及其95%信賴區間。

  9. 馬上練習 • 續上題,求α=0.01、α=0.05與α=0.1時,運動時間之均數μ的信賴區間分別為何?

  10. 信賴區間之範圍CONFIDENCE() CONFIDENCE(α,σ,n) CONFIDENCE(顯著水準,標準差,樣本數) • 本函數可傳回母體平均數的信賴區間之範圍,α為顯著水準,α=0.05時表求算95%信賴區間之範圍。σ為母體標準差,n為樣本數。 • 若處理對象為常態分配,母體標準差(σ)已知,其計算公式為:實務上,很少會已知母體標準差,就以樣本標準差來替代。其計算公式為:故其μ的100(1-α)%之信賴區間為:

  11. 如範例Ch10.xlsx『直接以CONFIDENCE()求算飲料花費區間』工作表,其資料內容同於前文『飲料花費』工作表。以AVERAGE()、STDEV()與COUNT()求得均數、標準差與樣本數。然後,於F6再以=CONFIDENCE(F5,F3,F4)求信賴區間之範圍,可省去以=NORMSINV(1-α/2)計算Zα/2值之步驟。所求得之95%信賴區間同樣為71.83~94.62:

  12. 馬上練習 • 依範例Ch10.xlsx『成績』工作表內容,求α=0.05時,成績均數μ的點估計,並以CONFIDENCE()求其95%信賴區間。

  13. 分組資料 • 對問卷上,採用勾填某一區間所獲得之數字。如: 請問您整個家庭月所得狀況: □1. 5萬元以下 □2. 5至10萬元 □3. 10至15萬元 □4. 15至20萬元 □5. 20萬元以上 • 得將其轉為組中點(25000,75000,…,225000),再計算其均數、變異數與標準差。然後,即可使用前文之相同公式來求其點估計及區間估計。 • 以範例Ch10.xlsx『分組資料-所得』工作表之資料,其毎月所得之均數μ的點估計為87500,其95%信賴區間為87500 ± 11091.876408~98592

  14. 馬上練習 • 以範例Ch10.xlsx『分組資料--每月零用金』工作表內容,求每月零用金之均數μ的點估計及其95%信賴區間。毎月零用金之均數μ的點估計為5696,其95%信賴區間為4977.67~6413.64。

  15. 敘述統計 • 假定,以範例Ch10.xlsx『飲料花費-敘述統計』工作表之資料 擬使用『資料分析』之「敘述統計」,來計算飲料花費之各敘述統計值。其處理步驟為: • 切換到『資料』索引標籤, 點選『分析』群組『資料分析』指令按鈕, 於『分析工具』處選「敘述統計」

  16. 按鈕 • 於『輸入範圍』處,以選取方式設定要處理之資料範圍(B1:B201) • 於『分組方式』選「循欄」 • 點選「類別軸標記是在第一列上(L)」(因資料含『一週飲料花費』之字串標記) • 設定輸出範圍,本例安排於目前工作表之D1位置 • 點選「摘要統計(S)」 • 點選「平均數信賴度(N)」,設定「95%」

  17. 鈕結束,即可獲致詳細之相關統計數字。其內之『信賴度(95%)』即容忍誤差,也就是本例之信賴區間應為83.225±11.46與前文之83.225±11.39雖有些許誤差,但應是運算中小數點四捨五入所造成。

  18. 以資料庫統計函數求信賴區間 • 若要求以性別、部門、…等,分組後之母體均數的點估計與區間估計,可使用DAVERAGE()、DSTDEV()與DCOUNT()統計函數,來依準則求平均數、標準差與樣本數,然後即可使用前文相同之公式,來求其母體均數μ之點估計及區間估計。 • 以範例Ch10.xlsx『依性別求飲料花費』工作表之資料言,其男/女之母體均數μ及其95%信賴區間的估計值分別為: 組別 μ 95%信賴區間 男 93.29 72.93~113.65 女 77.44 63.80~91.00 全體 83.22 71.83~94.62 看起來,男性一週飲料平均費用要比女生高些,且因變異較大,其95%信賴區間範圍也較大些。

  19. 馬上練習 • 依範例Ch10.xlsx『依性別求運動時間』工作表內容,計算出男/女性及全體運動時間之母體均數μ及其95%信賴區間的估計值。

  20. 小樣本時 • 若母體為常態分配,樣本數n<30,仍以其為μ的點估計。若母體為常態分配,樣本數n<30,且母體變異數σ2已知,則以為μ的100(1-α)%之信賴區間。 • 但實務上,母體變異數σ2通常未知,當樣本數n<30,因為樣本太小,樣本標準差S的變化會較大,就不可以樣本標準差S來取代母體標準差σ。故以為μ的100(1-α)%之信賴區間。

  21. 式中, 為查『附錄四 t方分配的臨界值』自由度為n-1時之t值。由於t值比z值來得大,故所求得之估計區間會加大一點,可以確保原有的信賴度。(以小樣本推估母體,本就較為不準,故得將估計區間放寬一點) • 於Excel,t值可用TINV()函數來求算(詳下文說明),以n為11,自由度為10(t分配之自由度為n-1),α=0.05時為例,其 值為2.228:(詳範例Ch10.xlsx『t分配表』工作表)

  22. 假定,範例Ch10.xlsx『成績-小樣本』工作表內,A1:H9為全班之72人之成績(母體),隨機抽取11人(加網底之儲存格),計算出其樣本均數(75.45)、標準差(11.53)及其95%信賴區間:=75.45±7.74=67.71~83.20比於C17:C18以母體資料所計算出之73.32~79.57來得更寬,故更有把握母體均數μ能有95%的信賴度可落在67.71~83.20:假定,範例Ch10.xlsx『成績-小樣本』工作表內,A1:H9為全班之72人之成績(母體),隨機抽取11人(加網底之儲存格),計算出其樣本均數(75.45)、標準差(11.53)及其95%信賴區間:=75.45±7.74=67.71~83.20比於C17:C18以母體資料所計算出之73.32~79.57來得更寬,故更有把握母體均數μ能有95%的信賴度可落在67.71~83.20:

  23. t分配TDIST() TDIST(t,自由度,單尾或雙尾) TDIST(t,degrees_freedom,tails) • t是要用來計算累計機率之t值。 • 自由度(d.f.,degrees of freedom)是指一統計量中各變量可以自由變動的個數,當統計量中每多一個限制條件(即,已知條件),自由度就減少一個。(t分配之自由度為樣本數減1,n-1) • 單尾或雙尾指定要傳回單尾或雙尾之累計機率值?為1,表傳回單尾之累計機率值;為2,表傳回雙尾之累計機率值。 • 本函數在求:於某一自由度下之t分配中,求t值以外之右尾的總面積(機率)。如為單尾,即求下圖之陰影部份:

  24. 如為雙尾,即求左右兩尾之陰影部份:t分配之圖形及機率值,將隨自由度不同而略有不同。以自由度為10之情況下,不同t值所求得之單尾及雙尾累計機率分別為:(詳範例Ch10.xlsx『TDIST』工作表)

  25. t分配反函數TINV() TINV(累計機率,自由度) TINV(probability,degrees_freedom) • 用以於已知自由度之t分配中,求某累計機率所對應之t值。此t為依雙尾累計機率所求;若要求單尾之t值,得將累計機率乘以2。 • 由於t分配之圖形及機率值,將隨自由度不同而略有不同。範例Ch10.xlsx『TINV』工作表,是以自由度為10之情況下,所求得之結果。如:雙尾機率5%之t值為2.228,其求算之公式為:=TINV(5%,10)=TINV(G5,$B$1)有了此函數,即可省去查t分配表之麻煩:

  26. 馬上練習 • 以範例Ch10.xlsx『t值』工作表內容,安排d.f.為1~15之情況下,單尾機率為25%、10%、5%、2.5%、1%與0.5%之t值:

  27. 馬上練習 • 依範例Ch10.xlsx『外食費用-小樣本』工作表內容,計算大學生每月在外面吃飯費用之母體均數μ及其95%信賴區間的估計值。 大學生每月在外面吃飯費用之均數為:6026.67,其95%信賴區間為:4432.13~7621.20。

  28. 母體比例p的估計 • 實務上,也經常要估計母體比例p。如:估計平均失業率、產品不良率、品牌佔有率、政策支持率、候選人支持率、政黨支持率、數位相機擁有率、個人電腦擁有率、……。 • 若樣本數n>30,則以其樣本比率為母體比例p的點估計。母體比例p的100(1-α)%之信賴區間為: • 其中, 即我們可容忍的誤差(e)。所以,我們於第四章計算樣本大小時,就是將其簡化成 來計算樣本數。

  29. 式中,Zα/2值可用Excel之NORMSINV()函數來求算,以α=0.05時為例,其Zα/2值為1.96。式中,Zα/2值可用Excel之NORMSINV()函數來求算,以α=0.05時為例,其Zα/2值為1.96。 • 以範例Ch10.xlsx『政黨支持率』工作表之資料,調查1000位受訪者中有228個支持執政黨,其樣本比率為22.8%,則母體比例p的95%之信賴區間為20.20%~25.40%:=22.8%±2.60%=20.20%~25.40%如果以口語化講,就是:此次調查民進黨的支持率為22.8%,在95%的信賴水準下,調查的誤差不超過±2.60%。

  30. 馬上練習 • 以範例Ch10.xlsx『數位相機擁有率』工作表內容,求數位相機母體擁有率p的點估計及其95%信賴區間。 此次調查位相機擁有率為33.7%,在95%的信賴水準下,調查的誤差不超過±9.36%。

  31. 第十章 結束謝謝!

More Related