550 likes | 863 Views
統計學. 郭信霖 許淑卿. 第八章 估 計. ■ 8 - 1 統計推論之意義與種類 ■ 8 - 2 估計之基本概念 ■ 8 - 3 母體平均數 的估計 ■ 8 - 4 母體比例 p 的估計 ■ 8 - 5 母體變異數 2 的估計 ■ 8 - 6 兩母體平均數差 1 - 2 的估計 ■ 8 - 7 兩母體比例差 p 1 - p 2 的估計 ■ 8 – 8 兩母體變異數比 / 的估計 ■ 8 - 9 電腦範例 ■ 8-10 流程圖. 8-1 統計推論之意義與種類.
E N D
統計學 郭信霖 許淑卿
第八章 估 計 ■ 8 - 1統計推論之意義與種類 ■ 8 - 2估計之基本概念 ■ 8 - 3母體平均數的估計 ■ 8 - 4母體比例p的估計 ■ 8 - 5 母體變異數2的估計 ■ 8 - 6 兩母體平均數差1-2的估計 ■ 8 - 7兩母體比例差p1-p2的估計 ■ 8 – 8 兩母體變異數比 / 的估計 ■ 8 - 9電腦範例 ■ 8-10流程圖
8-1 統計推論之意義與種類 統計推論主要的目的在根據樣本資料的訊息,對母體參數作估計或檢定有關母體假設。 傳統的統計推論分為:估計(Estimation)與假設檢定(Tests of hypothese)。
8-2 估計之基本概念 (一) 估計之意義 所謂估計,是指如何利用機率原理,決定以何種樣本統計量,推測母體未知參數最為適當的一種統計方法。 母體參數,以表示。 樣本統計量(或估計量,Estimator),以 表示。通常以大寫的英文字母 ,如X,Y,Z等表示。 估計值(Estimate)將樣本的觀察值代入估計量,所得到的一個確定數值。通常以小寫的英文字母 ,如x、y、z等表示。
(二) 估計之種類:點估計及區間估計兩種方式。(二) 估計之種類:點估計及區間估計兩種方式。 1. 點估計(Point Estimation): 所用的統計量就稱為點估計量。 我們較常用的母體參數與點估計量(樣本統計量)、點估計值及點估計量有關抽樣分配之間的對應關係,如下表:
優良點估計量的評判標準有二: 令表母體的未知參數,為一點估計量,而為的點估計值。 (1) 不偏性(Unbiasedness): 若E() = ,則稱統計量為的不偏估計量(unbiased estimator)。 例如: • E( ) = ,E(Me) = ,E(S2) = 2,E( ) = p。 • 如果E( ) ,則偏誤= bias = E( ) - ,表示以 估計,具有偏誤,即是的有偏誤估計量,圖形如下。
(2)有效性(Efficiency): 若E( ) = ,i = 1, 2, …, k,則 Var( )就是 的最有效估計量(most efficient estimator)。 圖8-2 的抽樣分配
的三個不同估計量 , , 的抽樣分配,較為有效,故選為 的優良估計量。 對之 相對有效性(Relative Efficiency或R.E.)有下列表示方法: ( 1 )R.E. = 。 其中MSE( ) = E( -)2 = Var( ) + [Bias( )]2為 的均方誤差(mean square error)。 ( 2 )R.E. = 。
2. 區間估計(Interval Estimation): 根據樣本資料所求得點估計值及其抽樣分配與機率原理,提供母體未知參數一個可能所在範圍的方法,稱為區間估計,其範圍稱之為信賴區間(Confidence Interval)。 在應用上,我們希望會包含參數的估計區間(T1 , T2)所佔的百分比(或機率值)至少為1 - ,即P(T1T2)≧1 -。
若(x1, x2…, xn)為隨機樣本(X1, X2…, Xn)的一組觀測值,則區間(t1, t2)謂之在信賴係數(confidence coefficient,或信賴度degree of confidence)100(1 - )%之下的信賴區間(confidence interval),t2與t1分別稱為信賴上限與信賴下限,而信賴區間(t1, t2)的長度為 = t2 - t1 • 根據相對次數的觀點而言,信賴係數可做如下解釋: • 若重覆從母體中,隨機抽出相同樣本大小為n的隨機樣本,則包含未知參數 的區間約佔全部的100(1 - )%,如圖8-3。
如何進行區間估計呢?其處理的步驟如下: (一) 選擇母體未知參數 的優良點估計量。 ( 1 ) 估計誤差= | - |。 ( 2 ) P ( | - | d ) 1 -,其中d稱為誤差界限。 (二) 找出樣本統計量的抽樣分配。如Z、t、2及F等分配。 (三) 配合抽樣分配在機率為1 -下的機率區間。如1 - = P。 最後,導出母體參數 的信賴區間。如1 - = P(T1T2)。
估計的估計誤差 圖8-4
8-3 母體平均數的估計 (一) 的估計: 設從常態母體N(, 2),2已知,隨機抽出一組大小為n的隨機樣本,X1, X2, …, Xn,則樣本平均數 抽樣分配為常態分配N 。 Z = ~N(0, 1)
1. 點估計量: 樣本平均數作為的點估計量。 2. 區間估計: ( I ) 常態母體的變異數2已知,則不論樣本大小,皆可採 用標準常態分配處理。 ~N ,則Z = ~N(0, 1)
在信賴係數(1 - )100%下,的信賴區間為 可簡化為 z/2. = 點估計量 臨界值 點估計量的標準誤差 = 點估計量 抽樣誤差(或誤差界限)
由這個式子,可知的信賴區間由三個部分組成:由這個式子,可知的信賴區間由三個部分組成: (1) 點估計量 。 (2) 臨界值z/2。 點估計量的標準誤差 = 。 其中z/2 = z/2 稱為抽樣誤差(Sampling error)或誤差界限。
( II ) 任意母體變異數2未知,但n 30,根據中央極限定理(CLT),則以標準常態分配處理, Z = 在信賴係數(1 - )100%下,母體平均數之信賴區間為 或 簡化為 z/2
( III ) 常態母體變異數2未知且n < 30,則以t分配來處理, T = ~ t ( n – 1 ) 在信賴係數(1 - )100%下,的信賴區間為 ,v = n - 1。 【注意】 若自有限母體抽樣,其抽出率 不小於5%,則 樣本平均數 的變異數就變數Var( ) = ,其中 稱為有限母體校正數。
(二) 點估計的誤差與樣本大小 1. 估計誤差: 信賴係數為(1 -)100%下,當靠近信賴區間的信賴上、下限兩端點時,誤差的值達到極大值,故估計誤差| - |不大於z/2 ,如圖 圖8-7 的(1 - )100%信賴區間及以 估計的誤差 - | z/2 估計誤差= |
2. 樣本大小: (1) 由點估計量的誤差決定所需樣本大小若以 估計,為了達到信賴係數為(1 - )100%下,並使估計誤差不會超過指定的e值,則至少須隨機抽取多少樣本大小? ∵ z/2 = z/2e n
若2未知時,須以S2代替2,則S2可依下列二種方法求得:若2未知時,須以S2代替2,則S2可依下列二種方法求得: 不抽取樣本,以過去經驗或統計資料估計樣本標準差S,代入公式,以求n。 預先試查隨機抽取大小為n1 30,計算樣本標準差S,代入公式,以求n。(a) 若n > n1,則補抽(n - n1)個樣本資料作估計。(b) 若n n1,則就以原n1個樣本資料作估計。
(2)由信賴區間的長度決定所需樣本大小在信賴係數(1 -)100%下,的信賴區間為 z/2 ,在其信賴區間的長度不超過常數e時,至少須隨機抽取的樣本為 n 4
B(1, p),p未知 n … ( X1 , X2 , …………, Xn ) 8-4 母體比例p的估計 令X = X1 + X2 + … + Xn, 則樣本比例 = ,且E( ) = p,Var( ) =
(一) 點估計量: = (二) 區間估計: 當np 5且nq 5時,根據CLT,可知X~N(np, npq),則 = ~N或 Z = ~ N(0, 1)。 在信賴係數(1-)100%下,則信賴區間為 也可簡化為 z/2
(三) 點估計誤差與樣本大小 1. 點估計誤差 圖8-9 p的(1 - )100% 信賴區間及以 估計p的誤差 - p| z/2 ∴ 估計誤差 = |
2. 樣本大小 (1)點估計量的誤差決定所需樣本大小: z/2 e , 則n 事實上,可依下列 三種方法求得: 不抽取樣本,而根據以往統計資料,猜測的大約值,代入公式,以求n。
預先試查隨機抽取樣本,其大小為n1 30,求得 值,代入公式,以求n。 (a) 若求出的n > n1,則補抽(n -n1)個樣本資料作估計。 (b) 若求出的nn1,則就以原n1個樣本資料作估計。 求n值的上界:因0 < < 1,由 = (1 - ) = - 當 = 時, 的值大值為 ,故樣本大小至多為 n =
由信賴區間的長度決定所需樣本大小若要求信賴區間的長度 不超過常數e時,則至少須隨機抽取多少樣本? n = 4
8-5 母體變異數2的估計 當 已知 若2 = ~2(n),v = n,其中S2 = ,則稱2為具有自由度v = n的卡分配,以2~2(n)表示。 (1) 點估計量:S2 =
(2) 區間估計: 在信賴係數(1 - )100%下,2之信賴區間為 , v = n 而之信賴區間為 ,v = n
當未知 若 = ~(n - 1),其中S2 = , = ,則稱為具有自由度v = n - 1的卡方分配,以~ (n - 1)表示 (1) 點估計量:S2 =
(2) 區間估計: 在信賴係數(1 - )100%下, 2之信賴區間為 ,v = n - 1 而之信賴區間為 ,v = n - 1
8-6 兩母體平均數差1-2的估計 (一) 點估計量:統計量 - (二) 區間估計: 兩常態母體的變異數 , ,已知,則不論樣本大小,皆採用標準常態分配處理。在信賴係數(1-)100%之下,兩母體平均數差1 - 2的信賴區間為 ,
簡化為 ( - ) z/2 = 點估計量 臨界值 點估計量的標準誤差 = 點估計量 抽樣誤差(或誤差界限) 2. 從兩個未知,的獨立母體中,分別各抽出一組大樣本,n1 30,n2 30,則在信賴係數(1 - )100%下,兩母體平均數差1 - 2之信賴區間為
兩獨立常態母體變異數 及 未知,且n1 < 30,n2 < 30,則以t分配處理; , 有兩種未知情形: (1) = = 2未知,且n1 < 30,n2 < 30 (2) 未知,且n1 < 30,n2 < 30 這兩種情況,皆為t分配處理。 (1) = = 2未知,且n1 < 30,n2 < 30 由t分配的定義,知 T = = ~ t(n1 + n2 - 2)
其中 = 為2的不偏估計量,稱為聯合樣本變異數(Pooled Sample Variance)。 在信賴係數(1 -)100%下,兩母體平均數差1 - 2之信賴區間為
※(2) 未知,且n1 < 30,n2 < 30此時由Welch,B.提出一個近似t分配,以 、 分別代替 、 , 因此,T = ~ t (v), 其中v = ,v不一定為整數,則以四捨五入表示。 在信賴係數(1 - )100%下,兩母體平均差1 - 2之信賴區間為
成對樣本時1 - 2的估計: 為了消除每對之間X1與Y1,X2與Y2, …, Xn與Yn的不獨立,可以它們之間的差異(Xi- Yi)來處理,即令Di= Xi- Yi,i = 1, 2, …, n
= = , 又E( ) = D, ) = Var( 則 ~ 。 圖8-14
( 1 ) 當n 30時,以 代替 ,根據CLT, 則Z = ~N(0, 1) 在信賴係數(1 -)100%下,成對樣本中兩母體平均數差1-2之信賴區間為 或 簡化為 z/2
( 2 ) 當n < 30時,以 代替 , 則T = ~t(n - 1) 在信賴係數(1 - )100%下,成對樣本中兩母體平均數差1 - 2之信賴區間為 ,v = n-1 或簡化為 t/2(v) ,v = n- 1
8-7 兩母體比例差P1-P2的估計 • 點估計量:統計量 - = - • 區間估計: 當n1,n2甚大時,根據CLT, - 的抽樣分配近似於常態分配 則 Z = ~N(0, 1)
在信賴係數(1 -)100%下,當n1, n2足夠大時,兩母體平均數差p1-p2之信賴區間為 也可簡化為 ( - ) z/2
8-8 兩母體變異數比 / 的估計 • 2 2 • 1 2 (一) 當1,2已知, / 的估計 F = = ~ F ( n1,n2 ) 1. 點估計量:統計量 /
2. 區間估計: 在信賴係數(1 - )100%下, / 之信賴區間為 ,v1 = n1,v2 = n2 而1/2之信賴區間為 ,v1 = n1,v2 = n2
2. 區間估計: 在信賴係數(1 - )100%下,/之信賴區間為 ,v1 =n1 - 1,v2 = n2 - 1 而1/2之信賴區間為 ,v1 = n1 - 1,v2 = n2 - 1