690 likes | 1.04k Views
第 8 章. 區間估計. 本章內容. 8.1 母體平均數: σ 已知 8.2 母體平均數: σ 未知 8.3 樣本大小的決定 8.4 母體比例. 第 8 章 區間估計 第 295-317 頁. 邊際誤差與 區間估計值. 點估計量的值不會恰好等於母體參數值。 區間估計值 (interval estimate) 通常是由點估計值加或減某個值求得,我們稱這個加減值是 邊際誤差 (margin of error) 。區間估計值的一般形式是: 點估計值 邊際誤差
E N D
第 8 章 區間估計
本章內容 8.1 母體平均數:σ已知 8.2 母體平均數:σ未知 8.3 樣本大小的決定 8.4 母體比例 第8章 區間估計第295-317頁
邊際誤差與區間估計值 點估計量的值不會恰好等於母體參數值。 區間估計值 (interval estimate)通常是由點估計值加或減某個值求得,我們稱這個加減值是邊際誤差 (margin of error)。區間估計值的一般形式是: 點估計值 邊際誤差 區間估計值可以讓我們瞭解:點估計值與母體參數值的接近程度。 第8章 區間估計第296頁
邊際誤差與區間估計值 母體平均數的區間估計值的通式如下: 母體比例的區間估計值的通式如下: 第8章 區間估計第297頁
8.1 母體平均數:σ已知 為了求算母體平均數的區間估計值,必須知道母體的標準差 σ或樣本的標準差 s 以計算邊際誤差。 σ很少是已知的數值,但歷史資料或其他某些可用的訊息,讓我們得以在抽樣前取得母體標準差的優良估計值。 在此情況下,可視母體標準差已知,我們稱此為 σ 已知 (σ known)的情況。 第8章 區間估計第297頁
母體平均數的區間估計:σ已知 的抽樣分配 所有 值 的 1 - α α /2 α/2 μ 樣本平均數的抽樣誤差等於或少於 的機率為 1 - α 。 第8章 區間估計
母體平均數的區間估計:σ 已知 的抽樣分配 所有 值 的 1 – α /2 /2 此區間 不包含 μ μ 此區間 包含 μ 此區間 包含 μ [--------------------- --------------------] [-------------------- ---------------------] [------------------- --------------------]
母體平均數的區間估計:σ已知 母體平均數的區間估計值:σ已知 其中 = 樣本平均數1-α=信賴係數 zα/2 =右尾面積α/2 的標準常態分配的 z值 σ=母體標準差 n =樣本大小 第8章 區間估計第299頁
邊際誤差與區間估計:σ已知(實例) 第7章洛依德公司例子中,購物花費的母體是標準差σ =20的常態分配。 第8章 區間估計第298頁 圖8.1
邊際誤差與區間估計:σ已知(實例) 利用標準常態分配表,我們可以發現有 95% 的常態分配隨機變數的值會落在離平均數 ±1.96 個標準差內。因為 的抽樣分配是常態分配,因此,有 95% 的 值必須落在 內。洛依德公司的例子中,的抽樣分配是常態分配,標準誤 = 2。因為 =1.96(2)=3.92。我們的結論是:樣本大小為 n=100 而得到的樣本平均數會有95% 落在母體平均數 ±3.92 的範圍內 (見圖 8.2)。 第8章 區間估計第297-298頁
圖8.2 第8章 區間估計第298頁 圖8.2
邊際誤差與區間估計:σ已知(實例) 以洛依德公司為例,如果以 3.92 為邊際誤差,可以用 來計算 μ的區間估計值。為了解釋區間估計值的意義,我們先假定選取三個不同的隨機樣本,每個樣本都有 100 名洛依德公司的顧客,第一個樣本的樣本平均數是圖 8.3 的 。由圖 8.3 可看出,自 加減 3.92 得到的區間會涵蓋母體平均數 μ。如果隨機樣本得到的 如圖 8.3 所示,可以看到 顯然不等於 ,但是自 加減 3.92 得到的區間仍會涵蓋母體平均數。然而,若第三個樣本平均數是圖 8.3 的 ,情況又是如何?我們可看出此情況下的 而形成的區間並未涵蓋母體平均數 μ。因為 落在抽樣分配的右尾,而且距離 μ超過 3.92。 第8章 區間估計第298頁
邊際誤差與區間估計:σ已知(實例) 圖 8.3 陰影區內的任何樣本平均數 所建立的區間,都會包含母體平均數 μ。由於所有可能的樣本平均數有 95% 都落在陰影區,所以將樣本平均數 加或減3.92 所形成的所有區間,有 95% 會包含母體平均數 μ。 第8章 區間估計第298-299頁
圖8.3 第8章 區間估計第293頁 圖8.3
邊際誤差與區間估計:σ已知(實例) 假定最近數週內,洛依德公司的品管團隊調查 100 位顧客,得到的樣本平均滿意度分數是 =82,以 ± 3.92計算區間估計值,可以得到 82 ± 3.92。因此,以最近1個月的樣本資料得到的區間估計值是 82-3.92=78.08 到 82+3.92=85.92。由於以 ±3.92 建立的各種區間估計值中,有 95% 的區間估計值會包含母體平均數,因此,我們可以說有 95% 的信心,78.08 到 85.92 的區間會包含母體平均數 μ。我們也可以說,這個區間是在 95% 的信賴水準 (confidence level)下建立的。其中,0.95稱為信賴係數 (confidence coefficient),區間 78.08 到 85.92 則稱為 95% 信賴區間 (confidence interval)。 第8章 區間估計第299頁
邊際誤差與區間估計:σ已知(實例) 我們運用式 (8.1) 來建立洛依德公司的 95% 信賴區間。95% 信賴區間,其信賴係數 (1-α) = 0.95,因此,α = 0.05。利用標準常態機率表,右尾面積是 α/2 = 0.05/2 = 0.025,z0.025 = 1.96。洛依德公司的樣本平均數是 = 82,σ= 20,樣本大小 n = 100。我們可以得到 因此,利用式(8.1),邊際誤差是 3.92,95% 的信賴區間是82-3.92 = 78.08到 82+3.92 = 85.92。 第8章 區間估計第299-300頁
邊際誤差與區間估計:σ已知(實例) 雖然95% 的信賴水準很常使用,但其他如 90% 及 99% 的信賴水準也很常見。最常見的信賴水準之zα/2值整理在表8.1。 第8章 區間估計第300頁 表8.1
邊際誤差與區間估計:σ已知(實例) 使用這些值及式 (8.1) ,洛依德公司問題的 90% 信賴區間是 因此,在 90% 信賴水準下,邊際誤差是 3.29,信賴區間是 82-3.29=78.71 到82+3.29=85.29。同樣地,99%信賴區間是 因此,在 99% 信賴水準下,邊際誤差是 5.15,信賴區間是 82-5.15=76.85 到82+5.15=87.15。 比較90%、95% 及99% 三種信賴水準,我們可以看到,信賴水準提高時,信賴區間的寬度也會增加。 第8章 區間估計第300頁
邊際誤差與區間估計:σ已知(實例) • 實際樣本數 • 大部分的實際應用中,以式 (8.1) 建立母體平均數的信賴區間時,樣本大小 n ≥ 30 就已足夠。 • 如果母體不是常態分配,但大致上對稱,樣本大小至少為 15,也可以利用式 (8.1) 得到良好的近似信賴區間。 • 樣本更小時,只有分析人員相信或可以假定母體分配至少是近似常態時,才能使用式 (8.1)。 第8章 區間估計第300頁
評註 本節是在假設母體標準差 σ 已知的情況下所進行的區間估計程序。σ 已知是指在選取樣本以求算母體平均數的估計值之前,歷史資料或其他相關資訊讓我們可以取得母體標準差 σ 的良好估計值。所以,技術上來說,並非我們已知道 σ 的確實值,而是可以在抽樣前就取得 σ 的良好估計值,所以不必由同一個樣本來估計母體平均數及母體標準差。 第8章 區間估計第301頁
評註 注意式 (8.1) 中有使用到樣本數 n,如果在特定樣本數下所計算出的信賴區間太寬,我們可能會增加樣本數來縮短信賴區間。由於 n 在區間估計公式的分母位置,如果樣本數增加,則邊際誤差會變小,所以區間會縮短,而精確度可以增加。有關如何決定適當的樣本數以獲致所要精確度的程序,將在 8.3 節中做進一步的說明。 第8章 區間估計第301頁
8.2 母體平均數:σ未知 建立母體平均數的區間估計值時,我們經常沒有母體標準差的良好估計值。在這種情況下,就要以同一個樣本來估計 μ及 σ。 此種情況稱為 σ 未知 (σ unknown)的情況。 若以 s 來估計 σ,邊際誤差及母體平均數的區間估計值是根據稱為 t 分配 (t distribution)的機率分配求算而得。 第8章 區間估計第302頁
t分配 t 分配是由一群類似的機率分配所組成的。 任一 t 分配都有其特定的參數,即所謂的自由度 (degrees of freedom)。 可能有自由度為1、自由度為 2、自由度為 3 等不同的 t 分配。 第8章 區間估計第302頁
t 分配 當自由度增加時,t 分配和標準常態分配的差距將愈來愈小,圖 8.4 顯示 t 分配在自由度 10 和 20 時與標準常態分配圖的比較。 當自由度較高時,t 分配較不分散,且更接近標準常態機率分配。另外也請注意,t 分配的平均數為 0。 第8章 區間估計第303頁
圖8.4 t 分配(自由度 20) 標準常態 分配 t 分配 (自由度 10) z, t 0 第8章 區間估計第303頁 圖8.4
t 分配 我們將以 t 的右下標表示 t 分配右尾的機率,正如 z0.025 表示標準常態分配右尾面積為 0.025 所對應的值一樣,t0.025代表 t 分配右尾面積為 0.025 所對應的 t 值。通常,我們以 tα/2表示 t 分配右尾面積為 α /2 時所對應的 t 值 (見圖 8.5)。 第8章 區間估計第303頁
t 分配 第8章 區間估計第297頁 圖8.5
t 分配 附錄B的表2為 t 分配表,表8.2為 t 分配表的一部分,表中的每一列對應到特定自由度的 t分配。當 t 分配的自由度為 9時,則 t0.025=2.262;同理,t分配的自由度是 60 時,t0.025=2.000。當自由度繼續地增加,則 t0.025 愈逼近 z0.025=1.96。 t 分配表中自由度為無限大(∞)的對應欄位中可發現標準常態分配的 z值。假如自由度大於 100,就可用自由度無限大的 t 值來近似。 自由度超過 100 的 t 分配,標準常態 z值是很好的近似值。 第8章 區間估計第303頁
表8.2 第8章 區間估計第304頁 表8.2
表8.2(續) 第8章 區間估計第304頁 表8.2
表8.2(續) 第8章 區間估計第304頁 表8.2
母體平均數的區間估計:σ未知 區間估計 其中 s = 樣本標準差 1 –α= 信賴係數 tα/2 =自由度為 n –1,而右尾面積為 α/2 所對應的 t 值 第8章 區間估計第305頁
母體平均數的區間估計:σ未知(實例) 某個研究調查了美國家庭的信用卡帳戶餘額,以瞭解信用卡債務的情形。研究中共有 70 個家庭的信用卡帳戶資料的餘額,如表 8.3。 因為沒有任何歷史資料,我們並不知道信用卡帳戶餘額的母體標準差,因此,必須利用樣本標準差 s來估計母體標準差 σ。接下來,我們要建立母體平均數的 95% 信賴區間。 第8章 區間估計第305頁
表8.3 第8章 區間估計第305頁 表8.3
母體平均數的區間估計:σ未知(實例) 首先,利用表8.3的資料算出樣本平均數 = $9312,樣本標準差 s =$4007。信賴水準是95%,樣本大小是 70,自由度為 n-1=69,查表8.2可得適當的t0.025值。我們可在自由度為69的列找到右尾是0.025時的t0.025=1.995。因此,母體平均數的點估計值是 $9312,邊際誤差是 $955,95% 信賴區間是9312-955=$8357 到 9312+955=$10,267。 第8章 區間估計第305-306頁
母體平均數的區間估計:σ未知 如果母體是常態分配,式 (8.2) 的區間估計公式可以適用於任何大小的樣本,並產生確切的區間估計值。 如果母體不是常態分配,則式 (8.2) 只是區間估計的近似值。此種情況下,近似值的近似程度則視母體的分配及樣本大小而定。 第8章 區間估計第300頁
母體平均數的區間估計:σ未知 大部分的實際應用中,以式 (8.2) 建立母體平均數的信賴區間時,樣本大小 n ≥ 30 就已足夠。 但是,如果母體分配有嚴重的偏態或是離群值,許多統計學者會建議最好將樣本大小增加到 50 或更多。 如果母體不是常態分配,但大致上對稱,樣本大小至少為 15,也可以用式 (8.2) 得到良好的近似信賴區間。 但在樣本更小時,只有分析人員相信或可以假定母體分配至少是近似常態時,才能使用式(8.2)。 第8章 區間估計第306頁
母體平均數的區間估計:σ未知使用小樣本(實例)母體平均數的區間估計:σ未知使用小樣本(實例) 以 Scheer 工業訓練計畫之評估為例,說明小樣本下之區間估計的推算過程。Scheer 工業的製造經理想要利用電腦來輔助訓練公司的維修人員,希望經由電腦訓練可減少訓練時間。為了評估這種訓練方式,該經理希望能夠估計在電腦輔助下的平均訓練時間。 選擇20 名員工為樣本,接受此項訓練,樣本中的每一位員工所需的訓練天數如表 8.4 所示,樣本資料的直方圖如圖 8.7 所示。 第8章 區間估計第306頁
表8.4 第8章 區間估計第307頁 表8.4
圖8.7 第8章區間估計第307頁 圖8.7
母體平均數的區間估計:σ未知使用小樣本(實例)母體平均數的區間估計:σ未知使用小樣本(實例) 計算出的樣本平均數和樣本標準差如下。 查附錄B的表2,得知自由度為 n-1=19 時,t0.025=2.093,運用式 (8.2) 可求得 95% 信賴區間的估計值。 因此,母體平均數之點估計值為 51.5 天,邊際誤差是 3.2 天,母體平均數之 95%信賴區間為 51.5-3.2=48.3 天到 51.5+3.2=54.7 天。 第8章 區間估計第307頁
母體平均數的區間估計:σ未知區間估計程序摘要母體平均數的區間估計:σ未知區間估計程序摘要 圖 8.8 列出兩種情況下的母體區間估計程序。大部分的實際應用中,樣本大小 n ≥ 30就已足夠。 如果母體是常態分配或近似常態分配,即使樣本大小不到 30 也可使用。但是,在 σ未知的情況下,如果母體有嚴重的偏態或是有離群值,樣本大小最好為 n ≥ 50。 第8章 區間估計第308頁
圖8.8 第8章 區間估計第308頁 圖8.8
評註 如果 σ 已知,無論樣本大小n是多少,邊際誤差都固定是 。如果 σ 未知,邊際誤差 則會隨著樣本大小而改變。因為樣本 標準差 s 會隨樣本不同而改變。較大的 s,會有 較大的邊際誤差;較小的 s,則有較小的邊際誤 差。 第8章 區間估計第308頁
評註 母體的分配形狀若呈現偏態,對區間估計值有何影響?以右偏母體為例,延伸的右尾中會有很大的資料值。此種偏態下,樣本平均數 與樣本標準差s會有正相關。愈大的s值,通常有愈大的值。因此,當大於母體平均數時,s也會大於母體標準差 σ。此種偏態會使邊際誤差比起σ已知時的邊際誤差來得大。較大的邊際誤差得到的信賴區間,比起使用正確的σ得到的信賴區間,更容易包含母體平均數 μ。但是當小於母體平均數時,與s的相關會使得邊際誤差較小。此種情況下計算出的信賴區間,由於邊際誤差較小,信賴區間的長度也較小。比起已知的狀況,此種狀況比較容易發生信賴區間未包含正確母體平均數的情況。所以,我們建議在母體高度偏態時,應採用比較大的樣本。 第8章 區間估計第308頁
8.3 樣本大小的決定 令E = 所要的邊際誤差。 E值是使用者在特定信賴水準下願意接受的邊際誤差。 第8章 區間估計第311頁
母體平均數區間估計的樣本大小 邊際誤差 母體平均數區間估計所需的樣本數 第8章 區間估計第311頁
母體平均數區間估計的樣本大小 • 即使 σ 未知,如果先前已有 σ 的初始值或計畫值(planning value),仍可使用式(8.3)。實務上有下列方式可供選擇: • 以之前來自相同或類似單位的樣本求得樣本比例。 • 以前測實驗取得初步樣本。以此樣本得到的樣本標準差作為 σ的計畫值。 • 利用判斷或「最佳猜測法」來決定 σ值。例如,先估計母體的最大值與最小值,最大值與最小值的差距可作為全距的估計值,再將全距除以 4 作為標準差的約略估計值,以作為母體 σ的計畫值。 第8章 區間估計第312頁
母體平均數區間估計的樣本大小(實例) 在一個美國租車費用的調查中發現,租用中型汽車的平均費用是每天 $55。假設原先執行這項調查的公司想要執行另一項新的調查,以估計現階段在美國租用一輛中型汽車1天所需的費用。在設計此項新的研究時,計畫主持人特別指定在估計每天租車費的母體平均數時,必須採用的邊際誤差為 $2,信賴水準則為 95%。 我們可以瞭解到計畫主持人所指定的邊際誤差 E=2,而 95% 的信賴水準表示 z0.025=1.96。 第8章 區間估計第312頁
母體平均數區間估計的樣本大小(實例) 如此一來只需要得到母體標準差 σ的計畫值,即可算出符合條件的樣本大小。此時,一位分析師看過先前研究的樣本資料後,得到樣本標準差為 $9.65,將此值當作 σ的計畫值,可得如此,此項新的研究至少需要 89.43 個中型汽車日租金的樣本大小,才能滿足計畫主持人之邊際誤差為 $2 的要求。在這個例子中,算出的 n 值有小數點,我們採無條件進位法,因此,建議的樣本數是 90 個中型汽車租金的樣本。 第8章 區間估計第312頁