471 likes | 1.71k Views
第 9 章 估計與信賴區間. 目標. 定義 點估計 。 定義 信賴水準 。 在 母體標準差已知 的情況下,建構母體平均數的 信賴區間 。 在母體標準差 未知的情況下 ,建構母體平均數的 信賴區間 。 建構 母體比例 的信賴區間。 決定抽樣的 樣本個數 。. 點估計與信賴區間. 點估計 ( point estimate ): 由 樣本資料 計算的統計量,使用來 估計母體參數 。 區間估計 ( interval estimate ): 某區間 會涵蓋母體參數的 可能性 。
E N D
目標 定義點估計。 定義信賴水準。 在母體標準差已知的情況下,建構母體平均數的信賴區間。 在母體標準差未知的情況下,建構母體平均數的信賴區間。 建構母體比例的信賴區間。 決定抽樣的樣本個數。
點估計與信賴區間 • 點估計(point estimate):由樣本資料計算的統計量,使用來估計母體參數。 • 區間估計(interval estimate):某區間會涵蓋母體參數的可能性。 • 信賴區間(confidence interval):在特定機率下,估計母體參數可能落在的數值範圍。此特定的機率值可以稱為信賴水準。
點估計與信賴區間 • 決定信賴區間的因素有: • 樣本大小 n。 • 母體資料的離散程度,通常使用 s估計。 • 信賴水準。
點估計與信賴區間 • 若母體標準差σ已知,且樣本個數大於30,我們使用 z 分配。
點估計與信賴區間 • 若母體近似常態分配而母體標準差未知,且樣本個數小於 30,我們使用 t 分配。在給定信賴係數下,t 分配的值依賴自由度而定。
樣本平均數的標準誤 • 樣本平均數抽樣分配的標準差可稱為「標準誤」(standard error)。
樣本平均數的標準誤 • 計算公式為 為樣本平均數的標準誤的符號。 為母體標準差。 n為樣本大小。
樣本平均數的標準誤 • 若σ未知,以及 n ≥ 30,樣本標準差表示為s,可估計母體標準差。計算公式如下:
區間估計 • 陳述母體參數可能落入的範圍值。 • 估計母體參數可能落在的數值範圍。 • 最常使用的信賴水準為 95% 與 99%。
區間估計 • 95% 信賴區間表示在 100 組樣本所得到的 100 個區間中,約有 95 個區間會涵蓋母體參數。或者,從母體中抽選出來的樣本平均數,其中有 95%會落在母體平均數加減 1.96 個標準差的範圍內。
區間估計 而 99 % 信賴區間意指,從母體中抽選出來的樣本平均數,有 99% 的樣本平均數會落在母體平均數加減 2.58 個標準差的範圍內。
µ的 95% 與 99% 信賴區間 • 母體平均數的 95%信賴區間為
µ的 95% 與 99% 信賴區間 • 母體平均數的 99% 信賴區間為
建構母體平均數 µ 的信賴區間 • 母體平均數信賴區間的通用計算公式為
範例 美國管理協會希望了解在零售產業中,中階主管的平均收入。現在隨機抽取 256位中階主管,其平均數為 $45,420、標準差 $2,050。協會想要了解下列幾個問題: • 母體平均數是多少?母體平均數的合理估計值是多少? • 母體平均數會合理地落在什麼範圍內? • 以上答案的意義為何?
範例 continued • 因不知道母體平均數是多少,只知道樣本平均數是 $45,420。因此只能使用樣本統計量來估計母體參數,所以樣本平均數 $45,420是未知母體平均數的點估計。 • 所計算出來的範圍是 $45,169 至 $45,671 間,這兩個數值也可以稱為信賴界限(confidence limits)。因此在 95% 信賴水準(或信賴係數)下,信賴區間是從 $45,169 至 $45,671。±$251 稱為容界誤差(margin of error)。
範例 continued • 以上答案的意義為何? 假設我們隨機抽出很多組樣本數為 256 位中階主管的樣本,也許抽選出好幾百組。對於這些每一組樣本,計算其平均數與標準差,之後建立每組相對應的 95% 信賴區間,建構信賴區間的過程如上所示。我們希望所有的信賴區間中,約有 95% 的信賴區間將涵蓋母體平均數,另外約有 5% 信賴區間沒有包含母體平均數μ。然而,某特別信賴區間也許會包含母體平均數,或也許不會包含。
t分配的假設:母體為常態分配或近似常態分配t分配的假設:母體為常態分配或近似常態分配 • t 分配的特徵: 1. t 分配是連續型的機率分配。 2. t 分配的圖形是鐘形與對稱分配。 3.有一整個 t 分配的家族。 4. t 分配比標準常態分配更平坦,且離散程度也較大。當樣本數增加時,t 分配就會愈接近標準常態分配。
範例 一個輪胎製造商想要研究公司所生產的輪胎其厚度耗損程度。現在隨機選取行駛了 50,000 英里的 10 個輪胎為樣本,發現輪胎剩餘厚度的樣本平均數為 0.32 英寸、標準差為 0.09 英寸。請建構母體平均數的 95% 信賴區間。如果製造商的結論是:在行駛了 50,000 英里之後,輪胎剩餘厚度的母體平均數仍然是 0.3 英寸。請問這個結論合理嗎?
範例 continued 一開始假設母體分配是常態分配。為了要應用中央極限定理,故需要使用大樣本,也就是樣本數至少在30以上。在這個範例中,樣本數只有10個,因此不能使用中央極限定理。也就是不可以使用公式 [9-1],而必須使用公式 [9-2]:
範例 continued 找出 t值的第一步,是在信賴區間的那一列找出所要的信賴水準。在此例中,所需之信賴水準是 95%,即對應到標題為 95% 的那一行,並往左邊標示為 df的那一行移動。所謂的 df 是自由度(degrees of freedom),自由度是將樣本中觀測資料的數量減去 1,在此例中它是10-1 = 9。所以 95% 信賴水準的那一行與自由度9的那一列(p.546),交叉得到 t值為 2.262。
範例 continued 信賴區間的界限是 0.256 與 0.384。那麼該如何麼解釋這個結果呢? 可以說母體平均數落在這個區間內,製造商可以確認(95% 的信心程度)胎面的平均剩餘厚度仍然在 0.256 至0.384 英寸間。因為 0.3英寸落在這個區間內,所以母體平均數很可能是 0.3 英寸。
範例 佛羅里達州 Inlet Square 百貨公司的經理,想要估計每一位顧客平均採購金額是多少。下表列示了 20 位顧客採購金額的樣本資料。 請問母體平均數的最佳點估計是多少?計算95%的信賴區間,並解釋這個結果。如果母體平均數是 $50,這個說法合理嗎?那麼母體平均數為 $60,合理嗎?
範例 continued 百貨公司的經理假設顧客花費金額的母體服從常態分配。不知道母體標準差,所以,必須使用t 分配以及使用公式 [9-2] 來計算信賴區間。自由度是 n-1 = 20 - 1 = 19。在表格(p.546)中找出自由度為 19、信賴水準為 95% 的交叉點是 2.093,並將這些值帶入公式 [9-2],計算出信賴區間:
範例 continued 所求出的信賴區間是 $45.13 與 $53.57 之間。所以可以說(有 95% 的信心)母體平均數會落在這個區間內。 Inlet Square 的經理猜想母體平均數是 $50 或$60。$50 在信賴區間內,所以母體平均數有可能是 $50。而 $60 沒有在信賴區間內,所以母體平均數不太可能會是 $60。
母體比例的信賴區間 • 母體比例信賴區間的估計公式為:
範例 Bottle Blowers of America(BBA)工會想要與Teamsters 工會合併。根據 BBA 工會的規章規定,至少要有 ¾的會員同意,才可進行合併。現在隨機抽選 2,000 位 BBA 的會員,其中有 1,600 位同意合併的提議。 請問什麼是母體比例的估計值?請建構母體比例的 95%信賴區間。基於這些樣本資訊,你認為 BBA 的會員是否同意合併案的進行?為什麼?
範例 continued 使用公式 [9-3] 計算樣本比例,計算結果是 0.8: 因此可估計母體中有 80% 的會員同意合併的計畫。使用公式 [9-6] 計算 95% 的信賴區間。對應於 95% 信賴水準的 z值是 1.96:
範例 continued 信賴區間的上下限是 0.782與 0.818。因為信賴下限 0.782 大於 0.75,亦即信賴區間包含了超過 75% 的工會會員,所以我們可以說這個合併計畫可能會通過。
有限母體的校正因子 • 一個有固定上限的母體數目,我們稱之為「有限母體」。 • 對於一個有限母體,其總數量為 N,以及抽樣的樣本數為 n。
有限母體的校正因子 • 樣本平均數的標準誤:
有限母體的校正因子 樣本比例的標準誤: • 對於有限母體,需進行調整。 • 若 n/N < 0.05,則可忽視有限母體的校正因子。
範例 賓州 Scandia 地區有 250個家庭。隨機抽選 40個家庭,發現這些家庭每年捐獻給教堂的平均金額是 $450、標準差 $75。母體平均數可能是 $445 或是 $425? • 母體平均數是多少?母體平均數的最佳估計值是多少? • 討論為何必須使用有限母體矯正因子? • 請計算平均每年捐獻金額的 90% 信賴區間。信賴區間的上界與下界分別是多少? • 解釋信賴區間。
範例 continued • 不知道母體平均數,故必須估計之。母體平均數的最佳估計值是樣本平均數 $450。 • 樣本數占母體數量的比例超過 5%;也就是 n/N = 40/250 = 0.16。因此使用有限母體矯正因子,透過 FPC 去調整信賴區間的標準誤。 • 母體平均數的信賴區間公式變成
範例 continued 信賴區間的信賴界限是$431.65與$468.35。 • 母體平均數可能超過 $431.65,但是少於 $468.35。所以母體平均數可能是 $445。但不太可能是 $425。因為 $445 落在這個區間內,而 $425 沒有落在這個區間內。
選擇樣本大小 • 在此可以考慮下列三個因素,來決定樣本的大小: • 信賴水準。 • 研究者的最大容忍誤差。 • 母體資料的變異程度。
估計母體平均數所需的樣本數量 其中 : n是樣本數量 z為在特定信賴水準下,標準常態分配的值 是母體標準差的估計 E為最大的容許誤差
範例 一位在政府機構打工的學生,想要計算議員每月的平均薪資是多少,他估計的最大容忍誤差是 $100,同時使用 95%的信賴水準。這位學生也發現勞工部門之前也作過一次類似的研究,在該次的研究中,標準差是 $1,000。請問本次研究所需要的樣本數是多少?
範例 continued 最大的容忍誤差 E是 $100,95% 信賴水準相對應的 z值是 1.96,同時標準差的估計值是$1,000。將這些值帶入公式 [9-5] 中計算: 計算結果是 384.16,經過無條件進位法處理後是 385。所以在這次研究需要抽選 385 個樣本。
範例 continued 如果這位學生想要增加信賴水準,例如 99%,則必須增加樣本數。99% 信賴水準相對應的z值是 2.58: 經過計算的樣本數為 666。我們也可以看到當信賴水準改變時,樣本大小也會改變──當信賴水準從 95% 提高到 99% 時,樣本數量也增加了281個。
估計母體比例所需的樣本大小 • 在進行母體比例的研究時,決定樣本數量的因素也跟上述的因素相同。 其中, p 為過去實驗的估計比例 z 為某特定信賴水準的z 值 E 為可允許的最大誤差
範例 根據先前的範例,有位學生想要研究擁有私立垃圾掩埋場的城市比例是多少,其母體比例的最大容忍誤差是 0.1,信賴水準是 90%,但是母體比例則無法取得估計值。請問本次研究所需要的樣本數量是多少?
範例 continued 母體比例最大的容忍誤差 E 是 0.1,信賴水準90%相對應的 z值是 1.65,但因為沒有母體比例的估計值,所以使用 0.5來計算。建議的樣本數量是: 因此,這位學生需要抽選 69 個城市為樣本。