280 likes | 399 Views
第 6 章. 連續機率分佈. 前言. 本章介紹幾種統計學常用的數種 連續機率分佈 ,例如 常態分佈 、 卡方分佈 、 F 分佈 、 t 分佈 等。這都是推論統計學中不可或缺的分佈。. 第一節 連續變項 ( 1 ). 連續變項 (溫度)和 間斷變項 (如丟骰子出現的點數)最大的不同在於連續變項的任兩個數值之間, 存在著第三個值 。 若 X 為 間斷變項 ,則 f ( X = x ) = P ( X = x ) 。小寫的 x 表示某個 特定數值 。 f ( X = x ) 可解釋成 X = x 的「機率」。
E N D
第6章 連續機率分佈
前言 • 本章介紹幾種統計學常用的數種連續機率分佈,例如常態分佈、卡方分佈、F分佈、t分佈等。這都是推論統計學中不可或缺的分佈。
第一節 連續變項 (1) • 連續變項(溫度)和間斷變項(如丟骰子出現的點數)最大的不同在於連續變項的任兩個數值之間,存在著第三個值。 • 若X為間斷變項,則f(X = x) = P(X = x)。小寫的x表示某個特定數值。f(X = x) 可解釋成X = x的「機率」。 • 連續變項的f(X = x)並無機率意義,因為每個點出現的機率等於0。f(X = x) 改稱為機率密度(probability density)。
第一節 連續變項 (2) • 假設x值介於a和b之間,則f(x)屬於機率密度函數(probability density function)的兩大條件為: 1.任何一點的值要大於等於0。即f(x) 0。此條件使得任兩點間的機率介於0到1之間。 2.x從下限a到上限b的面積等於1。即。此條件使得機率的總和等於1。
第一節 連續變項 (3) • 在實用上更常使用累積機率函數(cumulative probability function)。即 • 也就是說X小於x的機率稱為F(X = x),就是從x的最小值a積分至x的面積。 • x介於c到d的機率為
第一節 連續變項 (4) • 平均數 • 間斷變項 連續變項 • 變異數 間斷變項 連續變項
第二節 連續機率分佈 (1) • 均勻分佈 • 若一隨機的連續變數X,其值介於a和b之間。假設每一點出現的機率都是均等,那麼就稱這個變數X的機率分佈是連續均勻分佈(continuous uniform distribution)。 • 機率密度函數為: f(X = x) = 1/ (b - a)
第二節 連續機率分佈 (2) • 若要計算x值介於c和d之間的機率,就等於計算其面積。而矩形面積為長乘寬: • 均勻分佈的平均數和變異數為 • 平均數: µ= (a + b) / 2 變異數: s2 = (b - a)2 / 12
第二節 連續機率分佈 (3) 例子1 • 某市場調查公司訪問一位受訪者的時間為5分至15分的均勻分佈。 (1) 要在10分鐘內結束訪問的機率有多大? (2) 介於9分至11分之間結束訪問的機率有多大? (3) 平均而言,訪問一位受訪者要多少時間?變異數多大?
第二節 連續機率分佈 (4) 作法 1. 在此a = 5, b = 15;c = 5, d = 10。10分鐘內結束訪問的機率: 2. 在此c = 9, d = 11。介於9分至11分之間結束訪問的機率: 3. 平均數µ = (a + b) /2 = (5 + 15 ) / 2 = 10;變異數s2 = (b - a)2 / 12 = (15 – 5)2 / 12 = 8.33
第二節 連續機率分佈 (5) • 常態分佈 • 如果一連續隨機變數X,具有以下機率密度函數,就是常態變數。該分佈就是常態分佈: • 其中p = 3.1416,e是自然對數之底2.7183,X介在正負無限大,m是平均數,s是標準差(s2為變異數)。m和s就是常態分佈的參數。
第二節 連續機率分佈 (6) • 二項分佈的n趨近無限大,二項分佈會趨近常態分佈(平均數為np,變異數為np(1-p))。 • 在現實裡,如果樣本數n夠大,用常態分佈代替二項分佈的效果會很好。即使n不大,只要p接近0.5,常態分佈的效果也會很好。 • 通常如果np和np(1-p)都大於5,就可以放心使用常態分佈來代替二項分佈了。 • 若波氏分佈中的密度l夠大(如大於10),可用常態分佈(平均數和變異數都等於l)逼近。
第二節 連續機率分佈 (7) • 如果超幾何分佈中的樣本大小佔母體大小的比率(n / N)小於0.05,可用二項式分佈取代之。 • 若二項式分佈的n很大,但是p很小,如n > 100, np < 10,可用波氏分佈取代二項式分佈。 • 假如二項式分佈的np和np(1-p)都大於5,可用常態分佈取代二項式分佈。 • 如果波氏分佈的密度l夠大的話,如l > 10,可用常態分佈取代之。 • 當樣本數無限大時,超幾何分佈、二項式分佈、波氏分佈都會變成常態分佈。
第二節 連續機率分佈 (8) • 標準常態分佈 • 若常態分佈的平均數為0,變異數為1就是標準常態分佈,簡稱Z分佈。 • 常態分佈可以轉換為標準常態分佈,只要讓該變數減去平均數µ後,再除以標準差σ後所形成的新變數Z,就是標準常態分佈,即
第二節 連續機率分佈 (9) • 伽瑪分佈 • 如果一連續隨機變數X,具有以下的機率密度函數,則該分佈就是伽瑪分佈(gamma distribution): • 其中α和β就是伽瑪分佈的參數,其值均大於0,G(α)是伽瑪函數:
第二節 連續機率分佈 (10) • 這個分佈有著伽瑪函數,故稱為伽瑪分佈。若a是正整數,那麼G(α) = (α - 1)!,其中G(1) = 0。 • 伽瑪分佈的平均數µ =ab,變異數σ2 = ab2。 • 伽瑪分佈可用來計算等候時間。在波氏歷程裡,單位時間成功次數為λ,那麼等候第一個成功事件出現的時間,平均就需要b = 1 / λ 。若要等候至第n個成功成功事件,那麼µ = n,這個等候的時間就是伽瑪分佈。
第二節 連續機率分佈 (11) • 例子2 • 電話查號台平均而言2分鐘會有1通電話上門,那麼第5通電話會在10分鐘內上門的機率是多少?第5通電話上門的時間的平均數和變異數各為多少?
第二節 連續機率分佈 (12) 作法 • 電話上門是波氏歷程,因此這是伽瑪分佈。第一通電話上門的平均時間b為2,a為5,x = 10,因此 • 平均數µ = ab = 5 2 = 10,變異數σ 2 = ab2 = 5 22 = 20。
第二節 連續機率分佈 (13) • 指數分佈 • 伽瑪分佈中的a = 1,b = 1 / λ ,就是指數分佈(exponential distribution)。因此指數分佈就是伽瑪分佈的一個特例,其機率密度為: • 累積分佈函數為 • 指數分佈的平均數µ = 1 / λ ,變異數σ 2 = 1 / λ 2。
第二節 連續機率分佈 (14) • 指數分佈和伽瑪分佈可用來計算等候時間、產品可靠度、排隊問題等。伽瑪分佈裡是等候第n個成功事件的出現。指數分佈是等待第1個成功事件所需的時間。 例子3 • 小華每天早上8點左右都會搭乘公車上班。依照過去經驗,平均而言,每5分鐘會有一班公車。今天早上小華等了10分鐘,還沒有公車到來,今天有特別的倒楣嗎?
第二節 連續機率分佈 (15) 作法 • 公車抵站的事件可視為波氏歷程,因此等候時間為伽瑪分佈。其中a為1,b為5,x = 10。第一輛公車於10分鐘內通過的機率為0.86。10分鐘內沒有列車通過的機率就是1 – 0.86 = 0.14 • a為1,伽瑪分佈為指數分佈,其中λ =1/b=1/5。鍵入「=EXPONDIST(10,0.2,TRUE)」得第一輛公車於10分鐘內通過的機率為0.86。10分鐘內沒有公車通過的機率就是1 – 0.86 = 0.14。算不上特別倒楣。
第二節 連續機率分佈 (16) • 卡方分佈 • 若令伽瑪分佈中的a =n / 2,b = 2,就是卡方分佈(c2)。其機率密度為: • ν(唸作/nu/)是卡方分佈的參數,又稱為自由度(degree of freedom, df),n是正整數。卡方分佈的平均數µ = ab =n,變異數σ2 = ab2=2n。
第二節 連續機率分佈 (17) • 變項X是標準常態分佈,則X2是自由度為1的卡方分佈。 • 變項X1,,Xn均是獨立的標準常態分佈,則 • Y服從自由度為n的卡方分佈,此謂之卡方分佈的「可加性」。
第二節 連續機率分佈 (18) 例子4 • 在第五章裡關於標準常態分佈的敘述中,知道介於±1.645的機率為90%,介於±1.96的機率為95%,試問在自由度n為1的卡方分佈中,佔有中間的90%和95%的左右兩端的數值是多少?累積分佈(即左邊起算的面積)佔95%和97.5%的數值是多少?
第二節 連續機率分佈 (19) • 作法 1. 如果中間佔90%,表示左右兩端的面積各要5%。解 a和b使得P(X < a) = P(X > b) = 0.05。即: 鍵入「=CHIINV(0.95,1)」,就可得到P(X < a ) = 0.05中的a值為0.004,常寫成c20.95,1 = 0.004。鍵入「=CHIINV(0.05,1)」,就可得到P(X > b) = 0.05中的b值為3.841,常寫成c20.05,1 = 3.841。
第二節 連續機率分佈 (20) 2. 如果中間佔95%,表示左右兩端的面積各要2.5%。解 a和b使得P(X < a) = P(X > b) = 0.025。鍵入「=CHIINV(0.975,1)」得到a值為0.001。鍵入「=CHIINV(0.025,1)」,得到b值為5.024。 3. P(X > 3.841) = 0.05,P(X > 5.024) = 0.025,則左邊面積佔95%和97.5%的數值分別為3.841和5.024。