720 likes | 1.41k Views
제 7 장. 추 정. 통계적 추론 방법. ∧. Θ. 임의 추출. 모 수 Θ. 통계량. 추론. 점추정. 통계적 추론 (statistical inference) : 표본으로부터 얻은 정보를 이용하여 과학적으로 미지의 모수를 추론하는 과정으로 추정 (estimation) 과 가설검정 (hypothesis testing) 모수 (parameter) : 모집단의 특성을 나타내는 수치. 점추정값. 모수. 추정량.
E N D
제7장 추 정
통계적 추론 방법 ∧ Θ 임의 추출 모 수 Θ 통계량 추론 점추정 • 통계적 추론(statistical inference) :표본으로부터 얻은 정보를 이용하여 과학적으로 미지의 모수를 추론하는 과정으로 추정(estimation)과 가설검정(hypothesis testing) • 모수(parameter) :모집단의 특성을 나타내는 수치
점추정값 모수 추정량 • 추정량(estimator) :모수를 추정하기 위하여 사용되는 통계량, 추정량은 X1, X2, … , Xn의 함수인 확률변수 • 점추정(point estimate) :모수에 대한 추정량이 표본추출에 따라 가변적이므로 최적의 추정값을 얻어야 하며, 이러한 최적의 추정값을 구하는 과정
예를 들어, 모평균 μ를 추정하기 위하여 표본평균 을 이용한다면, 모집단 분포로부터 얻어지는 표본의 관찰값들의 평균으로 모평균을 추정함을 의미
⊙점추정량의 성질 • 불편성(unbiasedness) 모수 에 대한 점추정량 에 대하여 를 만족할 때, 추정량 를 의 불편추정량(unbiased estimator) 일 때, 를 편의추정량(biased estimator) 를 편의(bias)
S2은 편의 추정량 • 표본평균 는 모평균 μ에 대한 불편추정량이다. • (2) 표본분산S2은 모분산 σ2에 대한 불편추정량이다. • (3) 표본비율 는 모비율 p에 대한 불편추정량이다.
편의 불편추정량 : 편의추정량 : 미지의 모평균 μ를 가지는 모집단으로부터 크기 3인 확률표본 X1 , X2 , X3 을 추출하여, 모평균에 대한 점추정량을 다음과 같이 정의하였다. 각 추정량의 편의를 구하고 불편추정량과 편의추정량
2.62 2.69 2.71 2.73 2.66 2.64 2.81 2.78 2.76 2.84 모평균 μ와 모분산 σ2을 갖는 모집단으로부터 크기 10인 확률표본을 다음과 같이 얻었다. 이 표본을 이용하여 모평균과 모분산의 불편추정값 표본평균과 표본분산이 각각 모평균과 모분산의 불편추정량이므로 표본평균과 표본분산을 구한다.
모수 에 대한 점추정량들 에 대하여 일 때, 추정량 를 의 유효추정량(efficient estimator) 모수 의 유효추정량 : 추정량 의 표준오차(standard error) : • 유효성(efficiency)
은 에 비하여 μ에 대한 유효성을 갖는다. 예제 1에서 : μ에 대한 유효추정량 ⊙ 최소분산불편추정량(minimum variance unbiased estimator; MVUE) : 가장 작은 분산을 갖는 불편추정량
불편추정량 : 유효추정량 : 예제 1의 불편추정량들 중에서 유효추정량 최소분산불편추정량
평균 μ와 분산 σ2을 갖는 확률변수들 X1, X2, …, Xn에 대하여, • μ에 대한 점추정량 • 을 생각하자. 이때, a1, a2, …, an은 양의 실수이다. • 가 모평균 μ에 대한 불편추정량이 되기 위한 a1, a2, …, an의 조건 • (2) 가 최소분산을 갖기 위한 a1, a2, …, an =? (1) 가 불편성을 갖기 위하여 a1 + a2 + … + an = 1
a2 + a2 2 1 : 최소 : μ에 대한 최소분산불편추정량 (2) 일반성을 잃지 않고, n = 2인 경우를 생각한다. : 최소 : 최소 (1)에 의하여 a1 + a2 = 1 즉, a1 = a2 = ½일 때, a1 , a2 , … , an에 적용하면 a1 = a2 = … = an = 1/n
일치성(consistency) 모수 θ를 추정하기 위한 크기 n인 표본으로부터 얻은 추정량 에 대하여, 크기 n이 커질수록 가 모수 θ에 근접하는 경우, 즉 임의의 양수 ε에 대하여 을 만족할 때, 추정량 을 모수 θ에 대한 일치추정량(consistent estimator)이라 한다.
Chebyshev 부등식에 의하여 • 이므로 모평균 μ에 대한 일치추정량 모분산 • 이므로 σ2에 대한 일치추정량 모비율 • 이므로 p에 대한 일치추정량
• 서로 다른 기대값과 서로 다른 분산을 가지는 두 점추정량을 비교하는 방법 모수 Θ에 대한 두 점추정량 에 대하여 인 경우 ⊙ 평균제곱오차(mean square error; MSE) 를 이용
(2) 의 분산이 의 분산보다 더 크므로 가 더 폭넓게 나타난다. 모수 Θ에 대한 점추정량 와 가 각각 다음과 같은 정규분포를 이룬다고 하자. (1) 모수 Θ로부터 편의가 작은 점추정량은? (2) 두 점추정량 중에서 어느 것이 더 폭넓게 분포하는가? (3) 어느 점추정량이 모수 Θ에 대한 추정량으로써 바람직한가? (1) 의 편의가 더 작다 (3) 가 모수 Θ에 대한 추정량으로써 바람직하다.
모평균의 추정 • 구간추정(interval estimation) : 모수 Θ의 참값이 포함되리라고 믿어지는 구간을 추정하는 방법 모수 Θ를 추정하기 위한 두 통계량 : 을 설정 표본의 관찰값 통계량의 관찰값 구간 (l, u) : 모수 Θ에 대한 신뢰수준 1-α의 신뢰구간(confidence interval) 또는 신뢰도(degree of confidence) 100(1-α)%의 신뢰구간
구간추정에서 95% 신뢰도라 함은 표본으로부터 얻은 신뢰구간이 정확한 모수의 참값을 포함할 확률이 95%임을 나타내는 것이 아니고, 다음 표와 같이 동일한 모집단으로부터 동일한 크기의 표본100개를 임의로 추출하였을 때, 이 표본으로부터 얻은 100개의 신뢰구간들 중에서 95%에 해당하는 95개의 구간이 모평균의 참값을 포함하고 나머지 5%에 해당하는 5개의 구간은 모수의 참값을 포함하지 않음을 의미 μ의 참값을 포함하지 않는 신뢰구간들
모분산을 아는 경우 : n개를 임의추출 점추정량 : N(μ, σ2 ) σ2 : 기지 에 대한 100(1-α)%오차한계
에 대한 90%오차한계 : 에 대한 95%오차한계 : 에 대한 99%오차한계 :
100(1-α)%신뢰구간 : 즉, 100(1-α)%신뢰구간은 점추정값 를 중심으로 임계점 zσ/2와 의 표준오차 의 곱을 반경으로 갖는다. 모분산 σ2을 알고 있을 때, 정규모집단의 모평균 μ에 대한 구간추정량 : 점추정량 를 중심으로 100(1-α)%오차한계를 가지는 두 추정량 L과 U를 선정한다.
모표준편차가 0.2인 정규모집단에서 10개의 자료를 표본으로 추출하여 • 다음과 같은 결과를 얻었다. • (1) 모평균에 대한 점추정값 • (2) 표준오차를 구하여라. • 에 대한 95% 오차한계 • (4) μ에 대한 95% 신뢰구간 0.27 0.34 0.34 0.36 0.30 0.28 0.41 0.35 0.48 0.43 (1) (2) (3) (4) 95% 신뢰구간 : (0.233, 0.479)
표본분산 S2으로 대치 n개를 임의추출 점추정량 : N(μ, σ2 ) σ2 : 기지 에 대한 100(1-α)%오차한계 • 모분산을 모르는 경우 :
에 대한 90%오차한계 : 에 대한 95%오차한계 : 에 대한 99%오차한계 :
100(1-α)%신뢰구간 : 즉, 100(1-α)%신뢰구간은 점추정값 를 중심으로 임계점tσ/2(n-1)과 의 표준오차 의 곱을 반경으로 갖는다. 모분산 σ2을 모르는 경우, 정규모집단의 모평균 μ에 대한 구간추정량 : 점추정량 를 중심으로 100(1-α)%오차한계를 가지는 두 추정량 L과 U를 선정한다.
정규모집단 N(μ, σ2)에서 크기 5인 표본을 추출한 결과 [2.9 2.5 3.7 3.0 2.8] • (1) 모평균의 점추정값 • (2) 표준오차 • 에 대한 95% 오차한계 • (4) μ에 대한 95% 신뢰구간 : (1) (2) (3) (4) 95%의 신뢰구간 :
⊙ 모분산을 모르는 정규모집단으로부터 대단위 표본을 추출하는 경우, 표본평균 는 중심극한정리에 의하여 정규분포에 근사 S2 → σ2으로 수렴하므로 z-추정에 의하여 근사적으로 모평균에 대한 신뢰구간을 구한다. 전국 100세 이상 노인 103명을 대상으로 2002년 10월에 조사된 자료에 의하면, 평균 혈중 콜레스테롤이 174.6㎎/㎗로 나타났다. 만일 이 자료에서 표준편차가 12㎎/㎗으로 나타난다 할 때, 전국 100세 이상 노인의 평균 혈당치에 대한 95% 신뢰구간 95% 신뢰구간 : (172.283, 176.917)
σ2 , σ2 1 2 ▶ 두 모집단의 모분산 을 알고 있는 경우 : 표본평균 : n개 표본평균 : m개 N(μ1, σ2 ) N(μ2, σ2 ) 1 2 • 모평균의 차에 대한 추정 :
▶ 에 대한 100(1-α)%의 오차한계 : 에 대한 90%의 오차한계 : 에 대한 95%의 오차한계 : 에 대한 99%의 오차한계 : 추정분포 표준오차 ▶두 모평균의 차 μ1 -μ2에 대한 점추정량 :
대도시와 중소도시의 무연 휘발유 가격에 차이가 있는지 알아보기 위하여 표본 조사한 결과 : 단위는 1,000원이다. 대도시 표본 : [1.69, 1.79, 1.68, 1.72, 1.66, 1.73, 1.59, 1.78, 1.72, 1.63, 1.55, 1.85] 중소도시 표본 : [1.46, 1.47, .42, 1.51, 1.55, 1.52, 1.48, 1.47, 1.53, 1.50] 이때, 중소도시와 대도시의 휘발유 가격은 각각 독립이고, 모표준편차가 각각 0.03과 0.08인 정규분포를 이룬다는 사실을 알고 있다고 한다. (1) 대도시와 중소도시의 평균 가격의 차에 대한 점추정값 (2) 두 도시의 표본평균의 차에 대한 표준오차 (3) 두 도시의 휘발유 평균가격의 차에 대한 90%, 95% 그리고 99% 신뢰구간 (1) 대도시와 중소도시의 표본평균을 각각 와 라 하면, 점추정값 의 추정값 : (2)
(3) 90% 신뢰구간의 상한과 하한 : 90% 신뢰구간 : (0.1669, 0.2557) 95% 신뢰구간의 상한과 하한 : 95% 신뢰구간 : (0.1584, 0.2642) 99% 신뢰구간의 상한과 하한 : 99% 신뢰구간 : (0.1416, 0.2810)
▶ 두 모집단의 모분산 이 미지인 경우 : 표본평균 : 표본분산 : n개 N(μ1, σ2 ) 합동표본분산 표본평균 : 표본분산 : N(μ1, σ2 ) 추정분포 : m개 σ2 = σ2 = σ2 1 2 표준오차 : 에 대한 100(1-σ)%오차한계 :
남학생과 여학생의 몸무게는 각각 동일한 분산을 갖는 정규분포를 이룬다고 한다. 두 그룹에서 각각 4명씩을 임의로 추출하여 조사한 결과 다음과 같은 결과를 얻었다. (1) 두 그룹의 평균 몸무게의 차를 추정 (2) 의 표준오차 (3) 에 대한 90% 오차한계 (4) 남학생과 여학생의 평균 몸무게의 차에 대한 90% 신뢰구간 남학생 64 66 69 72 여학생 46 47 53 53 ▶두 모평균의 차 μ1 – μ2에 대한 점추정량 : 100(1-σ)%신뢰구간 :
(1) 남학생과 여학생 각각의 표본평균 : 평균 몸무게의 차에 대한 추정값 : (2) 두 표본의 표본분산 : 합동표본분산 : 합동표준편차 : 표준오차 : (3) 자유도가 6이므로 에 대한 90% 오차한계 :
(4) 90% 신뢰구간의 하한 : 상한 : 90% 신뢰구간 :
n개 N(μ, σ2 ) 추정분포 : χ2 (n-1) , χ2(n-1)에 대하여 α/2 1-α/2 모분산과 모비율의 추정 • 모분산의 추정 : 표본분산 : S2: 모분산 σ2에 대한 최소분산불편추정량, 일치추정량
정규모집단 N(μ, σ2)에서 크기 5인 표본을 추출한 결과 : [2.9 2.5 3.7 3.0 2.8] (1) 모분산의 점추정값 (2) σ2에 대한 95% 오차한계 (1) 표본평균 : 표본분산 : 모분산에 대한 점추정값 : (2) 95% 신뢰구간 :
표본비율 : p : 모비율 p에 대한 불편추정량, 일치추정량 ∧ p = X/n ∧ • 모비율의 추정 : n p ≥ 5, n (1-p) ≥ 5이면 X ≈ N (np , np(1-p)) 추정확률분포 : 표준화 :
p : 모비율 p에 대한 불편추정량, 일치추정량 ∧ 표준오차 : 또는 p로 대치함 ∧ 또는
|p – p|에 대한 100(1-α)%오차한계 : ∧ |p – p|에 대한 90%오차한계 : |p – p|에 대한 95%오차한계 : |p – p|에 대한 99%오차한계 : ∧ ∧ ∧ 또는 또는 또는 또는 모비율 p에 대한 100(1-α)%신뢰구간 : 또는
어느 회사에서 새로 개발된 50나노 디램의 신뢰성을 조사하기 위하여 200개를 임의로 추출하여 2,000시간을 사용하였다. 이때 2,000시간 동안 정상적으로 작동한 램은 195개로 조사되었다고 한다. 이 회사에서 제조된 전체 램을 모집단으로 하여, (1) 이 회사에서 제조된 램이 정상적으로 작동할 비율 p의 추정값 (2) 표본비율 p의 표준오차 (3) |p - p|에 대한 95% 오차한계 (4) 모비율 p에 대한 95% 신뢰구간 ∧ ∧ (1) 200개의 램으로 구성된 표본에서 195개가 정상적으로 작동하였으므로, (2) (3) |p - p|에 대한 95% 오차한계 : ∧
(4) 95% 신뢰구간 : 하한 : 상한 : 95% 신뢰구간 : (0.9534, 0.9966)
표본비율 : 표본비율 : • 두 모비뮬의 차에 대한 추정 :
표준화 p : 모비율 p에 대한 불편추정량, 일치추정량 ∧ 추정확률분포 :