1 / 23

Regression Analysis ( 회귀 분석 )

Regression Analysis ( 회귀 분석 ). Regression 이란. 종속변수의 변화를 독립 변수들의 선형조합으로 설명하는 분석 기법 종속변수와 독립변수를 사이에 존재하는 통계적 관계를 추정하는 기법 변수간의 상호관계를 분석하며 , 특정변수의 변화로부터 다른 변수의 변화를 예측  Simple Regression vs. Multiple Regression Simple Regression : 독립변수가 1 개인 경우

nanda
Download Presentation

Regression Analysis ( 회귀 분석 )

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Regression Analysis(회귀 분석)

  2. Regression 이란 종속변수의 변화를 독립 변수들의 선형조합으로 설명하는 분석 기법 종속변수와 독립변수를 사이에 존재하는 통계적 관계를 추정하는 기법 변수간의 상호관계를 분석하며, 특정변수의 변화로부터 다른 변수의 변화를 예측 Simple Regression vs. Multiple Regression Simple Regression : 독립변수가 1개인 경우 y = a + bx + e ex) 매출액에 대한 광고비의 영향력 Multiple Regression : 독립변수가 2개 이상인 경우 y = a + b₁x₁ + b₂x₂+ bnxn + e 모델의 예측력 개선 (설명되지 않은 오차 감소)  e (error term/residual) : 독립변수 이외의 변수들이 종속변수에 미치는 효과

  3. Regression의 목적 ⅰ) 종속변수의 값을 독립변수의 값들로 추정 ⅱ) 종속변수와 독립변수 사이에 존재하는 관계 검토 cf) Multi-collinearity (다중 공선성) –독립 변수 값의 관계 ⅲ) 회귀분석 적용의 적합성 검토 ⅳ) 회귀분석을 이용한 예측의 통계적 유의성을 검증

  4. Regression의 기본원리 y = a + bx + e (회귀식) y^= a^+ b^x (추정식)  a^과 b^ 추정 e = y - y^ (관찰치와 예측치의 차이)  Least Square Method (Ordinary Least Square : OLS) : 오차의 제곱의 합을 최소화하는 최소 제곱법 y₁ y e₁= y - y^ y^= a^+b^x = TSS e₁  Rss ESS = y^- y y Rss Ess Tss=e₂ e₃ e4 x

  5. Minimize ∑ei = ∑[yⅰ- (a^+b^x)]2 e = y - y^= (y - y) + (y - y^) ∑(y - y^)2 = ∑(y - y)2 + ∑(y - y^)2 Tss = Rss + Ess Explained sum of square Residual Sum of Square Total sum of square  Error의 정의 TSS (Total Sum of Square) : ∑(y - y^)2 실제치(y) 와 추정치(y^)의 차이의 제곱의 합 RSS (Residual Sum of Square) : ∑(y - y)2 실제치(y)와 y의 평균( y )와의 차이의 제곱의 합 Unexplained Error (회귀선으로 설명이 안 되는 분산) ESS (Explained Sum of Square) : ∑(y - y^)2 y의 평균( y )와 추정치(y^)의 차이의 제곱의 합

  6. Regression의 접근방법 ① Simultaneous (or direct) method : “Enter” - 독립변수의 전체집합으로부터 회귀 모델 도출 ② Stepwise Method : “Stepwise” - 각 독립변수의 설명력을 근거로 하여 독립변수를 하나씩 순차적으로 회귀모델에 포함시키는 방법 Regression을 위한 유효 Sample size : 총 변수 ×10 = 유효 Sample

  7. Analysis 가) Goodness of Fit (설명력) ESS RSS R2 = ---- = 1 - ----- TSS TSS ∑(y - y^)2 ∑(y - y^)2 = ----------- = 1 - ----------- ∑(y - y^)2 ∑(y^- y^)2 (회귀선으로 설명되는 분산이 많을수록, 이 회귀선의 설명력이 높다)  Adjust R2 : 독립변수의 증가로 인한 자유도의 감소를 고려한 R2 ∑(y-y)2/(n-k) n = 표본의 수 R2 = 1 - ---------------- Where k = 추정치의 수 ∑(y-y^)2/(k-1) (전체 변수의 수)  Multiple R : 종속변수와 독립변수의 상관관계

  8. 나) 유의성 평가/검증 F 검증 Ho : 회귀모델을 사용함으로써 얻어진 오차의 감소가 유의적이지 않다 ESS / n-k MSR F = ---------- = ----- ~ F (K-1, n-k) RSS / (K-1) MSE F 값이 크면 회귀선이 설명할 수 있는 설명력이 크다

  9.  t - 검증 : 각 독립변수의 Coefficient가 0인지 아닌지 검증하는 방법 실제로 모집단의 분산(σ2)를 모르기 때문에 t-분포 Ho : b^ = 0 (H₁: b≠0) b^- b t = ------------ - tα(n - k+1) √‾Var(b^) S2 Where Var (b^) = --------- ∑(x-x)2 신뢰구간 : P[b± t 0.95 SD > b^] = 95x

  10. Output의 이해 [Analysis of Variance] F = F - Statistics Signif F = F의 Significance level [Variables in the Equation] B : Coefficient (회귀계수) SE B : Coefficient의 Standard Error Beta : 종속변수에 대한 각 독립변수의 상대적 중요성 (연관성의 크기 B를 표준화 한 수치) 즉, 독립변수의 한 표준편차 (One standard deviation)만큼의 변화가 종속변수에 발생시키는 변화의 크기

  11. T : t - Statistics B = ------ (t 값이 커질수록 유의성 증가) SE B In case, n > 30, if T > 2, B = 0 는 rejected Sig T : B의 유의수준 (B = 0를 reject하는 유의수준) 회귀식 : y = 0.48169 + 0.63224X₁+ 0.21585X₂ (1.461) (0.252) (0.108) *괄호 안은 유의 수준

  12. (a) Multiple R R Square Adjusted R Square Standard Error .92810 .86138 .80593 .78099 (b) Analysis of Variance DF Sum of Squares Mean Squares Regression Residual F 2 5 15.53440 18.95027 3.04973 Sigrif F = .0072 9.47514 .60995 (c) Variables in the Equation Variable X₂ X₁ (Constant) B .21585 .63224 .48169 SE B .10801 .25231 1.46141 Beta .44971 .56388 T 1.998 2.506 .330 Sig T .1021 .0541 .7551 Regression의 접근방법

  13. Regression 적용의 예 (Example 1) 만족도 평가에서 만족도에 영향을 주는 실제적인 요인 도출 및 영향력 정도 평가 전반적 만족도 = f (요인평가) * 설문방법 : 요인만족도 척도 평가 요인1 ( ) 요인2 ( ) . . . 전반적 만족도 ( ) * 영향을 주는 요인 산출  각 요인의 유의성 검증 (t-test) * 전반적 만족도에 영향력 정도 평가 β값 비교

  14. (Example 2) 구매의향에 영향을 주는 요인 도출 구매의향도 = f (요인평가) Ex) Brand A (Shampoo) 구매 Shampoo A의 구매의향 향기가 좋다 ( ) 색깔이 좋다 ( ) . . . 용기가 마음에 든다 ( )

  15. (Example 3) 기업별 선호 이미지 요인 산출 Ex) 기업이미지 요인 평가(Ⅰ) 기업 A의 선호도 = f (기업이미지 요인) 삼 성L G 대 우 1) 진취성 ( ) ( ) ( ) 2) 연구개발노력 ( ) ( ) ( ) 3) 전통성 ( ) ( ) ( ) 4) . ( ) ( ) ( ) . 다음 기업들을 좋아하는 정도? 1) 삼성 ( ) 2) L G ( ) 3) 대우 ( ) Ex 2) 기업이미지 요인 평가 (Ⅱ) 삼성 최선호 여부= f (기업이미지 요인) Logistic Analysis (삼성 최선호 = 1, otherwise = o)

  16. Regression을 통한 Prediction이 유효할 조건 ⅰ) 표본이 추출된 시점에서의 여건과 측정된 관계가 예측된 시점에서의 여건이 유사하여야 한다. ⅱ) 표본자료가 포괄하는 독립변수의 범위 내에서만 종속변수를 추정해야 함. 표본자료의 평균에 가까운 자료일수록 예측력이 높다

  17. 회귀분석의 기본가정 (가정 1) No Heteroscedasticity 종속변수의 Error tern의 분산의 X값에 따라 변화해서는 안 된다 (Homoscedasticity) 즉, X값의 변화에 따라 Y가 가질 수 있는 값의 평균은 달라도 평균을 중심으로 한 분산을 동일하야야 함. Var(y₁) = Var(y₂) = 2 y₂ y₁ X₁ X₂

  18. (가정 2) No autocorrelation Error Term간에 상관관계가 없어야 한다 만약, 있다면 종속변수의 값들이 체계적인 연관성을 가지고 있음을 시사 (방안) 상관관계가 높은 변수들을 하나로 묶거나, 한 개의 변수를 drop 할 수 있음. * 변수간의 상관관계 검증 : Durbin - Watson Test O ≤ D ≤ 4 ┌ D = 2 : No correlation ├ D > 2 : + 상관관계 └ D > 2 : - 상관관계 ∑(Et - Et) D = ---------- = 2(1-r) D = 0 ∑ Et2 D = 2 (r=1) D = 4 ρ= +1 ρ= 0 ρ= -1 D=0 D=2 (r=1) D=4

  19. (가정 3) E ~ N (0, 62) (가정 4) No multi-collinearity : 독립 변수간의 상관관계가 높지 않아야 한다. - 독립 변수간의 상관관계가 높으며 회귀식은 유의성이 있어도 특정 독립변수의 유의성이 낮아짐. 독립변수와 종속 변수간의 진정한 관계를 밝히기 어려움 (8) Dummy Variable의 도입 Dummy Variable : 명목 척도로 측정된 변수 EX) 성별, Social class, 날씨, 계절 등 계절성(Seasonality) 검증의 경우 Sales of Beer Brand A = f (광고지출액, 브랜드 인지율…, 계절성) y = a + d₁D₁+ d₂D₂+ d₃D₃+ b₁X₁+ … + e D가 가질수 있는 최대 범주 -1

  20. 변수의 변환 (Linear Transformation) ① 2차 다항식 y = ao + b₁xo + b₂x₂ x  x₁ y = ao + b₁xo + b₂x₂ x2x₂ ② 지수모델 x₁ x₂ x₃ xn ⅰ) y = ao b₁ b₂ b₃ ……… bn 양변에 log를 취함 log y = log ao + x₁log b₁+ x₂log b₂+ …… + xn long bn put Ao = log ao , B₁ = log b₁, …… b₁ b₂ b₃ bn ii) y = ao X₁ X₂ X₃……… Xn 양변에 log를 취함 log y = log ao + b₁log x₁+ b₂log x₂+ …… + bn long xn put log ao = Ao, log x₁= X₁, log x₂= X₂, …… log y * ------- = X₁에 대한 y의 Elasticity log X₁

  21. ③ Curviliar model ⅰ) y = ao + 3b₁/ x 3 put --- = X  y = ao + b₁X x b₁ ⅱ) y = aox 양변에 log를 취함 log y = log ao + b₁log x put log y = Y, log x = X then, Y = log ao + b₁X b₁ x₁ ⅲ) y = -------- 양변에 log를 취함 b₂ x₂ log y = log ao + b₁log x₁+ b₂log x₂ put log y = Y, log X₁, logx₂= X₂ then, Y = log ao + b₁x₁ + b₂x₂

  22. ④ Nonlinear model y = ao + b₁x₁+ (b₁+ b₂)x₂ put b₁+ b₂ = b₃ then, y = ao + b₁x₁+ b₃x₂ ……… ⓐ Estimate ⓐ Calculate b₂( = b₃- b₁) Use ao, b₁, b₂ as initial values

  23. Binary Dependent Variable ⅰ) dep, Variable이 metric  multiple Regression ⅱ) dep, Variable이 non-metric  (Logistic Regression) Linear probability model 적용 (non-metric dep. Variables) Logistic Regression (Logit analysis) : when dep. Var이 binary(dichotomous)일 때의 regression binary variable : ⅰ) 구입여부 ⅱ) 성공/실태 (응답확률이 각각 50%인 경우) ⅲ) Yes/No Ex) y = a + b₁x₁+ b₂x₂+ b₃x₃+ b₄x₄+ e y : 구입의향 x₁: 성능평가 x₂: 디자인 평가 x₄: 메이커 선호 prob [Yes] ----------- = ao + b₁x₁+ b₂x₂+ …… + bn xn prob [No]

More Related