1 / 43

제 6 장

제 6 장. 상관과 회귀분석. 1. 상관과 회귀분석이란 무엇인가 2. 개선 및 분석을 위한 로드맵 3. KPOV 와 KPIV 의 이해 4. KPIV ( RED X ’ S ) 의 선정 5. 회귀분석의 개념 6. 미니탭을 이용한 회귀분석. 개 요. 두 개의 확률변수들간의 상호관련성에 관심을 갖게 되는 경우가 흔히 있다 . 이러한 경우 두 변수 사이의 관계가 있는가를 분석하는 것이 상관분석이다 . 회귀분석은 더 나아가서 선형모형을 설정하고 , 자료로부터 이 모형을 추정

roxy
Download Presentation

제 6 장

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 제 6 장 상관과 회귀분석 1. 상관과 회귀분석이란 무엇인가 2. 개선 및 분석을 위한 로드맵 3. KPOV와 KPIV의 이해 4. KPIV ( RED X’S ) 의 선정 5. 회귀분석의 개념 6. 미니탭을 이용한 회귀분석 개 요 두 개의 확률변수들간의 상호관련성에 관심을 갖게 되는 경우가 흔히 있다. 이러한 경우 두 변수 사이의 관계가 있는가를 분석하는 것이 상관분석이다. 회귀분석은 더 나아가서 선형모형을 설정하고, 자료로부터 이 모형을 추정 하여 예측 또는 통계적 추론을 하는 통계적 분석방법이다. 이 장에서는 상관 및 회귀분석에 대한 기본개념과 분석절차를 다루며, 현장 에서 발생되는 각종 분석을 위한 데이터의 상관성을 분석 및 평가 함으로써 문제를 해결하기 위한 목적이다.

  2. 학습 목표 1. 상관분석과 회귀분석에 대한 개념 및 기초적인 수학적 이론을 알 수 있도록 한다. 2. 상관분석방법과 회귀분석방법을 알 수 있도록 한다. 3. 관리하고자 하는 품질특성 및 조건에 대하여 상관분석과 회귀분석을 이용하여 Data를 분석하고 관리할 수 있는 방법을 습득한다. 주요 용어 • 상관분석 : 두 변수 사이의 관계가 있는가를 분석하는 것이 상관분석이다. • 회귀분석 : 변수들간의 관련성을 규명하기 위한 통계적인 분석방법이다. • KPOV : Key Process Output Variable의 약어 이며, 핵심 출력특성을 의미한다. • KPIV : Key Process Input Variable의 약어이며, 핵심 입력특성을 의미한다.

  3. 1. 상관분석 상관분석이란 ? 두 변수간의 관련성을 연구하는 통계적 분석을 상관분석(Crrelation Analysis)이라 한다. 이 때 취급되는 n개의 data (xi, yi ), i = 1,2, ……, n는 서로 독립적이고 또한 동일한 어떤 이변량 분포(Bivariate Distribution)를 따른다고 가정한다. yi Xi 확률변수 확률변수 외과의사와 간호사와의 상관관계는 ?

  4. 1. 상관분석 상관분석의 실행 절차는 ? 1) 산점도 Plotting 2) 표본상관계수(r) 산출 3) 상관표에 의한 상관계수의 계산 4) 상관에 관한 검정

  5. 1. 상관분석 두 변수 사이의 관계를 알아볼 때 가장 먼저 할 일은 서로 대응하는 자료를 좌표평면 위에 점들로 나타 내는 산점도(scatter diagram)를 그려보는 것이다. 1) 산점도 Plotting • Data를 의미하는 점들이 Positive(+)의 상관인가 Negative(-)의 상관인가 ? • 두 변량 x, y가 직선관계인가 곡선관계인가를 살펴본다. • 이상한 Data가 없나를 살펴보고, 이상점(outlier)발견되면 원인을 규명하여 수정한다. • 점들이 뚜렷하게 두개 또는 그 이상으로 층별되는 경우가 있는가 검토한다.

  6. 1. 상관분석 1) 산점도 Plotting 상관관계 의미가 없으니까, 상관계수값이 필요 없겠지요! 이상점을 어떻게 해야 할까? 검정-기각-채택 !

  7. 1. 상관분석 Positive(+)

  8. 1. 상관분석 2) 표본상관계수(r) 산출 모집단 상관계수(Population correlation coefficient) Cov(x,y)는 x와 y간의 공 분산(Covariance) 을 의미한다. σ x σ y와 동일

  9. 표본상관계수(Sample correlation coefficient) 1. 상관분석 2) 표본상관계수(r) 산출

  10. 1. 상관분석 2) 표본상관계수(r) 산출 범위: -1 ~ 1 사이(0인 경우는 상관관계가 없음을 의미) -1 또는 1에 가까울수록 강한 상관관계를 가지고 있음 (양의 상관관계: 독립변수가 증가할수록 응답도 증가) (음의 상관관계: 독립변수가 증가할수록 응답은 감소) 피어슨 상관계수(Pearson Correlation Coefficient)

  11. 일산화탄소 벤조피렌 일산화탄소 1 벤조피렌 0.96908172 1 1. 상관분석 대도시의 12지역에 대한 자동차의 배기가스와 대기오염과의 상관관계를 분석 하기 위해, 공기중의 일산화탄소 농도와 발암성 물질인 벤조피렌의 농도를 측정한 결과를 기준으로 상관 분석을 실시함. 일산화탄소와 벤조피렌의 농도측정 결과 • excel 분석 예 표본상관계수 ; r

  12. 1. 상관분석 3) 상관표에 의한 상관계수의 계산 양(+)의 상관 관계가 있다

  13. Mini TAB 분석 예 상관계수 r값 Data입력은 x, y로 구분입력

  14. 1. 상관분석 4) 상관에 관한 검정 대립가설 H1:ρ≠0

  15. r t0 = 1-r2 n-2 4) 상관에 관한 검정 1. 상관분석 모집단의 상관계수 ρ가 어떤 값을 가질 수 있는가에 대한 가설검정 H0: ρ = ρ0 H1: ρ ≠ 0 두변수가 이변량정규분포를 따르고, ρ=0 가 사실이면 통계량 t0수식에 의해 자유도가 n-2 인 t 분포를 한다는 것이 정설임. 이 가설검정에 대한 결정은 유의수준 α에서 만약 │t0│ > t (n-2 ; α/2) 이면, H0를 기각하고, 아니면 채택한다.

  16. 4) 상관에 관한 검정 1. 상관분석 두변수가 이변량정규분포를 따르고, ρ=0 가 사실이면 통계량 t0수식에 의해 자유도가 n-2 인 t 분포를 한다는 것이 정설임. 이 가설검정에 대한 결정은 유의수준 α에서 만약 │t0│ > t (n-2 ; α/2) 이면, H0를 기각하고, 아니면 채택한다. t 분포표를 근거로 한다. │t0│ > t (n-2 ; α/2) = 12.40 >[t (10, 0.025) = 2.228 ] 결론 : 귀무가설 을 유의수준에서 기각한다. 즉 공기중의 일산화탄소의 농도와 벤조피렌의 농도는 뚜렷한 상관관계가 있다.

  17. 2. 회귀분석 회귀분석 영국의 우생학자Francis Galton(1822-1911 ) 커짐 아 들 의 키 작아짐 작아짐 커짐 아버지의 키 Galton 의 결론 : 모든 것은 회귀한다 (Regress : 퇴화하다) .

  18. 2. 회귀분석 변수들간의 관련성을 규명하기 위해 어떤 수학적 모형을 가정하고, 이 모형을 측정 된 변수들의 데이터로부터 추정하는 통계적 분석방법 독립변수의 값을 지정하였을 때에 종속변수가 갖는 값의 정확한 추정이 목적 (1) 단순회귀 분석(simple regression analysis) : 독립변수 1개, 종속변수 1개로 이들 사이의 관계가 직선관계가 가정되는 경우 (2) 중회귀 분석(multiple regression analysis) : 독립변수 2개 이상, 종속변수 1개의 일차함수를 가정 (3) 곡선회귀 분석(curvilinear regression analysis) : 독립변수 1개, 종속변수 1개의 2차 이상의 고차함수를 가정하는 경우

  19. 2. 회귀분석 절편(상수) (xi, yi)  기울기 설명 안되는 편차 총편차 SST = SSR + SSE (총변동) (회귀변동) (잔차변동) 회귀직선이 유의한가 하는 가설검정은 SSR이 상대적으로 SSE 보다 얼마나 큰가를 분산분석표를 작성하여 F-검정을 통해 알 수 있다. 설명되는 편차 xi x 추정된 회귀직선이 x 와 y 간의 관계를 설명하는데 유의하다.

  20. Y Y ( xi, yi ) yi y = ax + b y = ax + b yi - (axi + b) (axi + b) x x xi 2. 회귀분석 • 회귀분석 (최소자승법: Method of Least Square) ( x1, y1 ), ( x2, y2 ), ( x3, y3 ), ..., ( xn, yn ) 오차(e) =

  21. 30 Random Time Sequence or Sample(Experiment) y Customer Requirement Fitting Line 95% Confience Level x Realistic Tolerance 2. 회귀분석 • 회귀분석 (Realistic Manufacturing Tolerance) Real input variable control(실 입력 변수관리)

  22.  총변동 중에서 회귀선에 의하여 설명되는 변동이 차지하는 비율 2. 회귀분석 회귀직선의 기여율 ( 결정계수 : R-square ) R2값은 회귀직선을 설명할 수 있는 변수들을 넣으면 넣을수록 좋아진다. R2– adj 값은 R2를 자유도로 나눈 값으로써 변수를 추가할 경우 자유도도 늘어나기 때문에 변수를 무조건 추가한다고 해서 좋아지지 않는다. 실제로 변수들이 모델을 설명할 수 있는 정도를 표시한다. R2값과 R2– adj 값의 차이가 많이 나지 않는 정도에서 설명변수의 개수를 유지 하는 것이 좋다.

  23. 2. 회귀분석 잔차분석( Residual analysis ) - 직선관계, 정규성, 독립성, 등분산성 등의 가정이 옳은가를 검토 residual residual 0 등분산성 정규성

  24. 2. 회귀분석 (Case Study) 대도시의 12지역에 대한 자동차의 배기가스와 대기오염과의 상관관계를 분석 하기 위해, 공기중의 일산화탄소 농도와 발암성 물질인 벤조피렌의 농도를 측정한 결과를 기준으로 상관 분석을 실시함. 일산화탄소와 벤조피렌의 농도측정 결과 • excel 분석 예

  25. 2. 회귀분석 (Case Study)

  26. 2. 회귀분석 데이터 입력 반응치로 쓰일 압력에 로그를 취하고 100을 곱함으로써 반응치의 구간이 늘어나게 되었다. Pressure일 경우 최저와 최고의 차이가 10정도인 반면 100*log(pressure)는 최저와 최고의 차이가 16 이다.

  27. 2. 회귀분석 모형의 구성 반응치 100*Log(Pressure)를 선택한다. 예측할 수 있는 변수에는 끓는 점을 선택한다.

  28. 2. 회귀분석  Graphs의 선택사항(1) 잔차들의 히스토그램 잔차들의 정규성 검사 잔차 Vs 회귀모델 추정치 잔차 Vs 관측순서

  29. 2. 회귀분석  Graphs의 선택사항(2) 모델의 적합도를 검사하기 위한 잔차 분석 Normal plot of residuals : 잔차들이 정규하게 분포한다면 일반적으로 직선의 형태 로 나타남. 만약 직선을 벗어나 있다면 이 모델은 정규성의 가정을 따르지 않음 Histogram of residuals : 정규분포(종 모양)를 따라야 함 Residuals vs fits : 0값의 양쪽에 랜덤하게 점들이 찍혀야 함. 만약 점들이 상승 하거나 하강하고, +값을 가지거나 -값을 가지는 잔차들이 월등히 많은 경우는 랜덤하지 않은 에러를 나타내는 것임 Residuals vs order : 데이터들의 순서에 따라 모든 잔차들을 플로팅한 것임 랜덤하지 않은 에러나 시간에 관련된 에러를 찾을 때 사용됨 Residuals vs other variables : 다른 변수에 대해서 잔차를 표시함

  30. 2. 회귀분석  Options의 선택사항 표시하지 않으면 절편을 나타내지 않음 적당한 회귀모형을 사용 했는지 알아볼 때 check 잔차들의 자기상관을 검출하고자 할 때 check Predictor들 끼리 상관이 있다면 추정 회귀 보조계수(estimated regression coefficient) 분산이 얼마나 변하는 지 알고 싶을 때 check

  31. 2. 회귀분석 회귀식 분석

  32. 2. 회귀분석  Normality Test

  33. 2. 회귀분석 잔차분석( Residual analysis ) 결과 Outlier : 측정을 잘못해서 생긴 이상 관측 치 관측 순서에 대한 잔차 회귀직선의 Fitted Value 대 잔차

  34. 2. 회귀분석 [Minitab을 이용한 회귀분석] Regression Analysis: Brightness versus Temp 회귀방정식 The regression equation is Brightness = 0.783 + 0.0323 Temp 회귀방정식의 상수 및 인자에 대한 t-검정 내용 Predictor Coef SE Coef T P Constant 0.7832 0.2331 3.36 0.012 Temp 0.032302 0.004347 7.43 0.000 회귀방정식의 결정계수 일반적으로 65%이상이면 방정식이 유의하다고 판단함 s=0.3027 R-Sq = 88.7% R-Sq(adj) = 87.1% Analysis of Variance Source DF SS MS F P Regression 1 5.0607 5.0607 55.22 0.000 Residual Error 7 0.6415 0.0916 Total 8 5.7022 인자의 분산분석 • 이 경우 F값이 55.22로 매우 크며, p=0.000으로 회귀방정식이 매우 유의함을 알 수 있음 • R-sq=88.7%로 전체변동 중에서 회귀식에 의해 설명되는 변동이 88.7%로 매우 높은 편임

  35. 2. 회귀분석  Minitab을 이용한 다중 회귀분석 • 다중회귀분석은 원인인자의 수가 2개 이상인 경우를 말함. • 결과치에 대해 각 변수가 선형인 관계에 사용함. 다중회귀방정식의 모형 error yi = β0 + β1x1i+ β2x2i+············+ βkxki+εi

  36. 2. 회귀분석  Minitab을 이용한 다중 회귀분석 ; 예제풀이 [예제] 어떤 공장에서 물의 소비량을 조사하기 위하여 매달의 물소비량(Y), 평균기온(X1), 작업일수(X2)와 작업량(X3)에 관한 데이터를 얻었다. 다중회귀분석을 실시하여라.

  37. 2. 회귀분석 • excel 분석 예

  38. 2. 회귀분석  Minitab을 이용한 다중 회귀분석 Minitab에 Data를 입력한 후, (Stat → Regression → Regression)

  39. 2. 회귀분석  Minitab을 이용한 다중 회귀분석 Response에 결과값(Y)의 칼럼을 입력 Predictors에 변수들의 칼럼을 입력(평균기온, 작업일수, 작업량) Graphs Button의 선택 (잔차의 분포를 파악)

  40. 2. 회귀분석  Minitab을 이용한 다중 회귀분석 [Graphs…] Button에서 • 잔차의 Type은 Regular • 잔차 Plot의 종류 • 히스토그램 • 잔차와 Fix값 비교

  41. 2. 회귀분석  Minitab을 이용한 다중 회귀분석 Regression Analysis : Consumption versus Temp. Day. Work The regression equation is Consumption = 2.41 + 0.0697 Temp – 0.0248 Day + 0.00588 Work 회귀방정식 Predictor Coef SE Coef T P Constant 2.410 1.123 2.15 0.076 Temp 0.06968 0.01266 5.51 0.002 Day -0.02477 0.04468 -0.55 0.599 Work 0.005876 0.005030 1.17 0.287 회귀방정식의 계수들에 대한 t-검정임 T값이 높을수록 Y에 공헌을 많이 하는 인자임. 여기서는 P값으로 볼 때. 평균기온이 가장 유의한 인자로 나타남 S = 0.1718 R-Sq = 92.0% R-Sq(adj) = 88.1% • 결정계수(R-Sq)의 값이 92%로 방정식이 • 아주 유의함 • R-Sq(adj)는 회귀식에 변수가 추가될때마다 • R-Sq가 증가하는데 이것을 조정한 값임. • 인자가 2개 이상일 경우 이 값이 의미가 있음 Analysis of Variance Source DF SS MS F Regression 3 2.04688 0.68229 23.11 Residual Error 6 0.17712 0.02952 Total 9 2.22400 Source DF Seq SS Temp 1 2.00432 Day 1 0.00227 전체 변동량에 각 인자들이 미치는 영향을 표시함

  42. 2. 회귀분석  Minitab을 이용한 다중 회귀분석 • 잔차 Plot이 무엇을 의미하는가? • 잔차가 무작위로 분포하고, 정규분포를 하고 있는가? [잔차의 히스토그램] [잔차의 Fitting값의 산점도] Histogram of the Residuals (response is 풀사용량) Residuals Versus the Fitted Values (response is 풀사용량) 4 3 2 1 0 0.2 0.1 0.0 0.1 0.2 Frequency Residual 3.0 3.5 4.0 -0.2 -0.1 0.0 0.1 0.2 Fitted Value Residual

  43. 내용 요약 1. 상관과 회귀분석이란 무엇인가 상관과 회귀분석의 개념을 이해하고, 현업에서 상관분석과 회귀분석을 통하여 문제를 분석 할 수 있도록 학습함. 2. 개선 및 분석을 위한 로드맵 상관과 회귀분석의 학습을 통하여 현장 개선과 분석을 어떻게 전개하는 것이 올바른 것인가를 이해를 할 수 있도록 학습함. 3. 미니탭을 이용한 회귀분석 미니탭 소프트 웨어를 이용하여 SQC를 이해하는 폭을 넓히고, 난해한 수학적인 모델을 이해 함으로서 통계적인 어려움을 소프트웨어를 통하여 쉽게 접근하는 방법을 학습함.

More Related