1 / 83

상관분석 (Correlation Analysis)

VI. Correlation & Regression Analysis. 상관분석 (Correlation Analysis). 목적 두 개의 집단 간에 직선적인 관계가 존재하는 지 데이터를 이용하여 파악하는 통계적 방법이다 . 가설 귀무가설 (H 0 ) :  = 0 ( 상관 관계가 없다 .) 대립가설 (H 1 ) :   0 ( 상관 관계가 있다 .) 상관 계수 (Correlation Coefficient ; r) 두 집단간의 직선적인 관계를 나타내는 지표로서 , -1 부터 +1 사이 의 값을 갖는다 .

afia
Download Presentation

상관분석 (Correlation Analysis)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. VI. Correlation & Regression Analysis 상관분석(Correlation Analysis) • 목적 두 개의 집단 간에 직선적인 관계가 존재하는 지 데이터를 이용하여 파악하는 통계적 방법이다. • 가설 • 귀무가설(H0) :  = 0 (상관 관계가 없다.) • 대립가설(H1) :  0 (상관 관계가 있다.) • 상관 계수(Correlation Coefficient ; r) • 두 집단간의 직선적인 관계를 나타내는 지표로서, -1부터 +1 사이 의 값을 갖는다. • -1에 가까울수록 “음의 상관”을 +1에 가까울수록 “양의 상관”을 갖는다.

  2. VI. Correlation & Regression Analysis 상관분석(Correlation Analysis) r = 1 r = -1 r = 0 • 상관관계 검정에 앞서 산점도를 이용하여 개략적인 관계를 꼭 파악한다. • 직선적인 관계가 아니라면 회귀분석과 같은 방법을 이용한다. • 이상치가 존재하는지 여부를 확인한다.

  3. VI. Correlation & Regression Analysis 상관분석(Correlation Analysis) Stat > Basic Statistics > Correlation... 인자 선택 P-value가 유의수준 (=0.05)보다 작으므로 귀무가설(H0) 기각 “상관관계가 있다.” P-Value를 표시하기 위한 옵션

  4. VI. Correlation & Regression Analysis 상관분석(Correlation Analysis) • 무슨 정보를 얻을 것인가?

  5. VI. Correlation & Regression Analysis 회귀분석(Regression Analysis) • 목적 반응 인자(Response variable)와 하나 이상의 예측 인자(Predictor Variables) 사이의 관계를 표본으로부터 추정하여 수학적 모형을 만들고, 이를 통해 반응 인자에 대한 예측을 하는 방법 • 종류(인자 수에 의한 분류) • 단순회귀분석(Simple Linear Regression Analysis) • : 반응인자 1개와 예측 인자 1개로 구성 • (예) Y = b0 + b1X1 • 다중 회귀분석(Multiple Regression Analysis) • : 반응인자 1개와 두 개 이상의 예측 인자로 구성 • (예) Y= b0 + b1X1 + b2X2 + … +bkXk

  6. VI. Correlation & Regression Analysis 회귀분석 - 절차 • 산점도 • 행렬 산점도 • 드래프스만도 자료 탐색 회귀 분석 수행 • Stepwise • Best Subsets • 인자 추가 및 삭제 모형 선정 No Good 모형 검토 Good 예측 활용

  7. VI. Correlation & Regression Analysis 회귀분석(Regression Analysis) Stat > Regression > Regression... 회귀모형을 검토를 위한 그래프 반응인자 선택 예측인자 선택

  8. VI. Correlation & Regression Analysis 회귀분석 미니탭 결과 회귀 모형 Y = f(X) H0 : 1=0 H1 : 10 R2=SSRegression/SSTotal • 기울기(1)가 “0”이 아니면, Y와 X 간에는 관계가 존재한다는 것. • R-sq(R2)는 Y(반응인자)의 변동에 대한 회귀모형의 설명 정도를 나타냄

  9. VI. Correlation & Regression Analysis 다중 회귀(Multiple Regression) • 예측인자(X)의 수가 2개 이상인 경우의 회귀분석 • 다중 회귀분석을 통해 인자를 선별하는 방법은 다음 세 가지가 있다. • Regression “LSE”을 이용해 각 예측인자의 계수를 검정(Testing) 하여, 의미 있는 인자를 선정 • Stepwise 예측인자를 모형에 삽입, 제거 하는 과정을 반복적 으로 수행하여 가장 좋은 모형을 제시 • Best Subsets 몇 가지 지표(adj R2, S, Cp 등)를 기준으로 반응인자 (Y)를 가장 잘 설명하는 모형을 제시 X1, X2, …, Xk X1, X2, X3

  10. VI. Correlation & Regression Analysis 다중 회귀 - Regression Stat > Regression > Regression... • “East”의 P-Value가 유의수준(=0.05) 보다 크므로 통계적으로 유의하지 못함 • 유의한 예측인자는 “South”, “North” “South”, “North”만을 포함하는 회귀분석을 다시 실시

  11. VI. Correlation & Regression Analysis 다중 회귀 - Regression Stat > Regression > Regression... • 세인자 포함 시 : R2=87.4%, adj-Rsq=85.9% • “East” 제거 시 : R2=85.9%, adj-Rsq=84.8% 유의하지 않은 인자를 하나 제거해도 크게 차이가 없음

  12. VI. Correlation & Regression Analysis 다중 회귀 - Stepwise Stat > Regression > Stepwise... 반응인자 예측인자 입력 • 인자 선택(Variable Selection) 방법 • Stepwise • Forward Selection • Backward Selection 예측인자 중에서 반드시 모형에 포함해야 하는 인자를 입력

  13. VI. Correlation & Regression Analysis 다중 회귀 - Stepwise 결과 해석 • Step #1 North • Step #2 North, South • Step #3 North, South, East • (결과) Step #3에서 “East”의 P-Value가 0.092로서 유의하지 않은 것으로 판정. 모형에는 “North”, “South”만 포함. • Stepwise 방법은 인자의 유의성 판정과 모형의 적합도 까지 알 수 있다.

  14. VI. Correlation & Regression Analysis 모형에 포함 될 최대, 최소 인자수 다중 회귀 - Best Subsets Stat > Regression > Best Subsets... 반응인자 제시되는 우수 모형의 수 예측인자 입력 예측인자 중에서 반드시 모형에 포함해야 하는 인자를 입력

  15. VI. Correlation & Regression Analysis 다중 회귀 - Best Subsets 결과 • 가장 잘 적합 된 모형이 어느 것인지 비교할 수 있도록 해 준다. • 기준(Criteria) • R-sq: 100%에 가까운 것 • R-sq(adj): 100%에 가까운 것 • C-p: P(인자수+1)와 같거나 작은 것 • S: 작은 것 • Best Subsets은 인자 자체의 유의성 보다는 여러 모형을 비교하여, 가장 적합(Goodness of Fit)이 잘 된 모형이 무엇인지 알려 준다.

  16. VI. Correlation & Regression Analysis 회귀분석 - Fitted Line Plot • 예측인자(X)의 수가 하나 인 경우, 단순회귀(Simple Linear Regression)나 다항 회귀(Polynomial Regression) 모형을 적합하는 경우에 사용하는 방법 신뢰구간(CI)과 예측구간(PI)을 표시 모형의 선택 Linear : 1차(X) Quadratic : 2차(X^2) Cubic : 3차(X^3) Stat > Regression > Fitted Line Plot...

  17. VI. Correlation & Regression Analysis 회귀분석 - Fitted Line Plot 회귀 모형 예측 구간(PI) 신뢰 구간(CI)

  18. VI. Correlation & Regression Analysis 연습 문제 - Fitted Line Plot • 문제 “Energy Consumption”을 반응인자(Y)로, “Machine Setting”을 예측인자(X)로 하여 회귀모형을 적합 하시오. • 파일 Exh_regr.mtw Stat > Regression > Fitted Line Plot...

  19. VI. Correlation & Regression Analysis 잔차 분석 • 표본으로부터 추정된 회귀모형의 타당성을 검토하기 위한 절차 • 잔차(Residual ; ei) • –실제 측정값과 예측 값의 차 ( ) • 적절한 회귀모형이 가져야 할 잔차에 대한 기본 가정 • 잔차는 평균이 “0”이고, 분산은 일정해야 한다. • 잔차는 정규분포를 따라야 하며, 서로 독립적이어야 한다. 잔차 분석을 통한 모형 검토 후에 비로소 예측을 위한 회귀모형이 사용된다.

  20. VI. Correlation & Regression Analysis 잔차 분석 Stat > Regression > Regression… > Graph 회귀모형을 검토를 위한 그래프 반응인자 선택 예측인자 선택

  21. VI. Correlation & Regression Analysis 잔차 분석 결과 잔차의 패턴 검토 (예측 값의 변화에 따른) 잔차의 정규성 검토(히스토그램) 잔차의 패턴 검토 (시간에 흐름에 따른) 잔차의 정규성 검토(정규확률도)

  22. VII. Measurement System Analysis 측정시스템 분석(MSA) • 목적 MSA(Measurement Systems Analysis)란 측정시스템 산포로 인하여 관측된 공정 산포 에 얼마나 많은 영향을 미치는 지를 분석하는 것 이다.

  23. VII. Measurement System Analysis 산포의 분해 피타고라스 정리 전체 산포(TV) 제품 산포(PV) 측정시스템 산포(TV) 측정시스템 산포(TV) 재현성 (Reproducibility) 반복성 (Repeatability)

  24. VII. Measurement System Analysis 반복성과 재현성 • 반복성(Repeatability) 동일한 측정시스템에 의해 동일한 대상을 반복 측정 했을 때, 측정시스템 내의 산포 • 재현성(Reproducibility) 서로 다른 측정시스템에 의해 동일한 대상을 반복 측정했을 때, 측정시스템 간에 발생하는 산포 시스템A 시스템B 시스템C 반복성 5.15(99%) 재현성

  25. VII. Measurement System Analysis 정확도와 정밀도 • 정확도(Accuracy) 치우침(Bias)의 정도를 말하며, 정확도는 치우침 으로 평가 될 수 있다. 치우침은 참값과 측정값의 차이이다. • 정밀도(Precision) 측정시스템에 의한 측정값의 산포를 의미한다. Precise, Not Accuracy Accuracy, Not Precise

  26. VII. Measurement System Analysis Gage R&R Stat > Quality Tools > Gage R&R Study(Crossed)... 시료 번호 측정시스템 번호 측정값 공차 입력 • “ANOVA” Method는 재현성을 “측정시스템” 산포와 “측정 시스템 & 제품의 교호인자” 산포로 구분할 수 있으므로 “Xbar and R” Method 보다 더 많은 정보를 제공한다.

  27. VII. Measurement System Analysis Gage R&R - 결과 해석 • VarComp 각 요소의 분산(Variance) • %Contribution 전체 산포(분산)에서 각 요소가 차지하는 점유율 • (각 요소의 분산 / 총 분산) • StdDev(SD) 각 요소의 표준편차 • Study Var 각 요소의 표준편차*5.15 • %Study Var(%SV) 각 요소의 표준편차 / 총 표준편차 • %Tolerance 각 요소의 SV / 공차 • 일반적으로 Number of Distinct Categories가 4 이상인 경우 측정 능력이 있음

  28. VII. Measurement System Analysis Gage R&R - 결과 해석 • R관리도는 측정시스템의 차별력과 Gage R&R 실험에 특수원인이 개입되었는지를 나타낸다. • Xbar 관리도에서 찍힌 점들이 대부분 관리한계 선을 벗어나면 반복성이 좋음을 나타낸다. • “By Part” 그림에서 위 아래로 변동이 심하다면, 제품 산포(PV)가 나쁘다는 것을 나타낸다. • “By Operator” 그림에서 위 아래로 변동이 심하다면, 재현성(Reproducibility)가 나쁘다는 것을 나타낸다. • “Operator*Part” 그림에서 각 선이 서로 크게 교차되면, 측정시스템과 제품 간에 교호작용이 있다는 것을 나타낸다

  29. VII. Measurement System Analysis Gage 평가 기준 %Contribution %Study Var Distinct Categories 우수 < 1% < 10% > 10 양호 1% ~ 9% 10% ~ 30% 4 ~ 9 부족 > 9% > 30% < 4 • 최근의 추세는 %Study Var와 함께 %Tolerance를 측정시스템 평가 지표로 사용한다. 기준은 %Study Var과 같다.

  30. VII. Measurement System Analysis 연습 문제 - Gage R&R • 문제 “Length”라는 측정치에 대해 3명의 Operator가 10개의 시료를 각각 2회씩 반복 측정하였다. Gage R&R 결과를 해석하시오. • 파일 Gagerr.mtw Stat > Quality Tools > Gage R&R Study(Crossed)...

  31. VIII. Capability Analysis 공정능력 분석이란? • 공정능력이란? 안정된 공정의 미래의 수행능력을 평가 하는 것. • 공정능력 규격 한계(Specification Limits)에 대비하여 공정이 수행하는 능력이 얼마인지를 수치적으로 나타낸 것. • 공정능력 지표의 종류 • 전통적인 지표 : Cp, Cpk, Pp, Ppk • Six Sigma에서 사용하는 지표 : DPU, DPMO, ZST, ZLT, ZBENCH

  32. VIII. Capability Analysis 전통적인 공정능력 지수들 Cp와 Pp는 뭐가 다르지? Cpk와 Ppk는? • Cp는 산포의 크기만을, Cpk는 산포와 중심치를 모두 고려한 공정능력 지수다.

  33. VIII. Capability Analysis 단기, 장기 공정능력지수 g n 2 S S =SSW 공정의 중심치는 시간이 흘러감에 따라 자연스럽게 움직인다. (X - X j) ij j = 1 i = 1 Time 1 Time 2 Time 3 Time 4 n g SST= 2 S S (X - X) g ij 2 S =SSB ( ) n X - X j = 1 i = 1 j j = 1

  34. VIII. Capability Analysis 단기, 장기 공정능력지수 • 단기 공정능력지수 어느 특정한 시점에서의 시료군 내의 산포만 으로 표현된 공정능력지수를 말한다. • 장기 공정능력지수 경과된 시간 전체에서 수집된 데이터의 총 산포 로서 시료군 내의 산포와 시료군 간의 산포를 모두 포함하는 공정능력지수를 말한다. 단기 공정능력지수 장기 공정능력지수 Cp Cpk ZST Zbench_ST Pp Ppk ZLT Zbench_LT 단기 공정능력지수를 산출 할 때는 ST를 사용 장기 공정능력지수를 산출 할 때는 lT를 사용

  35. VIII. Capability Analysis Z값 • 한쪽 규격만 존재하는 경우는 ZUSL, 혹은 ZLSL로서 Z값을 나타내지만 양쪽 규격이 존재하는 경우는 양쪽 규격을 모두 벗어날 추정 불량율을 통해서 Z값을 구한다. 즉, 양쪽 규격을 고려한 Z값이 ZBENCH이다. • ZST를 구할 때는 단기 표준편차(ST)를 사용하고, ZLT를 구할 때는 장기 표준편차 (LT)를 사용한다.

  36. VIII. Capability Analysis 공정능력 분석 - 계량형 데이터 Stat > Quality Tools > Capability Analysis Normal... Stack 형태의 자료는 데이터 열과 시료군 크기 입력 전통적인 공정 능력지수와 Z값 중에서 원하는 Output 선택 Unstack 형태의 자료는 데이터가 입력된 열을 선택 규격입력

  37. VIII. Capability Analysis 공정능력 분석 - 결과 비교 Cp, Cpk등 전통적인 공정능력지수 출력 Z값 출력 (Release 13에서 보강된 내용)

  38. VIII. Capability Analysis 공정능력 분석 - 결과 StDev(Within):ST StDev(Overall):LT 이 공정의 장기 공정능력지수 ZLT는 1.10이다. 규격을 벗어나는 실제 데이터의 PPM 단기 공정능력에 의해 추정된 불량율 장기 공정능력에 의해 추정된 불량율

  39. VIII. Capability Analysis 공정능력 분석 - 계량형 데이터 Stat > Quality Tools > Capability Sixpack... 데이터에 대한 Xbar-R 관리도를 통해 특수원인이 존재하는 지 검토 • Xbar관리도 히스토그램 • R 관리도 정규확률도 • Run Chart 공정능력도

  40. VIII. Capability Analysis 공정능력 분석 - 결과 데이터의 정규성 검토를 위한 히스토그램 공정 내에 관리이탈 여부를 검토하기 위한 Xbar-R관리도 데이터의 정규성 검토를 위한 정규 확률도 데이터의 경향성 파악을 위한 Run Chart 규격 공차와 장,단기 공정 산포의 비교 그래프

  41. VIII. Capability Analysis 연습 문제 - 공정능력분석 • 문제 “Supp1” 데이터에 대해 공정능력을 분석하시오. • 규격하한(USL)은 598, 규격상한(LSL)은 602 • 파일 Camshaft.mtw

  42. VIII. Capability Analysis 공정능력 분석 - 계수형 데이터(불량율) Stat > Quality Tools > Capability Analysis (Binomial) ... 불량율 산출을 위한 불량수 불량율 산출을 위한 검사수

  43. VIII. Capability Analysis 공정능력 분석 - 결과 공정의 관리상태 확인을 위한 P 관리도 불량율 추정을 위해 충분한 데이터 수집이 되었는지 확인 이상치에 의해 불량율 추정이 영향을 받았는지 확인 평균 불량율이 22.64%면 ZLT = 0.751 Average P: 평균 불량율 Process Z: 평균 불량율을 근거로 ZLT산출

  44. VIII. Capability Analysis 공정능력 분석 - 계수형 데이터(결점율) Stat > Quality Tools > Capability Analysis (Poisson) ... 결점율 산출을 위한 결점수 결점율 산출을 위한 검사수

  45. VIII. Capability Analysis 공정능력 분석 - 결과 공정의 관리상태 확인을 위한 U 관리도 결점율 추정을 위해 충분한 데이터 수집이 되었는지 확인 이상치에 의해 불량율 추정이 영향을 받았는지 확인 Mean DPU를 근거로 Yield 산출 후, Z값으로 변환

  46. VIII. Capability Analysis Z값 산출 Calc > Probability Distribution > Normal... 누적 분포의 역함수 산출 양품율(Yield) 기입 ZLT = 1.9403

  47. IX. Control Charts 관리도(Control Chart) • 목적 중요한 특성을 시간의 경과에 따라 추적하는 간편한 방법 공정의 기대하는 산포만을 표현하여, 기대하지 않는 산포의 발생을 쉽게 검출하는 것. • 용도 • 1) 시간에 따른 공정의 변동 모니터링 • 2) 개선 조치에 의한 시스템 혹은 공정의 개선 여부 확인 • 3) 공정능력 산출을 위한 기초 자료

  48. IX. Control Charts 관리도(Control Chart) - 종류 데이터 종류 계량형 계수형 (불량 데이터) 계수형 (결점 데이터) 시료군 크기 시료군 크기 시료군 크기 n>1 n=1 일정 불일정 일정 불일정 Xbar-R Xbar-S I-MR np p c u I-MR-R

  49. IX. Control Charts 관리도(Control Chart) - 구성 UCL CL LCL • UCL(Upper Control Limit ; 관리 상한선) • CL(Center Line) • LCL(Lower Control Limit ; 관리 하한선)

  50. IX. Control Charts Xbar-R 관리도 Stack 형태의 데이터는 데이터가 입력된 열을 선택하고, 시료군의 크기를 입력한다. Stat > Control Charts > Xbar-R... Unstack 형태의 데이터는 데이터가 입력된 열을 전체를 선택한다.

More Related