1 / 97

수원대학교 통계정보학과 김 진 흠 email: jinhkim@suwon.ac.kr 2006. 9. 13

다변량 분석법. 수원대학교 통계정보학과 김 진 흠 email: jinhkim@suwon.ac.kr 2006. 9. 13. 몇가지 용어들. 주성분 분석. 인자 분석. 군집 분석. 참고 문헌. 차 례. 몇가지 용어들. 자료 행렬. 행은 개체 ( ), 열은 변수 ( ), 일반적으로 고객만족자료. 기술 통계량. ◈ 평균 : 변수 의 표본평균. ◈ 공분산 행렬 : : 행렬 ( 대각원소는 분산 , 그 외는 공분산 ).

twyla
Download Presentation

수원대학교 통계정보학과 김 진 흠 email: jinhkim@suwon.ac.kr 2006. 9. 13

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 다변량 분석법 수원대학교 통계정보학과 김 진 흠 email: jinhkim@suwon.ac.kr 2006. 9. 13

  2. 몇가지 용어들 주성분 분석 인자 분석 군집 분석 참고 문헌 차 례

  3. 몇가지 용어들

  4. 자료 행렬 행은 개체( ), 열은 변수( ), 일반적으로 고객만족자료

  5. 기술 통계량 ◈ 평균: 변수 의 표본평균 ◈ 공분산 행렬: : 행렬 (대각원소는 분산, 그 외는 공분산) ◈ 상관계수 행렬: : 행렬 (대각원소는 1)

  6. 중심화 자료 표준화 자료 vs. ◈ 중심화: (평균은 0, 분산과 공분산은 불변) ◈ 표준화: (평균은 0, 분산은 1, 공분산은 상관계수)

  7. 개체 간 거리 (제곱 유크리드 거리 vs. Mahalanobis 거리) ◈ 유크리드 거리는 변수 간 서로 연관이 없고 분산이 1 임을 가정한 측도 ◈Mahalanobis 거리는 변수 간 상관의 크기와 방향을 고려한 측도

  8. 선 형 결 합 ◈ : 상수벡터, : 확률벡터라 할 때,

  9. ◈변수(집단) 간 종속 관계에 관심 있을 때 독립변수 종속변수 1개 2개+ 연속형 범주형 연속형 범주형 1개 연속형 Regression DA, Logistic Reg CCA MDA 범주형 t-test Discrete DA MANOVA Discrete MDA 2개+ 연속형 Multiple Reg DA, Logistic Reg CCA MDA 범주형 ANOVA Discrete DA, Conjoint MANOVA Discrete MDA 다변량 자료 분석 방법 요약

  10. ◈변수 간 내적 종속 관계에 관심이 있을 때 변수개수 자료형태 연속형 범주형 2개 Correlation analysis 2-Way Contingency table, Loglinear Model 2개+ PCA, FA Multi-way Contingency table, Loglinear Model, Correspondence Analysis 다변량 자료 분석 방법 요약

  11. 주성분 분석 ( Principal Component Analysis)

  12. 목 적 원변수의 선형결합 (소위 주성분)으로 표현된 몇 개의 변수( < )로 원변수 간의 공분산 구조를 설명하고자 함

  13. 이로운 점 차원 축소로 해석이 쉬워지고, 주성분 지시자를 통해 개체 간 특성에 따른 분류가 가능

  14. 몇 가지 적용 예 1. 200대 기업의 재무상황을 평가하기 위해 각 기업으로부터 20여개의 재무변수를 측정했을 때, 20여개의 변수 대신 2,3개 정도의 지시자를 개발하여 기업의 재무 특성 파악을 손쉽게

  15. 몇 가지 적용 예 2. 2000명의 대학생들을 대상으로 사회적 태도, 문화적 경향, 라이프 스타일 등 100여 개 문항에 대한 설문조사를 했을 때, 모집단을 세분화하여 집단 별 사회적 특성을 파악

  16. 고유값 을 갖는 공분산행렬 라 하고, 개 선형 결합이 다음과 같다고 할 때, 를 구하는 문제!! 새로운 변수(주성분)는 어떻게 만드느냐?

  17. 새로운 변수(주성분)는 어떻게 만드느냐?

  18. 새로운 변수(주성분)는 어떻게 만드느냐? ◈두 조건 1.주성분의 분산 을 최대로 2.주성분은 서로 독립 관계를 유지하도록 ◈해: 를 에 대응하는 고유벡터라 하면, 번째 주성분은

  19. 몇 가지 유용한 관계 1. 2. 총 분산( 의 대각원소 합) =

  20. 주성분의 기하적인 접근

  21. 주성분은 몇 개가 적당한가? ◈ 답은 주관적임 ◈ 참고하는 기준들 1. 1보다 큰 고유값을 갖는 주성분들 (표준화된 자료를 사용했을 때에만) 2. Scree 그림(가로축: 주성분 개수, 세로축: 고유값): 기울기가 심하게 변하기 전까지의 주성분만 이용 3. 총 분산을 설명하는 양으로

  22. 주성분의 해석 ◈ 주성분 계수와 부호를 고려하여 ◈ 예: 인체 측정 자료 (신체의 전반적인 크기) (신장대비 체중으로 본 신체적 형태)

  23. 개체 분류 ◈주성분 공간 위에 각 개체의 주성분 점수 를 나타내어 개체들의 분포형태 및 개체간 유사성 등을 관찰 개체 플롯 ◈행렬 의 개 행 좌표값을 나타낸 플롯과 함께 나타내면 개체 특성 파악이 용이해짐 변수 플롯

  24. 그 외 이슈 ◈ 공분산 행렬(중심화 자료) vs.상관계수 행렬(표준화 자료) - 상관계수행렬은 척도불변하기 때문에 측정 단위에 무관 - 변수간 분산이 크게 다르면 변이가 큰 분산을 갖는 변수 들에 의해 주성분이 결정될 수 있음 - 동일 단위로 측정되었을 때는 공분산 행렬 선호

  25. 그 외 이슈 ◈ 주성분 분석 vs.인자 분석 - 주성분 분석은 개체 중심의 차원 축소, 인자분석은 변수 중심의 차원 축소 -개체 간 친소 관계 위주로 보기 위해서는 주성분 분석의 개체 플롯, 변수들을 시각적으로 군집화하기 위한 목적으로는 인자 분석의 변수 플롯 선호

  26. P R I N C O M P 프로시져 ◈ 문법 PROC PRINCOMP <options>; BY variables; VAR variables;

  27. P R I N C O M P 프로시져 ◈ 여러 옵션들 *DATA=SAS-data-set : 분석 대상이 되는 SAS data set *OUT=SAS-data-set : 원자료와 주성분 점수를 포함하는 SAS dada set 생성 *OUTSTAT= SAS-data-set : 기술통계량(평균, 표준편차, 자료수, 공분산, 상관계수), 고유값과 고유벡터을 포함하는 SAS data set 생성 *COV: 공분산 행렬로 주성분 분석 수행, 생략하면 상관계수 행렬로 주성분 분석 수행 *N= : 주성분의 개수 지정, 생략하면 변수 개수 만큼

  28. P R I N C O M P 프로시져 ◈ 예 DATA satis; INPUT subject gender $ age x1 x2 x3 x4 x5; DATALINES; 1 F 10 1 2 4 1 1 10 M 50 5 5 5 4 4 ; PROC PRINCOMP DATA=satis COV OUTSTAT=out1 OUT=out2; VAR x1-x5; RUN;

  29. P R I N C O M P 프로시져 ◈ 입력자료가 원자료 행렬 대신 공분산 행렬이나 상관계수 행렬인 경우 * SAS data set 정의 시 TYPE=CORR(혹은 COV) 옵션을 사용 하여 입력 자료가 상관 계수 행렬 혹은 공분산 행렬임을 표시 * 문자형 변수인 _TYPE_ 은 CORR , COV , STD , N 값을 갖고, _NAME_ 은 변수의 이름을 가짐 * TYPE=CORR 인 경우에는 _TYPE_ 변수에 반드시 CORR이 포함 되어야 하고, TYPE=COV 인 경우에는 _TYPE_ 변수에 반드시 COV , STD , N 이 포함 되어야 함

  30. P R I N C O M P 프로시져 ◈ 예제 (표본 상관행렬) Data bloodcor( TYPE=CORR); input _type_ $ _name_ $ x1 x2 x3 x4 x5 x6 x7 x8; DATALINES; Corr x1 1 . . . . . . . Corr x2 0.29 1 . . . . . . Corr x3 0.20 0.42 1 . . . . . Corr x4 -0.06 0.29 0.42 1 . . . . Corr x5 -0.11 -0.38 -0.52 -0.88 1 . . . Corr x6 -0.25 -0.35 -0.44 -0.08 0.21 1 . . Corr x7 -0.23 -0.16 -0.15 0.02 0.03 0.19 1 . Corr x8 0.06 -0.13 -0.08 -0.13 0.15 0.08 0.42 1 STD . 0.37 41.25 1.94 0.08 0.08 4.04 2.73 0.30 N . 100 100 100 100 100 100 100 100 ; Run;

  31. P R I N C O M P 프로시져 ◈ Ods Graphics 사용 고유값, 주성분점수 행렬, 주성분 패턴 (원변수와 주성분과의 상관계수)을 그래프 형식으로 출력

  32. P R I N C O M P 프로시져

  33. P R I N C O M P 프로시져

  34. P R I N C O M P 프로시져

  35. 고객만족 자료 예제 SAS PROGRAM PROC PRINCOMP DATA=satis OUTSTAT=out1 OUT=out2; VAR x1-x5; RUN;

  36. 고객만족 자료 예제

  37. 고객만족 자료 예제

  38. 고객만족 자료 예제

  39. 고객만족 자료 예제 SAS PROGRAM PROC PRINT DATA=out1; RUN;

  40. 고객만족 자료 예제

  41. 고객만족 자료 예제 SAS PROGRAM PROC PRINT DATA=out2; RUN;

  42. 고객만족 자료 예제

  43. 인자 분석 ( Factor Analysis )

  44. 변수들 간에 존재하는 상관구조를 몇 개의 공동 요인(인자)에 의해 설명하고자 함 차원축소가 가능하며 해석이 용이해짐 목 적

  45. 인 자 분 석 개 념 도

  46. - 공통인자 모형: , :확률벡터, :인자적재행렬 직 교 인 자 모 형

  47. :공통인자벡터, 대각 행렬 :특수인자벡터 직 교 인 자 모 형

  48. 번째 변수의 분산=공통성+특수분산 유 용 한 관 계

  49. 를 어떻게 추정할 것인가? • ◈대표적인 세가지 방법: 주성분법, 주축인자법, 최대우도법 • * 주축인자법: 의 시작값을 갖고서 을 추정한 후 • 동일한 과정을 반복하여 수렴해가 얻어질 • 때까지 • * 최대우도법: 의 분포가 정규분포라는 가정하에 • ◈공통인자의 개수는 주관적이지만 고유인자 공헌도, • scree 그림을 참고하여 결정

  50. 인자회전은 왜 필요한가? ◈ 인자패턴에 대한 좀더 쉬운 해석이 가능하도록 하기 위해서 ◈ 공통성은 직교변환에 의해 변하지 않음 ◈ 대표적인 세가지 방법: Varimax, Quartimax(직교회전), Promax(사각회전) -Varimax: 동일인자 내 변동이 커지도록 -Quartimax: 동일변수 내 변동이 커지도록

More Related