1 / 49

Principal Component Analysis

Principal Component Analysis. 가중합계. 가중합계 (weighted sum) = 일차결합 (linear combination). [ 예 ]. 가중합계점수 = ( 영어 가중치 )*( 영어점수 ) + ( 수학 가중치 )*( 수학점수 ). 지적능력 (intellectual ability). 가중합계점수 = ( 키 가중치 )*( 키 ) + ( 몸무게 가중치 )*( 몸무게 ). ?. 가중치벡터 (weight vector). 가중합계를 사용하는 이유. Dimension reduction.

lynton
Download Presentation

Principal Component Analysis

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Principal Component Analysis

  2. 가중합계 가중합계(weighted sum) = 일차결합(linear combination) [예] 가중합계점수 = (영어 가중치)*(영어점수) + (수학 가중치)*(수학점수) 지적능력(intellectual ability) 가중합계점수 = (키 가중치)*(키) + (몸무게 가중치)*(몸무게) ? 가중치벡터(weight vector)

  3. 가중합계를 사용하는 이유 Dimension reduction ex) 영어, 수학 가중합계

  4. 가중치벡터와 가중합계 이면 가중합계=합계 이면 가중합계=평균 이면 가중합계=주성분 후보(principal component candidate) ※ 주성분의 조건 중 일부를 만족한다는 의미에서 후보임

  5. 가중합계의 기하학적 의미 단위벡터인 가중치벡터를 사용한 가중합계(=주성분 후보) 원점과 가중치벡터를 통과하는 직선(또는 초평면)에 자료점을 직교사영시켜 구한 좌표 [예] 영국 20명 여성의 키와 몸무게 자료

  6. 분산 평균 자료 분산 분산 1 2 3 분산 0 2 4  자료점(data point)들간의 간격이 넓으면 분산이 크다.

  7. 주성분분석 주성분분석(principal component analysis: PCA)은 p개의 변수로 구성된 자료로 부터 제1주성분부터 제p주성분까지 p개의 주성분(=가중합계) 및 각 주성분의 가중치벡터를 찾는 분석이라고 할 수 있다. 제1주성분(first principal component) : 분산이 가장 큰 가중합계(weighted sum) 제2주성분(second principal component) : (제1주성분과 상관관계가 없는) 분산이 두 번째로 큰 가중합계 제3주성분( third principal component) : (제1주성분 및 제2주성분과 상관관계가 없는) 분산이 세 번째로 큰 가중합계 가중합계는 주성분점수(principal component score)라고 한다. 상관관계가 없는 주성분은 서로 직교한다.

  8. 아래 산점도에서 제1주성분, 제2주성분, 및 제3주성분을 그림으로 나타내고 그렇게 나타낸 이유를 설명하시오.

  9. 주성분분석의 원리-직관적 설명

  10. X1,X2,X3의 3차원 윤곽산점도 <그림 4.3>

  11. 3D Scatter Plot, Pairwise Scatter Plot

  12. PCA_EXAMPLE자료를 SigmaPlot으로 작성한 것임 <그림 4.4> PCA_Example.JNB 참조

  13. PCA_EXAMPLE자료를 SAS로 작성한 것임 <그림 4.5> Pairwise scatter plot(PCA_EXAMPLE).txt 파일 참조

  14. 주성분분석

  15. 제1주성분

  16. 분산 > <그림 4.6>

  17. Z1이 설명하는 정보가 제거된 상태에서의 자료 모습 <그림 4.7>

  18. 제2주성분

  19. 제3주성분

  20. Z1, Z2, Z3의 산점도

  21. 고유치와 고유벡터

  22. R의 고유값/고유벡터

  23. 상관계수행렬 의 고유값과 고유벡터 ? 1 0.7 0.7 1 data example(type=corr); input _type_ $ _name_ $ x1 x2; cards; corr x1 1 . corr x2 0.7 1 ; run; proc princomp data=example; run;

  24. proc princomp data=PCA_EXAMPLE; run;

  25. proc factor n=3; run;

  26. 주성분적재치 SAS로 작성한 주성분적재치 주성분분석(PCA_EXAMPLE)[proc iml].txt 참조 주성분분석(PCA_EXAMPLE)[proc factor].txt 참조

  27. 적재치의 제곱

  28. 주민총생산(GSP_RAW) 자료

  29. GSP_RAW자료의 상관계수행렬

  30. 주민총생산비율(GSP_SHARE)자료

  31. GSP_RAW의 분석결과

  32. 주성분분석(gsp_share)[proc princomp].txt

  33. GSP_SHARE의 분석결과

  34. 적재값 산점도

  35. GSP_SHARE.JNB

  36. 주성분점수 산점도

  37. GSP_SHARE.JNB

  38. 주성분분석의 적용사례 차원축소(dimension reduction) 관련성의 패턴인식(pattern recognition)

  39. Cavalli-Sforza의 연구 <그림 4.1>, <그림 4.2> p.85

  40. 인지욕구지수

  41. 소비자프로파일

  42. 관련성의 패턴인식

  43. 잡지구독형태 분류

More Related