1 / 53

데이터 마이닝

3. 데이터 탐색과 차원축소. 데이터 마이닝. Contents. 3.1 개요 3.2 예제를 통한 고찰 3.3 데이터의 요약 3.4 데이터의 시각화 3.5 상관관계 분석 3.6 범주형 변수의 범주 개수 축소 3.7 주성분 분석 3.8 실습. 3.1 개요. 데이터 마이닝 적용시 나타날 문제점 과적합화 ( overfitting ) 모형에 많은 변수 포함 입출력변수와 관련 없는 변수들을 포함시킴 모형의 차원 모형에 사용된 독립변수 ( 입력변수 ) 의 수

vianca
Download Presentation

데이터 마이닝

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 3.데이터 탐색과 차원축소 데이터 마이닝

  2. Contents • 3.1 개요 • 3.2 예제를 통한 고찰 • 3.3 데이터의 요약 • 3.4 데이터의 시각화 • 3.5 상관관계 분석 • 3.6 범주형 변수의 범주 개수 축소 • 3.7 주성분 분석 • 3.8 실습

  3. 3.1 개요 • 데이터 마이닝적용시 나타날 문제점 • 과적합화(overfitting) • 모형에 많은 변수 포함 • 입출력변수와 관련 없는 변수들을 포함시킴 • 모형의 차원 • 모형에 사용된 독립변수(입력변수)의 수 • 정확도를 떨어뜨리지 않으면서 이러한 차원을 축소 하는 방법을 찾는 것이다.

  4. 3.2 예제를 통한 고찰 • 전문자+제공자 • 변수를 고찰할때 고려해야 할점 • 업무에 가장 중요한 변수 • 가장 불필요한 변수 • 상당한 오차를 내포하고 있는 변수 • 비용타당성 • 실제 측정 가능 여부

  5. 3.2 예제를 통한 고찰 예제 1:보스톤 지역의 주택가격 보스톤 주택 데이터의 변수내역 보스톤 주택 데이터의 첫10개의 레코드

  6. 3.3 데이터의 요약 • 데이터 분석 1 데이터 탐색-데이터 이해하고 요약표와 그래프를 통해 그 특성을 파악하는것. • average, median – 대표값 • 편차가 크면 변수의 분포가 비대칭-한쪽으로 경사진 왜도가 존재함. • min , max – 오차된극단치 • stedv(분산정도) • Countblank- 결측치에 대한 정보

  7. 3.3 데이터의 요약 보스톤 주택 데이터의 요약 통계량

  8. 3.3 데이터의 요약 • 통계량 • 각 변수들이 다른 값의 범위를 갖고 있다. • 변수들 사이의 척도값의 편차를 적적하게 처리하지 않을 경우 데이터 분석이 왜곡된다. • 평균값이 중앙값보다 크면 분포가 오른쪽으로 경사.

  9. 3.3 데이터의 요약 • 2. 변수들 간의 관계요약(상관관계 행렬표) • 상관관계는 매우 강하게 나타나지 않으며 LSTAT와 PTRATIO그리고 MEDV와B간의 상관관계를 제외함 모든 결과는 음의 상관관계를 갖는다. 보스톤 주택 변수군의 일부 변수 간의 상관관계 행렬표

  10. 3.3 데이터의 요약 • 피봇 테이블 • 정보를 조합하고 일련의 요약통계량(빈도,평균,비율 등)을 계산함으로써 변수간의 상호작용을 보여준다. • 다수의 변수들을 대상으로 사용된다.

  11. 3.4 데이터 시각화 • 데이터 시각화 • 데이터 분포의 형태를 알고자 할 때, • 고차원 데이터의 분포를 2차원 혹은 3차원 공간상으로 축소 후 시각화 • 데이터 분포의 형태를 알고자 할 때 • 히스토그램 • 상자그림 • 행렬 산점도

  12. 3.4 데이터 시각화 • 목적: • PCA를 사용하여 차원을 감소시켜 적은 양의 표본으로도 정확한 데이터 분포를 표현

  13. 3.4 데이터 시각화 • 히스토 그램

  14. 3.4 데이터 시각화 • 히스토그램 • 도수분포를 나타내는 그래프로, 관측한 데이터의 분포의 특징이 한눈에 보이도록 기둥 모양으로 나타낸 것이다.

  15. 3.4 데이터 시각화 • 상자그림

  16. 3.4 데이터 시각화 • 행렬 산점도 • 산점도는수치형 변수들 간의 관계를 보여주는 데 매우 유용하다. Y Y X Y X

  17. 3.5 상관관계 분석 • 상관관계 행렬 조사 • 중첩되는 변수를 찾기 위해 사용됨-데이터 축소 • 다중공선성

  18. 3.6 범주형 변수의 범주 개수 축소 • 범주형 변수 축소 방법 • 범주형 변수 • 일정 범위의 변수를 하나의 범주로 가정함 • M 개의 범주를 갖는 변수는 분석에 사용할 경우 m-1 개의 더미변수로 변환된다. • 가까운 범주들을 하나로 합침으로서 범주의 수를 줄인다.

  19. 3.7 주성분 분석 • 주성분 분석(PCA) • 입력변수를 분석함으로써 모형의 예측변수의 수를 줄이기 위한 유용한 기법이다. • 주성분 분석은 원시데이터 집합에서 설명 • 주성분 분석은 정량변수에 사용 • 범주형 변수는 대응분석과 같은 다른 기법들이 적합.

  20. 3.7 주성분 분석 • 예:아침 식사용 시리얼 • 칼로리,고객등급 변수에 초점 • 평균칼로리,평균 고객등급 • 공분산 행렬 추정 • 계산 결과(음의 상관관계)=>변수들 중복성 • 두 변수를 하나의 새로운 변수로 만든다. 아침 식사용 시리얼 데이터 집합의 표본 데이터

  21. 3.7 주성분 분석 • 변수 내역 아침 식사용 시리얼 데이터 집합의 변수 내역

  22. 3.7 주성분 분석 • 시리얼과 칼로리와 등급

  23. 3.7 주성분 분석 • 75개 시리얼의 평균칼로리는 106.88 이고 평균 고객등급은 42.67이다. 이두 공분산 행렬은 다음과 같이 추정된다.

  24. 3.7 주성분 분석 • 이 행렬은 칼로리와 고객등급의 변수 간에는 다음과 같이 높은 음의 상관관게를 갖고 있음을 보여준다.

  25. 3.7 주성분 분석 • 분석 결과: • 중복된 정보를 갖고 있다. • 이 경우 정보의 손실 없이 두 변수를 하나의 변수로 줄일 수 있다. (여기서 정보는 변동성을 의미한다.)

  26. 3.7 주성분 분석 • 총변동성은 두 변수 간의 분산의 합을 말하며, 이 사례에서는 총 변동성이 577(379.63+197.32)이다. • 여기에서 칼로리가 총변동성 중 66%(=379.63/577)를 설명하고 있다는 것을 의미한다. 나머지 34%는 고객등급을 설명하고 있음을 나타낸다.

  27. 3.7 주성분 분석 • 그림 3.7은 등급 대 칼로리 간의 산점도를 보여준다. 직선 z1은 해당 점들의 변동성이 가장 큰 직선이다. 이 직선을(1차 주성분)이라고 부른다. • 이 직선은 또한 이 직선과 점들 간의 수직거리를 제곱한 합계값을 최소화 한다. • 이 그림에서 직선 z2는 • 2차 주성분이다. Z1과 직교를 이룬 모든 선들 가운데서 다음으로 큰 변동성을 가지는 직선이다.

  28. 3.7 주성분 분석 • 그림 3.8은 이 두 변수들을 이요하여 주성분 분석을 실행한 MLMiner의 결과를 보여준다. 재조정된 분산을 보여준다. 즉 z1은 총변동성의 86%, z2는 총변동수의 14%를 설명하고 있다.

  29. 3.7 주성분 분석 • 주성분 분석 –점수 처음 17개 시리얼의 칼로리와 등급에 대한 주성분 분석의 주성분 점수

  30. 3.7 주성분 분석 • 주성분 분석의 절차 • P개의 원시변수 표기 • 평균값과 가중평균값을 찾는다. • 분산의 크기에 따라서 순위 매김

  31. 3.7 주성분 분석 • 주성분 분석- 공식화 • P개의 원시 변수들을 x1,x2,…xp로 표기한다. 주성분 분석에서 새로운 변수의 집합으로서원시 변수에서 이 변수의 평균값을 차감한 값들의 가중평퓬값인z1,z2,…zp를 찾는다.

  32. 3.7 주성분 분석 • 이제 전체 15개 변수들을 포함하고 있는 아침용 시리얼 데이터 집합으로 돌아가서 13개의 수치형 변수에 적용하면 총 변동성 중 96%가 첫 3개의 성분과 관련되였음을알수 있다.

  33. 3.7 주성분 분석 • 주성분 분석의 장점: • 주성분들이 서로 상관되어 있지 않다는 것이다. 만약 이러한 주성분들을 독립변수로서 사용하여 회귀모형을 구축한다면 다중공선성의 문제가 발생하지 않을 것이다.

  34. 3.7 주성분 분석 • 데이터의 정규화 아침 식사용 시리얼 데이터 집합에서 정규화된 13개 수치형 변수를 이용한 주성분 분석결과

  35. 3.7 주성분 분석 • 데이터 정규화는 언제 해야 하는가? • 변수가 꽤 다른 단위로 측정되어서 다른 변수들의 변동성을 비교하는 것이 불분명하거나 • 변수들의 척도가 동일한 단위로 측정되었지만 그 척도 자체가 중요하지 않다면 정규화 시키는 것이 바람직 하다.

  36. 그림 3.12 정규화된 아침 식사용 시리얼의 출력결과의 출력결과에 대한 첫 번째 및 두 번째 주성분 주성분 점수에 대한 산점도

  37. 연습문제 • 사례1 • <그림 3.5>에서 범죄율과 주택가격(중앙값) 간의 좌표를 찾아낸 후, 이를 해석하시오. 도표를 보면 맨 왼쪽 하단에서CRIM은 x축에 나타나고 , MEDV가 y축에 나타난다. 도표에서 범죄가 자주 발생하는 지역의 주택가격은 낮아지고 반대로 안정된 지역은 주택가격이 높다.

  38. 연습문제 • 사례2- 아침 식사용 시리얼 사례 • 3.7절의 아침식사용 시리얼 예제의 데이터를 사용하여 다음과 같이 이를 탐색하고 요약하시오. 일부 레크드들은결측치를 포함하고 있음에 유의해야 한다. 한가지 해결방안으로는 결측치가 매우 적기 때문에 이 결측치를 먼저 제가하는 것이다. 여러분은 XLMiner의 결측치 처리(missing data handing)메뉴기능을 사용할수 있다. a)어느 변수들이 정량적/수치형 변수 또는 순위형, 명목형 변수인가? 정량적 변수:calories, protein, fat, sodium, fiber, carbo, sugars, potass, vita mins, weight, cups 수치형 변수:calories, protein, fat, sodium, fiber, carbo, sugars, potass ,vita mins, weight ,cups 순위형 변수: rating 명목형 변수: mfr,type,shelf

  39. 연습문제 • b)각 정량적 변수들의 평균, 중앙값,최소값,최대값,그리고 표준편차를 포함하는 표를 작성하시오. 이 표는 엑셀 함수 또는 엑셀의 도구 데이터 분석-> 기술적 통계 메뉴를 이용하라.

  40. 연습문제 • c)XLMiner를 사용하여각각의 정량적 변수들에 대한 히스토그림을 작성하시오. 히스토 그램과 요약통계량을 토대로 다음의 질문에 답하시오. 가. 어떤 변수가 가장 큰 변동성을 가지는가? 나트륨과 칼륨 나. 어느 변수의 분포가 한쪽으로 치우쳐 있는가? weight 다. 극단치로 보이는 값이 존재하는가? 100% Bran , All-Bran with Extra Fiber

  41. d)XLMiner를 사용하여 저온용 대 고온용 시리얼에 함유된 칼로리를 비교하는 나란히 근접한 상자그림을 그리시오. 이 그림은 어떤 정보를 보여주는가? • 칼로리가 고온일때에는 항상 100을 유지하고 저온일때에는 칼로리는 상대적으로 100보다 크다

  42. 연습문제 • e) XLMiner를 사용하여 진열대 높이의 함수로서 고객등급에 대해 나란히 근접한 상자그림을 그리시오. 진열대의 높이로부터 고객등급을 예측한다면 , 선반 높이의 3가지 범주 모두를 유지해야 한다.

  43. f)정량적 변수에 대한 상관관계 테이블을 작성하시오(엑셀의 도구-> 데이터 분석->상관관계 분석 메뉴). 추가로 XLMiner를 사용하여 이들 변수들에 대한 행렬 산점도를 작성하시오. 가. 어떤 변수의 쌍에서 가장 강한 상관관계가 존재하는가? Sodium과 fiber , calories 와 fiber , calories와 sodium 나. 이러한 상관관계 결과에 기초하여 어떻게 변수들의 수를 줄일 수 있는가? 서로 강한 상관 관계를 가지고 있는 변수들을 하나로 묶어준다. 다. 데이터를 먼저 정규화시킨다면 상관관계 결과는 어떻게 변할 것인가?

  44. g)<그림 3.10>의 맨 왼쪽의 첫 번째 열을 살펴본 후, 이 열이 무엇을 나타내고 있는지를 간략히 설명하시오. • 주성분과 주성분 점수를 나타내고 있는 그림이다. 이 그림에서는 나트륨과 칼륨이 그림 3.10에서 강한 상관관계를 가지고 있는다. 즉 나트륨과 칼륨이 아침식사용 시리얼 데이터에 가장 큰 영향을 가져다 준다.

  45. 연습문제 • 포도주의 화학적 특성 사례 • <표 3.5>는 정규화되지 않은 데이터의 주성분 분석결과를 보여준다. 이 결과에서 각 변수들은 포도주의 화확적 특징들을 나타내고 각각의 사례는 다른 포도주들로 구성된다. • a)데이터는Wine.xls 파일에 잇다. ‘분산’이라고 쓰여진 맨 끝행쪽을 보시오. 왜 1열의 분산이 다른 열의 분산보다 훨씬 더 큰지를 설명하시오. 기존 데이터에 결측치를 가지고 있는데 표 3.5에서는 데이터 정규화를 진행하지 않았다. • b)a)부분에서 정규화의 사용에 대해 의견을 제시하시요. 결측치를 가지고 있는 변수는 제거해야 한다.

  46. 연습문제 • 대학 순위 사례 • 미국의 전문대학과 종합대학교의 순위에 대한 데이터 집합(www.dataminigbook.com에서 참조)은 학부교육 프로그램을 제공하는 1.302개의 미국 전문대학 및 종합대학교의 정보를 담고 있다. 각 대학교에 대해서는 연속형 측정치와 범주형 측정치들을 포함하여 총 17개의 측정항목들을 포함하고 있다. • a)모든 범주형 변수들을 제거하시오. 그 다음에 데이터 집합에서 수치형 측정치에서 결측치를 포함하고 있는 모든 레코드들을 제거하시오.

  47. b)정제된 데이터를 대상으로 주성분 분석을 실시하고 그 결과를 분석하시오. 이때 데이터는 정규화시켜야 하는가? 이 분석에서 중요하게 고려해야 할 주성분은 무엇인가? • 정규화시키지 않아도 된다.- 주성분 분석을 통하여 서로 강한 상관관계를 가지는 변수가 없다. • 고려해야 할 주성분은 7번째 주성분이다.

  48. 연습문제 • 도요타코롤라자도차 판매 사례 • TototaCorolla.xls 파일에는 네델란드에서2004년 늦여름 동안에 판매된 도요타코롤라 중고차에 대한 데이터가 수록되어 있다. 이 파일은 ‘가격’,’사용시간’,’주행거리’,’마력’,그리고 다른 사양정보들을 포함한 총 38개 속성들을 상세한 정보를 담고 있으며 , 총 1,436개의 레코드들로 구성된다. 이 사례의 목적은 상세한 속성정보들을 토대로 도요타 코롤라 중고차의 가격을 예측하는 것이다. • 범주형 변수들을 구별해 내시오 Us,source, web_order, Gender=Mfr_Guarantee , BOVAG_Guarantee,ABS ,Airbag_1, Airbag_2, Airco, Automatic_airco, Boardcomputer,CD_Player ,Central_Lock ,Powered_Windows ,Power_Steering ,Radio, Mistlamps,Sport_,Model, Backseat_,Divider, Metallic_,RimRadio_cassette,Tow_Bar

  49. b) 범주형 변수와 그 변수로부터 파생된 이진 더미변수 간의 관계를 설명 하시오.

More Related