데이터 마이닝

3.데이터 탐색과 차원축소 데이터 마이닝

Contents • 3.1 개요 • 3.2 예제를 통한 고찰 • 3.3 데이터의 요약 • 3.4 데이터의 시각화 • 3.5 상관관계 분석 • 3.6 범주형 변수의 범주 개수 축소 • 3.7 주성분 분석 • 3.8 실습

3.1 개요 • 데이터 마이닝적용시 나타날 문제점 • 과적합화(overfitting) • 모형에 많은 변수 포함 • 입출력변수와 관련 없는 변수들을 포함시킴 • 모형의 차원 • 모형에 사용된 독립변수(입력변수)의 수 • 정확도를 떨어뜨리지 않으면서 이러한 차원을 축소 하는 방법을 찾는 것이다.

3.2 예제를 통한 고찰 • 전문자+제공자 • 변수를 고찰할때 고려해야 할점 • 업무에 가장 중요한 변수 • 가장 불필요한 변수 • 상당한 오차를 내포하고 있는 변수 • 비용타당성 • 실제 측정 가능 여부

3.2 예제를 통한 고찰 예제 1:보스톤 지역의 주택가격 보스톤 주택 데이터의 변수내역 보스톤 주택 데이터의 첫10개의 레코드

3.3 데이터의 요약 • 데이터 분석 1 데이터 탐색-데이터 이해하고 요약표와 그래프를 통해 그 특성을 파악하는것. • average, median – 대표값 • 편차가 크면 변수의 분포가 비대칭-한쪽으로 경사진 왜도가 존재함. • min , max – 오차된극단치 • stedv(분산정도) • Countblank- 결측치에 대한 정보

3.3 데이터의 요약 보스톤 주택 데이터의 요약 통계량

3.3 데이터의 요약 • 통계량 • 각 변수들이 다른 값의 범위를 갖고 있다. • 변수들 사이의 척도값의 편차를 적적하게 처리하지 않을 경우 데이터 분석이 왜곡된다. • 평균값이 중앙값보다 크면 분포가 오른쪽으로 경사.

3.3 데이터의 요약 • 2. 변수들 간의 관계요약(상관관계 행렬표) • 상관관계는 매우 강하게 나타나지 않으며 LSTAT와 PTRATIO그리고 MEDV와B간의 상관관계를 제외함 모든 결과는 음의 상관관계를 갖는다. 보스톤 주택 변수군의 일부 변수 간의 상관관계 행렬표

3.3 데이터의 요약 • 피봇 테이블 • 정보를 조합하고 일련의 요약통계량(빈도,평균,비율 등)을 계산함으로써 변수간의 상호작용을 보여준다. • 다수의 변수들을 대상으로 사용된다.

3.4 데이터 시각화 • 데이터 시각화 • 데이터 분포의 형태를 알고자 할 때, • 고차원 데이터의 분포를 2차원 혹은 3차원 공간상으로 축소 후 시각화 • 데이터 분포의 형태를 알고자 할 때 • 히스토그램 • 상자그림 • 행렬 산점도

3.4 데이터 시각화 • 목적: • PCA를 사용하여 차원을 감소시켜 적은 양의 표본으로도 정확한 데이터 분포를 표현

3.4 데이터 시각화 • 히스토 그램

3.4 데이터 시각화 • 히스토그램 • 도수분포를 나타내는 그래프로, 관측한 데이터의 분포의 특징이 한눈에 보이도록 기둥 모양으로 나타낸 것이다.

3.4 데이터 시각화 • 상자그림

3.4 데이터 시각화 • 행렬 산점도 • 산점도는수치형 변수들 간의 관계를 보여주는 데 매우 유용하다. Y Y X Y X

3.5 상관관계 분석 • 상관관계 행렬 조사 • 중첩되는 변수를 찾기 위해 사용됨-데이터 축소 • 다중공선성

3.6 범주형 변수의 범주 개수 축소 • 범주형 변수 축소 방법 • 범주형 변수 • 일정 범위의 변수를 하나의 범주로 가정함 • M 개의 범주를 갖는 변수는 분석에 사용할 경우 m-1 개의 더미변수로 변환된다. • 가까운 범주들을 하나로 합침으로서 범주의 수를 줄인다.

3.7 주성분 분석 • 주성분 분석(PCA) • 입력변수를 분석함으로써 모형의 예측변수의 수를 줄이기 위한 유용한 기법이다. • 주성분 분석은 원시데이터 집합에서 설명 • 주성분 분석은 정량변수에 사용 • 범주형 변수는 대응분석과 같은 다른 기법들이 적합.

3.7 주성분 분석 • 예:아침 식사용 시리얼 • 칼로리,고객등급 변수에 초점 • 평균칼로리,평균 고객등급 • 공분산 행렬 추정 • 계산 결과(음의 상관관계)=>변수들 중복성 • 두 변수를 하나의 새로운 변수로 만든다. 아침 식사용 시리얼 데이터 집합의 표본 데이터

3.7 주성분 분석 • 변수 내역 아침 식사용 시리얼 데이터 집합의 변수 내역

3.7 주성분 분석 • 시리얼과 칼로리와 등급

3.7 주성분 분석 • 75개 시리얼의 평균칼로리는 106.88 이고 평균 고객등급은 42.67이다. 이두 공분산 행렬은 다음과 같이 추정된다.

3.7 주성분 분석 • 이 행렬은 칼로리와 고객등급의 변수 간에는 다음과 같이 높은 음의 상관관게를 갖고 있음을 보여준다.

3.7 주성분 분석 • 분석 결과: • 중복된 정보를 갖고 있다. • 이 경우 정보의 손실 없이 두 변수를 하나의 변수로 줄일 수 있다. (여기서 정보는 변동성을 의미한다.)

3.7 주성분 분석 • 총변동성은 두 변수 간의 분산의 합을 말하며, 이 사례에서는 총 변동성이 577(379.63+197.32)이다. • 여기에서 칼로리가 총변동성 중 66%(=379.63/577)를 설명하고 있다는 것을 의미한다. 나머지 34%는 고객등급을 설명하고 있음을 나타낸다.

3.7 주성분 분석 • 그림 3.7은 등급 대 칼로리 간의 산점도를 보여준다. 직선 z1은 해당 점들의 변동성이 가장 큰 직선이다. 이 직선을(1차 주성분)이라고 부른다. • 이 직선은 또한 이 직선과 점들 간의 수직거리를 제곱한 합계값을 최소화 한다. • 이 그림에서 직선 z2는 • 2차 주성분이다. Z1과 직교를 이룬 모든 선들 가운데서 다음으로 큰 변동성을 가지는 직선이다.

3.7 주성분 분석 • 그림 3.8은 이 두 변수들을 이요하여 주성분 분석을 실행한 MLMiner의 결과를 보여준다. 재조정된 분산을 보여준다. 즉 z1은 총변동성의 86%, z2는 총변동수의 14%를 설명하고 있다.

3.7 주성분 분석 • 주성분 분석 –점수 처음 17개 시리얼의 칼로리와 등급에 대한 주성분 분석의 주성분 점수

3.7 주성분 분석 • 주성분 분석의 절차 • P개의 원시변수 표기 • 평균값과 가중평균값을 찾는다. • 분산의 크기에 따라서 순위 매김

3.7 주성분 분석 • 주성분 분석- 공식화 • P개의 원시 변수들을 x1,x2,…xp로 표기한다. 주성분 분석에서 새로운 변수의 집합으로서원시 변수에서 이 변수의 평균값을 차감한 값들의 가중평퓬값인z1,z2,…zp를 찾는다.

3.7 주성분 분석 • 이제 전체 15개 변수들을 포함하고 있는 아침용 시리얼 데이터 집합으로 돌아가서 13개의 수치형 변수에 적용하면 총 변동성 중 96%가 첫 3개의 성분과 관련되였음을알수 있다.

3.7 주성분 분석 • 주성분 분석의 장점: • 주성분들이 서로 상관되어 있지 않다는 것이다. 만약 이러한 주성분들을 독립변수로서 사용하여 회귀모형을 구축한다면 다중공선성의 문제가 발생하지 않을 것이다.

3.7 주성분 분석 • 데이터의 정규화 아침 식사용 시리얼 데이터 집합에서 정규화된 13개 수치형 변수를 이용한 주성분 분석결과

3.7 주성분 분석 • 데이터 정규화는 언제 해야 하는가? • 변수가 꽤 다른 단위로 측정되어서 다른 변수들의 변동성을 비교하는 것이 불분명하거나 • 변수들의 척도가 동일한 단위로 측정되었지만 그 척도 자체가 중요하지 않다면 정규화 시키는 것이 바람직 하다.

그림 3.12 정규화된 아침 식사용 시리얼의 출력결과의 출력결과에 대한 첫 번째 및 두 번째 주성분 주성분 점수에 대한 산점도

연습문제 • 사례1 • <그림 3.5>에서 범죄율과 주택가격(중앙값) 간의 좌표를 찾아낸 후, 이를 해석하시오. 도표를 보면 맨 왼쪽 하단에서CRIM은 x축에 나타나고 , MEDV가 y축에 나타난다. 도표에서 범죄가 자주 발생하는 지역의 주택가격은 낮아지고 반대로 안정된 지역은 주택가격이 높다.

연습문제 • 사례2- 아침 식사용 시리얼 사례 • 3.7절의 아침식사용 시리얼 예제의 데이터를 사용하여 다음과 같이 이를 탐색하고 요약하시오. 일부 레크드들은결측치를 포함하고 있음에 유의해야 한다. 한가지 해결방안으로는 결측치가 매우 적기 때문에 이 결측치를 먼저 제가하는 것이다. 여러분은 XLMiner의 결측치 처리(missing data handing)메뉴기능을 사용할수 있다. a)어느 변수들이 정량적/수치형 변수 또는 순위형, 명목형 변수인가? 정량적 변수:calories, protein, fat, sodium, fiber, carbo, sugars, potass, vita mins, weight, cups 수치형 변수:calories, protein, fat, sodium, fiber, carbo, sugars, potass ,vita mins, weight ,cups 순위형 변수: rating 명목형 변수: mfr,type,shelf

연습문제 • b)각 정량적 변수들의 평균, 중앙값,최소값,최대값,그리고 표준편차를 포함하는 표를 작성하시오. 이 표는 엑셀 함수 또는 엑셀의 도구 데이터 분석-> 기술적 통계 메뉴를 이용하라.

연습문제 • c)XLMiner를 사용하여각각의 정량적 변수들에 대한 히스토그림을 작성하시오. 히스토 그램과 요약통계량을 토대로 다음의 질문에 답하시오. 가. 어떤 변수가 가장 큰 변동성을 가지는가? 나트륨과 칼륨 나. 어느 변수의 분포가 한쪽으로 치우쳐 있는가? weight 다. 극단치로 보이는 값이 존재하는가? 100% Bran , All-Bran with Extra Fiber

d)XLMiner를 사용하여 저온용 대 고온용 시리얼에 함유된 칼로리를 비교하는 나란히 근접한 상자그림을 그리시오. 이 그림은 어떤 정보를 보여주는가? • 칼로리가 고온일때에는 항상 100을 유지하고 저온일때에는 칼로리는 상대적으로 100보다 크다

연습문제 • e) XLMiner를 사용하여 진열대 높이의 함수로서 고객등급에 대해 나란히 근접한 상자그림을 그리시오. 진열대의 높이로부터 고객등급을 예측한다면 , 선반 높이의 3가지 범주 모두를 유지해야 한다.

f)정량적 변수에 대한 상관관계 테이블을 작성하시오(엑셀의 도구-> 데이터 분석->상관관계 분석 메뉴). 추가로 XLMiner를 사용하여 이들 변수들에 대한 행렬 산점도를 작성하시오. 가. 어떤 변수의 쌍에서 가장 강한 상관관계가 존재하는가? Sodium과 fiber , calories 와 fiber , calories와 sodium 나. 이러한 상관관계 결과에 기초하여 어떻게 변수들의 수를 줄일 수 있는가? 서로 강한 상관 관계를 가지고 있는 변수들을 하나로 묶어준다. 다. 데이터를 먼저 정규화시킨다면 상관관계 결과는 어떻게 변할 것인가?

g)<그림 3.10>의 맨 왼쪽의 첫 번째 열을 살펴본 후, 이 열이 무엇을 나타내고 있는지를 간략히 설명하시오. • 주성분과 주성분 점수를 나타내고 있는 그림이다. 이 그림에서는 나트륨과 칼륨이 그림 3.10에서 강한 상관관계를 가지고 있는다. 즉 나트륨과 칼륨이 아침식사용 시리얼 데이터에 가장 큰 영향을 가져다 준다.

연습문제 • 포도주의 화학적 특성 사례 • <표 3.5>는 정규화되지 않은 데이터의 주성분 분석결과를 보여준다. 이 결과에서 각 변수들은 포도주의 화확적 특징들을 나타내고 각각의 사례는 다른 포도주들로 구성된다. • a)데이터는Wine.xls 파일에 잇다. ‘분산’이라고 쓰여진 맨 끝행쪽을 보시오. 왜 1열의 분산이 다른 열의 분산보다 훨씬 더 큰지를 설명하시오. 기존 데이터에 결측치를 가지고 있는데 표 3.5에서는 데이터 정규화를 진행하지 않았다. • b)a)부분에서 정규화의 사용에 대해 의견을 제시하시요. 결측치를 가지고 있는 변수는 제거해야 한다.

연습문제 • 대학 순위 사례 • 미국의 전문대학과 종합대학교의 순위에 대한 데이터 집합(www.dataminigbook.com에서 참조)은 학부교육 프로그램을 제공하는 1.302개의 미국 전문대학 및 종합대학교의 정보를 담고 있다. 각 대학교에 대해서는 연속형 측정치와 범주형 측정치들을 포함하여 총 17개의 측정항목들을 포함하고 있다. • a)모든 범주형 변수들을 제거하시오. 그 다음에 데이터 집합에서 수치형 측정치에서 결측치를 포함하고 있는 모든 레코드들을 제거하시오.

b)정제된 데이터를 대상으로 주성분 분석을 실시하고 그 결과를 분석하시오. 이때 데이터는 정규화시켜야 하는가? 이 분석에서 중요하게 고려해야 할 주성분은 무엇인가? • 정규화시키지 않아도 된다.- 주성분 분석을 통하여 서로 강한 상관관계를 가지는 변수가 없다. • 고려해야 할 주성분은 7번째 주성분이다.

연습문제 • 도요타코롤라자도차 판매 사례 • TototaCorolla.xls 파일에는 네델란드에서2004년 늦여름 동안에 판매된 도요타코롤라 중고차에 대한 데이터가 수록되어 있다. 이 파일은 ‘가격’,’사용시간’,’주행거리’,’마력’,그리고 다른 사양정보들을 포함한 총 38개 속성들을 상세한 정보를 담고 있으며 , 총 1,436개의 레코드들로 구성된다. 이 사례의 목적은 상세한 속성정보들을 토대로 도요타 코롤라 중고차의 가격을 예측하는 것이다. • 범주형 변수들을 구별해 내시오 Us,source, web_order, Gender=Mfr_Guarantee , BOVAG_Guarantee,ABS ,Airbag_1, Airbag_2, Airco, Automatic_airco, Boardcomputer,CD_Player ,Central_Lock ,Powered_Windows ,Power_Steering ,Radio, Mistlamps,Sport_,Model, Backseat_,Divider, Metallic_,RimRadio_cassette,Tow_Bar

b) 범주형 변수와 그 변수로부터 파생된 이진 더미변수 간의 관계를 설명 하시오.

데이터 마이닝

데이터 마이닝

Presentation Transcript