1 / 67

데이타 마이닝 Data Mining

데이타 마이닝 Data Mining. Pieter Adriaans, Dolf Zantinge 저, Addison-Wesley 출판, 1996 용환승 역, 그린출판사 1998년. KDD 와 Data Mining. 남미 작가 보르게스의 작품 “바벨 도서관:관”의 예: 끝없는 책들의 창고 인간이 생각할 수 있는 모든 책들이 이 도서관에 있다. 누구도 위의 가설을 검증할 수 없다. 현재, 데이터는 무한한 반면에 정보의 부재를 상징 데이터의 양은 매년 2배씩 증가 의미있는 정보의 발견은 더욱 어려워 짐.

Download Presentation

데이타 마이닝 Data Mining

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 데이타 마이닝Data Mining Pieter Adriaans, Dolf Zantinge저, Addison-Wesley 출판, 1996 용환승 역, 그린출판사 1998년

  2. KDD와 Data Mining • 남미 작가 보르게스의 작품 “바벨 도서관:관”의 예: 끝없는 책들의 창고 • 인간이 생각할 수 있는 모든 책들이 이 도서관에 있다. • 누구도 위의 가설을 검증할 수 없다. • 현재, 데이터는 무한한 반면에 정보의 부재를 상징 • 데이터의 양은 매년 2배씩 증가 • 의미있는 정보의 발견은 더욱 어려워 짐

  3. 생산요소로서의 정보 • 정보는 중요한 생산 요소의 일부 • 데이터의 폭발적 증가는 데이터에 대한 정제, 추출, 해석 과정의 자동화 요구 • 주식 거래 시스템 • 컴퓨터가 자동으로 분석하여 거래 처리 • 컴퓨터간의 게임 • 선진국과 후진국간의 정보기술 격차 증대

  4. 학습 능력을 가진 컴퓨터 • 학습 능력은 생물체의 본질적인 특성 • 1950년대 인공지능 연구의 초점 • 60년대 민스키의 퍼셉트론의 한계 증명 • 80년대 새로운 학습 모델이 제시 • 의사 결정트리 • 다양한 신경망 구조 • 유전자 알고리즘 • 전문가 시스템 • 강력한 하드웨어의 지원

  5. 데이터 마이닝 • 데이터의 기계적 생산은 데이터의 기계적 분석 필요 • 대용량의 데이타베이스에서 정보 다이아몬드를 탐색하는 것 • KDD:Knowledge Discovery in Database • 데이터로부터 지식을 추출하는 전 과정 • 데이터 마이닝: KDD 과정에서 탐사 단계

  6. KDD의 학제적 특성

  7. 데이터 마이닝과 질의 환경 • SQL 질의 도구 • 누가 어떤 제품을 언제 구매했나? • 7월 특정 지점의 판매 실적은? • 무엇을 검색할 것인지 알고 있는 경우만 SQL 사용 가능 • 마이닝 질의 형태 • 고객들을 분류할 때 중요한 인자는? • 고객들의 구매 동향은? • SQL을 사용하는 경우, 기준을 세우고, SQL로 확인하는 복잡한 절차 요구

  8. 마케팅에서의 데이터 마이닝 • 고객들의 15년간 구매 정보 데이타베이스 • 일반적인 광고 우편은 3%-4%의 회신율 • 고객을 분류, 가능성이 높은 고객에만 우편 발송 • 동일한 회신율 유지, 50%의 우편 비용 절감 • 실용적 응용 분야 • AT&T: 고객자료 분석 • BBC: 시청률 조사 • 많은 은행, 보험 회사들이 KDD 적용 준비 중 • 많은 도구들 등장: Integral Solution사 Clementine, IBM의 Intelligent Miner등

  9. 데이터 마이닝 프로젝트의 문제점 • 장기적인 계획의 부족 • 최신 정보로 갱신되지 않는 파일 • 부서간의 갈등: 데이터 제공 거부 • 전산 처리 부서와의 원활하지 못한 협조체제 • 법률과 사생활 보호 문제로 인한 제약 • 화일들간의 기술적인 호환문제: 표준 DB • 해석 문제: 연관성을 발견했지만, 의미 해석 • 데이터의 훼손이나, 부정행위 발견도 가능

  10. 지식의 유형 • 표층 지식(shallow knowledge) • SQL로 쉽게 파악되는 정보 • 다차원 지식(multi-dimensional knowledge) • OLAP 도구를 사용하여 데이터의 군집과 정렬을 탐색 • SQL로도 탐색 가능 • 단 OLAP은 이와 같은 탐색과 분석에 최적화됨. • 은닉 지식(hidden knowledge) • 패턴 인식, 기계-학습 알고리즘으로 발견: 수 시간내 • SQL을 사용할 경우 많은 시간 소모: 수 개월 • 심층 지식(deep knowledge) • 암호화된 정보의 경우, 해독키가 없으면 해독 불가능 • 학습으로 해결 안 되는 정보

  11. 지식의 종류 및 탐사 기법

  12. 비용 타당성 분석 • KDD 구현에는 데이타웨어하우스와 비즈니스 업무 재구축(BPR)을 수반 • 마이닝을 수작업과 컴퓨터 활용의 비교 필요 • 컴퓨터의 적용 이점 • 속도(speed) • 복잡도(complexity) • 반복(repetition) • 초기 데이터 마이닝 환경 구축 비용보다 재사용을 통한 장기적 이점 중요

  13. 타당성 분석 사례: 결과 측면

  14. KDD 절차

  15. 세부적인 지식 탐사 절차 • 잡지 출판사의 사례 • 자동차(car), 주택(house), 스포츠(sports), 음악(music), 유머(comic)의 5개 잡지 발간 • 마케팅 전략을 위해 고객의 유형 분석 필요 • “자동차 잡지 독자들이 가지는 전형적인 신상 정보는 무엇인가?” • “자동차와 유머에 대한 관심에는 어떤 상관 관계가 있는가?”

  16. 데이타 선정(Data Selection) • 출판사의 주문 시스템의 운영 데이터에서 선정 • 선정 레코드 항목 • 고객번호(client number), • 이름(name), • 주소(address), • 구입일(date of purchase made) • 구입잡지(magazine purchased) • 그림 4.2 원본 데이터의 예

  17. 정제(cleaning) • 중복 제거가 중요 • 입력 오류, 변경 미비 등으로 한 객체가 여러 레코드에 표현 • 고의로 고객이 정보를 부정확하게 입력하는 경우 • 이름, 주소 등의 스펠링을 틀리게 함 • 예제 데이터에서 Jhonson과 Jonson의 경우 주소를 보면 동일인임을 알 수 있다. • 도메인 일관성 오류 • 구입일에 ‘01-01-01’로 입력 • 생일 입력시 비밀을 위해서 ‘11-11-11’을 입력함 • NULL값으로 대체

  18. 보강(enrichment) • 고객 정보에 추가 자료를 보강 • 생일(date of birth), • 수입(income), • 저축(amount of credit), • 자동차(car owner)와 주택 보유(house owner) 여부 등 • 데이터 구입 또는 고객과의 인터뷰 • 기존의 정보와 조인을 통해 보강

  19. 코딩(Coding) • 데이터에 대한 변환 • 레코드 삭제: 누락된 정보를 가진 레코드는 삭제 • 열 삭제: 고객의 이름은 무의미 • 코딩을 사용한 변환 • 주소: 구역으로 처리 • 나이: 10년 단위로 • 구독날짜: 월번호(month number)로 처리 • 시계열 패턴 파악 가능 • 저축이 $13,000이상으로 나이가 22에서 31세로 유머잡지를 구독한 고객은 5년 후 자동차 잡지를 구독할 것이다.

  20. 예제 데이터에서의 코딩 • 주소를 구역으로: 주소 정보의 단순화 필요 • 적절한 수의 구역으로 정해서 코드화 • 생일을 나이로 • 생일 정보를 100개의 연령 그룹으로 또는 10년 단위의 그룹으로 변환 • 수입은 1000으로 나눈다 • 수입 정보의 단순화, 나이 클래스와 유사하게 • 저축도 1000으로 나눔 • 자동차 보유 유무 등은 1/0의 이진 항목으로 표현 => 패턴 인식이 용이

  21. 테이블 예, 그림 4.6, 4.7

  22. 코딩 • 구독일은 1990년 부터의 월번호로 변환 • 1990년 1월을 1로, 1991년 12월은 월번호가 24임 • 데이터에 대한 시계열 분석이 용이 • 날짜 단위는 시간 종속 관계 분석에 무의미 • 크리스마스 등 특별한 날의 구매 행위 분석 시는 별도 • 그림 4.8

  23. 코딩 • 잡지간의 구독 연관성 표현 미흡 • 한 독자가 구독하는 잡지를 모두 표현할 수 있도록 수정 필요 • ‘구독잡지’ 항목에 대해서 평평화(flattening) 연산 수행 • 항목의 카디널리티 수 만큼의 이진 항목 생성 • 잡지의 경우 5개가 있으므로 5개의 이진 항목으로 구성 • 그림 4.9 최종 테이블

  24. 데이터 마이닝의 기법들 • 질의 도구(query tools) • 통계적 기법(statistical technique) • 가시화(visualization) • 온라인 분석 처리(OLAP: online analytical processing) • 사례-기반 학습(Case-based learning, 최단 인접 이웃 (k-nearest neighbor)) • 의사결정 트리(decision tree) • 연관 규칙(association rule) • 신경망(neural network) • 유전자 알고리즘(genetic algorithm)

  25. 질의 도구를 사용한 분석 • 기본적인 사항 분석 • SQL로 표층 데이터 파악 • 80% 정도의 정보 파악 가능 • 그러나 나머지 20%의 숨겨진 정보가 중요 • 평균 연산 등 간단한 통계 정보 • 그림 4.10의 고객 자료 평균 값 • 그림 4.11 특정 잡지를 구입할 고객의 평균 확률 • 그림 4.12 잡지별 평균 고객 정보 • 자동차 잡지의 구독 평균 나이는 적다. • 유머 구독자의 평균 나이가 가장 적다.

  26. 질의 도구를 사용한 분석 • 한 사람이 구입하는 평균 잡지 수 (그림 4.13) • 9%의 고객이 하나도 구입 안함 • DB의 오류 파악 가능

  27. 구독자의 연령층 분석 (균일)

  28. 자동차 잡지 구독자의 나이 분포

  29. 스포츠 잡지 구독자의 나이 분포

  30. 가시화 기법 • Visualization Technique • 데이터 집합에서 패턴을 발견하는 데 유용 • 3차원 그래픽 브라우징 • 분산 다이어그램: 두 항목의 정보를 카르테시안 공간에 출력 • 수입과 나이에 따른 음악 잡지의 구독자 분포 • 수입이 낮고, 젊은 고객이 주로 음악 잡지를 구독

  31. 수입/나이 차원의 음악 잡지 구독자

  32. 3차원 가시화 기법 예(나이, 수입, 저축에 따른 음악 잡지 구독)

  33. 가능성(likelihood)과 거리(distance) • 공간 은유(space-metaphor) • 레코드를 다차원 공간의 점으로 인식 • 공간적으로 가까운 레코드들은 유사(공통점이 많다) • 저차원 공간의 경우 데이터를 구름으로 가시화 • 군집(cluster) 파악 가능 • 나이/수입/저축 3차원 공간에서의 군집 분석 예 • 그림 4.20

  34. 레코드간의 거리 계산 • 레코드의 항목들들이 정규화 (단위) 되어야 함 • 나이: 1-100, 수입: $0- $100,000

  35. 3차원 공간에서의 군집 예

  36. OLAP 도구 • Online Analytical Processing • n개의 항목은 n차원 공간으로 간주 • 어떤 유형의 잡지가 특정 구역에서 어떤 연령층에게 판매되는 가? • 제품, 구역, 구입일, 나이의 4차원 질문 • 여러 차원의 관련성 질문 • 2차원 관계 테이블로는 제한적 • 별도의 다차원 분석 모델 및 도구 필요 • OLAP은 새로운 해결책 탐색 불가능 • 제한적인 분석만 가능

  37. K-최단 인접(k-nearest neighbor) • 공간 은유 • 동일한 타입의 레코드는 데이터 공간에서도 가까이 이웃한다. • 기본 철학: 이웃이 하는 대로 한다. • 특정 고객의 행동 예측시, 가까운 열 명의 고객에 대한 행동을 관찰, 평균이 예측 행동이 됨. • K-최단 인접: K개의 이웃을 분석 • 2차함수 복잡도(quadratic complexity) 연산 필요 • 마이닝 알고리즘은 n (log n) 이하가 바람직 • 제한된 크기의 레코드에 적합

  38. K-최단 인접 적용에 따른 문제 • 테이블의 독립 항목이 큰 경우 • 고차원 공간의 문제 • 백만 개의 데이터 점들이 3차원에 균등하게 분포 • 최단 인접 질의문이 효과적 • 백만 개의 데이터 점들이 20차원에 분포시 • 거의 텅 빈공간, 두 데이터 점의 거리가 거의 동일 • 해결 방안 • 각 항목의 상대적 중요성 계산 • 고객의 행동을 예측하는 데 실제로 도움이 되는 항목만으로 분석

  39. 의사 결정 트리(decision tree) • 고객 행동 예측 방안으로 고객의 특정 정보를 기준으로 다른 항목을 분류 • 예) 고객의 나이를 기준으로 자동차 잡지의 구입 여부 분류, 기준 설정 • 그림 4.22 • 44.5세 이상은 1%만이 구독, 이하는 62%가 구독 • 트리 레벨의 확장 • 수입이 높은 사람(34.5이상)은 잡지 구독을 안함 • 수입이 34.5보다 낮고, 나이가 31.5세 이하의 사람은 자동차 잡지에 대한 관심이 높다.

  40. 자동차 잡지에 대한 의사결정트리

  41. 자동차 잡지의 4-레벨 의사결정트리

  42. 자동차 잡지의 3차원 의사결정트리

  43. 의사 결정 트리 기법의 특징 • 장점 • 대규모 데이터 집합으로 확장 용이 • 의사결정 과정을 직관적으로 제공 • 신경망의 경우 결론 도달 과정은 블랙박스 • 단점 • 주택 잡지 구독자 분석의 예: 그림 4.26 • 명확한 분류가 안되는 경우 발생

  44. 주택 잡지의 의사결정트리

  45. 연관 규칙(association rule) • 데이타베이스 • 고객의 성별, 자동차의 색상과 차종, 애완동물의 종류, 구매하고자 하는 제품의 개수에 관한 정보 • 마이닝을 통한 관련성 규칙의 예 • “빨간 스포츠카와 작은 개를 가진 90%의 주부들이 Chanel No. 5를 사용한다” • 연관 규칙의 중요성 측정 척도 • 마이닝 결과는 많은 연관 규칙을 제시 • 잡음(noise) 정보와 중요 정보를 판단

  46. 연관 규칙 (계속) • 연관 규칙의 표현 • MUSIC_MAG, HOUSE_MAG => CAR_MAG • 음악과 주택 잡지 구독자는 자동차 잡지를 구독한다. • 지지율(support) • DB의 총 instance 비율 • 위의 경우, 전체 고객 중 음악/주택/자동차 잡지 구독자의 비율 • 신뢰도(confidence) • 음악/주택 잡지 구독자 중에서, 자동차 잡지 구독자 비율

  47. 단일 항목간의 연관 분석 • 유머/음악, 자동차/음악이 관련이 큼.

  48. 연관 규칙의 대화식 분석 • 자동차 잡지의 경우, 그림 4.28 • 신뢰도: 33%, 지지율 3% 이상의 결과만 제시 • 분석 결과 • SPORT_MAG => CAR_MAG (36%, 45%) • MUSIC_MAG => CAR_MAG (96%, 15%) • 신뢰도와 지지율이 상당히 높음. • COMIC_MAG => CAR_MAG (57%, 8%)

  49. 자동차 잡지에 대한 이진 연관

  50. 대화식 분석 결과 • 음악잡지를 포함한 연관 분석 • MUSIC_MAG, HOUSE_MAG => CAR_MAG • (97%, 9%), 의미 있는 결과 도출 • MUSIC_MAG, SPORTS_MAG => CAR_MAG • (95%, 6%) • MUSIC_MAG, COMIC_MAG => CAR_MAG • (100%, 4%) • 음악/주택을 포함한 연관 분석 • 그림 4.30

More Related