100 likes | 196 Views
데이타 마이닝 Data Mining. Pieter Adriaans, Dolf Zantinge 저, Addison-Wesley 출판, 1996 용환승 역, 그린출판사 1998년. 제1장 서 론. KDD 과 데이터 마이닝의 개념 소개 왜 중요한가 ?. KDD 와 Data Mining. 남미 작가 보르게스의 작품 “바벨 도서관:관”의 예: 끝없는 책들의 창고 인간이 생각할 수 있는 모든 책들이 이 도서관에 있다. 누구도 위의 가설을 검증할 수 없다. 현재, 데이터는 무한한 반면에 정보의 부재를 상징
E N D
데이타 마이닝Data Mining Pieter Adriaans, Dolf Zantinge저, Addison-Wesley 출판, 1996 용환승 역, 그린출판사 1998년
제1장 서 론 KDD과 데이터 마이닝의 개념 소개 왜 중요한가 ?
KDD와 Data Mining • 남미 작가 보르게스의 작품 “바벨 도서관:관”의 예: 끝없는 책들의 창고 • 인간이 생각할 수 있는 모든 책들이 이 도서관에 있다. • 누구도 위의 가설을 검증할 수 없다. • 현재, 데이터는 무한한 반면에 정보의 부재를 상징 • 데이터의 양은 매년 2배씩 증가 • 의미있는 정보의 발견은 더욱 어려워 짐
생산요소로서의 정보 • 정보는 중요한 생산 요소의 일부 • 데이터의 폭발적 증가는 데이터에 대한 정제, 추출, 해석 과정의 자동화 요구 • 주식 거래 시스템 • 컴퓨터가 자동으로 분석하여 거래 처리 • 컴퓨터간의 게임 • 선진국과 후진국간의 정보기술 격차 증대
학습 능력을 가진 컴퓨터 • 학습 능력은 생물체의 본질적인 특성 • 1950년대 인공지능 연구의 초점 • 60년대 민스키의 퍼셉트론의 한계 증명 • 80년대 새로운 학습 모델이 제시 • 의사 결정트리 • 다양한 신경망 구조 • 유전자 알고리즘 • 전문가 시스템 • 강력한 하드웨어의 지원
데이터 마이닝 • 데이터의 기계적 생산은 데이터의 기계적 분석 필요 • 대용량의 데이타베이스에서 정보 다이아몬드를 탐색하는 것 • KDD:Knowledge Discovery in Database • 데이터로부터 지식을 추출하는 전 과정 • 데이터 마이닝: KDD 과정에서 탐사 단계
데이터 마이닝과 질의 환경 • SQL 질의 도구 • 누가 어떤 제품을 언제 구매했나? • 7월 특정 지점의 판매 실적은? • 무엇을 검색할 것인지 알고 있는 경우만 SQL 사용 가능 • 마이닝 질의 형태 • 고객들을 분류할 때 중요한 인자는? • 고객들의 구매 동향은? • SQL을 사용하는 경우, 기준을 세우고, SQL로 확인하는 복잡한 절차 요구
마케팅에서의 데이터 마이닝 • 고객들의 15년간 구매 정보 데이타베이스 • 일반적인 광고 우편은 3%-4%의 회신율 • 고객을 분류, 가능성이 높은 고객에만 우편 발송 • 동일한 회신율 유지, 50%의 우편 비용 절감 • 실용적 응용 분야 • AT&T: 고객자료 분석 • BBC: 시청률 조사 • 많은 은행, 보험 회사들이 KDD 적용 준비 중 • 많은 도구들 등장: Integral Solution사 Clementine, IBM의 Intelligent Miner등
데이터 마이닝 프로젝트의 문제점 • 장기적인 계획의 부족 • 최신 정보로 갱신되지 않는 파일 • 부서간의 갈등: 데이터 제공 거부 • 전산 처리 부서와의 원활하지 못한 협조체제 • 법률과 사생활 보호 문제로 인한 제약 • 화일들간의 기술적인 호환문제: 표준 DB • 해석 문제: 연관성을 발견했지만, 의미 해석 • 데이터의 훼손이나, 부정행위 발견도 가능