1 / 10

데이타 마이닝 Data Mining

데이타 마이닝 Data Mining. Pieter Adriaans, Dolf Zantinge 저, Addison-Wesley 출판, 1996 용환승 역, 그린출판사 1998년. 제1장 서 론. KDD 과 데이터 마이닝의 개념 소개 왜 중요한가 ?. KDD 와 Data Mining. 남미 작가 보르게스의 작품 “바벨 도서관:관”의 예: 끝없는 책들의 창고 인간이 생각할 수 있는 모든 책들이 이 도서관에 있다. 누구도 위의 가설을 검증할 수 없다. 현재, 데이터는 무한한 반면에 정보의 부재를 상징

Download Presentation

데이타 마이닝 Data Mining

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 데이타 마이닝Data Mining Pieter Adriaans, Dolf Zantinge저, Addison-Wesley 출판, 1996 용환승 역, 그린출판사 1998년

  2. 제1장 서 론 KDD과 데이터 마이닝의 개념 소개 왜 중요한가 ?

  3. KDD와 Data Mining • 남미 작가 보르게스의 작품 “바벨 도서관:관”의 예: 끝없는 책들의 창고 • 인간이 생각할 수 있는 모든 책들이 이 도서관에 있다. • 누구도 위의 가설을 검증할 수 없다. • 현재, 데이터는 무한한 반면에 정보의 부재를 상징 • 데이터의 양은 매년 2배씩 증가 • 의미있는 정보의 발견은 더욱 어려워 짐

  4. 생산요소로서의 정보 • 정보는 중요한 생산 요소의 일부 • 데이터의 폭발적 증가는 데이터에 대한 정제, 추출, 해석 과정의 자동화 요구 • 주식 거래 시스템 • 컴퓨터가 자동으로 분석하여 거래 처리 • 컴퓨터간의 게임 • 선진국과 후진국간의 정보기술 격차 증대

  5. 학습 능력을 가진 컴퓨터 • 학습 능력은 생물체의 본질적인 특성 • 1950년대 인공지능 연구의 초점 • 60년대 민스키의 퍼셉트론의 한계 증명 • 80년대 새로운 학습 모델이 제시 • 의사 결정트리 • 다양한 신경망 구조 • 유전자 알고리즘 • 전문가 시스템 • 강력한 하드웨어의 지원

  6. 데이터 마이닝 • 데이터의 기계적 생산은 데이터의 기계적 분석 필요 • 대용량의 데이타베이스에서 정보 다이아몬드를 탐색하는 것 • KDD:Knowledge Discovery in Database • 데이터로부터 지식을 추출하는 전 과정 • 데이터 마이닝: KDD 과정에서 탐사 단계

  7. KDD의 학제적 특성

  8. 데이터 마이닝과 질의 환경 • SQL 질의 도구 • 누가 어떤 제품을 언제 구매했나? • 7월 특정 지점의 판매 실적은? • 무엇을 검색할 것인지 알고 있는 경우만 SQL 사용 가능 • 마이닝 질의 형태 • 고객들을 분류할 때 중요한 인자는? • 고객들의 구매 동향은? • SQL을 사용하는 경우, 기준을 세우고, SQL로 확인하는 복잡한 절차 요구

  9. 마케팅에서의 데이터 마이닝 • 고객들의 15년간 구매 정보 데이타베이스 • 일반적인 광고 우편은 3%-4%의 회신율 • 고객을 분류, 가능성이 높은 고객에만 우편 발송 • 동일한 회신율 유지, 50%의 우편 비용 절감 • 실용적 응용 분야 • AT&T: 고객자료 분석 • BBC: 시청률 조사 • 많은 은행, 보험 회사들이 KDD 적용 준비 중 • 많은 도구들 등장: Integral Solution사 Clementine, IBM의 Intelligent Miner등

  10. 데이터 마이닝 프로젝트의 문제점 • 장기적인 계획의 부족 • 최신 정보로 갱신되지 않는 파일 • 부서간의 갈등: 데이터 제공 거부 • 전산 처리 부서와의 원활하지 못한 협조체제 • 법률과 사생활 보호 문제로 인한 제약 • 화일들간의 기술적인 호환문제: 표준 DB • 해석 문제: 연관성을 발견했지만, 의미 해석 • 데이터의 훼손이나, 부정행위 발견도 가능

More Related