270 likes | 653 Views
인터넷 환경의 지식시스템 제 14 장 데이터마이닝과 웹마이닝. 개요. 자료 축적의 형태 File Database 자료 축적의 목적 업무처리 및 기록 보존 분석적 작업을 통한 전술 / 전략적 의사결정 자료 분석의 형태 수작업 , 통찰력 또는 전통적 통계분석 데이터마이닝 , 지식 경영 Knowledge Gap 실재하는 데이터로부터 추출할 수 있는 잠재적 지식의 양적 / 질적 수준에 비하여 실제로 이용 가능한 정보나 지식의 수준이 매우 낮은 현상 원인
E N D
인터넷 환경의 지식시스템제 14 장 데이터마이닝과 웹마이닝
개요 • 자료 축적의 형태 • File Database • 자료 축적의 목적 • 업무처리 및 기록 보존 분석적 작업을 통한 전술/전략적 의사결정 • 자료 분석의 형태 • 수작업, 통찰력 또는 전통적 통계분석 데이터마이닝, 지식 경영 • Knowledge Gap • 실재하는 데이터로부터 추출할 수 있는 잠재적 지식의 양적/질적 수준에 비하여 실제로 이용 가능한 정보나 지식의 수준이 매우 낮은 현상 • 원인 • 데이터 분석 능력의 한계 (데이터마이닝) • 축적된 정보와 지식에 대한 관리 능력의 한계 (지식경영) • Web Mining • 웹 콘텐츠, 웹 사이트및웹 페이지의 구조, 개인의 트래픽 데이터를 분석
데이터마이닝 • 대량의 데이터 집합으로부터 유용한 지식(규칙, 패턴, 제약(constraints) 등)을 추출하는 것 • 데이터마이닝의 조건 • 충분한 데이터 • 컴퓨팅 환경 • 데이터마이닝 알고리즘 • 유사 용어 • KDD (Knowledge Discovery in Databases) • Knowledge Extraction • Data Archaeology • Data Dredging
데이터마이닝 과정 • Data Cleaning • Data Integration • Data Selection • Data Transformation • Application of Data Mining Methods • Knowledge Evaluation • Application of Knowledge
데이터마이닝 방법론의 기능적 분류 • 검증기반 데이터마이닝 • SQL • SQL Generator • Query Tools • OLAP • 발견기반 데이터마이닝 • Descriptive Data Mining • Visualization • Clustering • Association • Outlier Analysis • Characterization • Predictive Data Mining • Classification • Prediction • Time-series Analysis
데이터마이닝의 응용분야 • Fraud detection • Risk management • Claim prevention • Customer retention, Churn management • Customer acquisition • Customer segmentation and profiling • Forecasting • Pricing • Campaign effect analysis • Target marketing • Telemarketing • Direct mailing • Cross-selling, Up-selling
데이터웨어하우스 • 데이터웨어하우스는 경영자의 의사결정을 지원하기 위한, 주제 중심적(subject-oriented)이고, 통합적(integrated)이며, 시간에 따라 변하며(time-variant), 비휘발성(nonvolatile)의 자료 집합이다. • 데이터베이스와의 차이점 • 조직이나 기업의 운영적 업무를 지원하는 것이 아니라, 중견 이상의 관리자들이 기업의 상황을 체계적으로 파악하고 이해하며 이를 바탕으로 전략적 혹은 전술적 의사결정을 지원하는데 목적 • 조직이나 기업에 산재하는 각종 정보의 통합과 수집에 관여 • 개별 레코드의 빈번한 접근과 갱신이 아니라, 전체 레코드에 대한 접근과 이들에 대한 합산, 통계 등 분석 작업에 초점
데이터웨어하우스의 속성 • 여러 곳의 원천 데이터 집합들을 이용하여 분석적 업무를 수행할 수 있도록 설계된 데이터베이스 • 상대적으로 장기간의 정보 이용을 필요로 하는 소수의 사용자를 위한 시스템 • 주요 사용용도는 자료 검색 • 저장, 관리되는 데이터는 정기적으로 갱신 • 과거에서 현재에 이르는 시간적 흐름에 따른 자료를 축적
데이터웨어하우스의 구성 요소 • 데이터 추출, 정화 및 적재 도구 • 메타데이터(Metadata) 저장소 • 데이터웨어하우스 데이터베이스 • 데이터 마트(Data Mart) • 응용 도구 (보고서 출력, 질의 처리, OLAP, 데이터마이닝 도구) • 데이터웨어하우스 관리 도구 • 정보 배달 시스템
OLAP (Online Analytical Processing) • 다차원 데이터베이스(Multi-dimensional database)를 주축으로 하며, 시간에 따른 데이터 분석과 필요에 따른 차원 별로 통합과 분해를 용이하게 할 수 있도록 설계 • 데이터 모델 유형 • Star schema • Snowflake schema • Constellation schema • 분석 작업 • Roll-up • 차원 제거 • Drill-down • 차원 추가 • Slice, Dice • 특정 차원(들)에 대한 선택
데이터마이닝 분석 기법 • 연관 분석(Association Analysis) • 군집 분석(Cluster Analysis) • 분류 분석(Classification Analysis)
Association Rule Mining • 동의어 • Market Basket Analysis • Affinity Analysis • 기본 목적 • 자주 발생하는 유의한 패턴을 찾아내는 것 • 패턴 = Premise part + Consequent part • 단, 인과관계가 아니라 동시발생(co-occurrence)관계 • 용어 • Item : 독립적 사상(조건, 결과) • 연관규칙 : 조건 Item이 발생하면 결과 Item이발생 • R1: A^BC (A와 B가 발생하면 C가 발생) • R2: B^CD (B와 C가 발생하면 D가 발생) • 지지도 : 해당 규칙에 관련된 item들이 얼마나 자주 함께 나타나는가를 평가 • Support(R1) = P(A B C) • 신뢰도 : 조건부의 item들을 포함하는 사상 중에 결론부의 item들을 함께 가지는 사상의 비율 (결론부의 item들이 얼마나 조건부의 아이템들에 종속적인지를 평가) • Confidence(R1) = P(A B C) / P(A B)
Association Rule Mining • 연관규칙 추출 알고리즘 • AprioriAll • 연관규칙 • R1: A^BC • R2: B^CD • Support(R1) = 4 / 5 = 0.8 • Confidence(R1) = 4/4 = 1.0 • Support(R2) = 2 /5 = 0.4 • Confidence(R2) = 2 / 4 = 0.5 • 최소 지지도(minimum support)가 0.5이면, R2 제외, R1만 채택
Classification Analysis • 분류를 위한 데이터마이닝 기법 • Discriminant analysis • Neural network • Decision tree • CART (Classification and Regression Trees) • CHAID (Chi-square Interaction Detection Analysis) • ID3, C4.5 • See 5.0 • Case-based reasoning • 활용 분야 • Fraud detection • 이탈 고객(churn) 탐지 • DM 발송 시 고객 응답률 향상
Clustering Analysis • 임의의 사례들을 유사한 사례(군집)들로 나누는 작업 • 기준 • 유사성(Similarity) • 유형 • 분할(partitioning) 방법 • 계층형(hierarchical) 방법 • 밀도(density) 기반 방법 • k-means 기법 • Euclidian distance를 유사성 기준으로 사용 • 초기화 거리 계산 중심점 조정 수렴 조건 검사
Web Mining • 웹 혹은 인터넷에서의 사용자에 관련된 정보를 축적하고 이를 바탕으로 기업이나 조직에 의미 있는 패턴이나 지식을 추출하는 일련의 과정 • 웹과 인터넷을 통해 수집한 정보뿐만 아니라 오프라인의 정보도 이용해야 함 • 웹 마이닝의 분류와 응용 분야 • Web Content Mining • Content classification • Information filtering • Recommendation • Web Structure Mining • Web mining • Information search aid • Web Usage Mining • Personalization • Cross sell/Up sell • Segmentation • Dynamic Ads. Management
웹 마이닝의 특징 • 초거대 규모의 데이터 량 • 비정형적이거나 반정형적 데이터 구조 • 사전 정형화 작업 필요 • 실시간성 • Batch 작업적 성격이 강한 일반 데이터마이닝과 구별 • 초세밀형 데이터 축적 단위 • 사용자의 클릭, 초 이하 간격으로 얻어지는 데이터 • 데이터 압축이나 추상화 작업 요구 • 빈번한 데이터 갱신
웹 마이닝의 응용 분야 • 개인화 웹 사이트 • 웹 사이트 내용과 구성 개인화 • 배너 광고 개인화 • 프로모션 개인화 • 인터넷 쇼핑몰 상품 추천 • 고객의 성향, 선호 반영 • 웹 사이트 재구성 • 효율적인 링크(네이비게이션) 구조 • 고객 성향에 맞춘 상품 구색(merchandizing) • 정보 배치와 제품 진열 최적화 • 인터넷 고객 정보 수집 및 관리 • 고객 분류 • Profiling
웹사이트에서의 사용자 행동 흐름 • Browse • Customized catalog, customized banner ad • Entry, Home, Login • Dynamic link generation • Search • Content-based filtering, Collaborative filtering • Select, Add to cart • Cross-selling, up-selling • Pay • Fraud detection
웹마이닝 기반 비즈니스 모델 • HitBox (WebSideStory) • 경로분석 • 웹 사이트 인기도 기반 정보 검색 • 동적 광고 (DoubleClick)
웹마이닝을 위한 정보 원천과 획득 • Web Content • Web Structure • Web Usage • Web log • User Profile • 고객 등록(가입) 시 획득 • Transactions or Operational Data
Web Log File의 구성 • Transfer Log • 고객의 방문 일자, 시간, 고객의 도메인 명, IP 주소, 정보 요청 방법, 정보 요청 상태 정보, 고객에게 전달된 정보의 크기 등 • Error Log • Referrer Log • 현재 사용자의 요청을 수행하고 있는 위치(URL) 정보 • Agent Log • 정보를 요청한 브라우저의 이름과 버전 번호
웹마이닝의 절차 • Data Cleansing • User Identification • IP 주소, Cookies, Login 정보 • Session Identification • Session: 한 사용자가 특정 사이트에 한번 접속하여 수행한 일련의 관련 행위들 • Path Completion and Formatting • 서버 측에 잡히지 않는 경로 정보를 유추하고 보완 • Transaction Identification • 개별 사용자의 단위 행위(Session 내)를 추출 • Data Mining Procedures
웹마이닝 분석 유형 • 요약 분석(Summarization) • Click-through rate • Hit 및 Traffic 분석 • 참조자 분석 • 방문자 통계량 • … • 지식 추출(Knowledge extraction) • 연관규칙 • Item1.html ^ Item3.html 보험업 종사자 • 20대 ^ 수도권 item2.html • …
연습문제 • Knowledge Gap의 의미를 설명하시오. • 데이터마이닝이란 무엇인가? • 데이터마이닝의 과정을 간단히 설명하시오. • 데이터마이닝 방법론들을 분류, 나열하시오. • Fraud detection에서 데이터마이닝이 어떻게 사용될 수 있는지 설명하시오. • Risk management에서 데이터마이닝이 어떻게 사용될 수 있는지 설명하시오. • 생산관리에서 데이터마이닝이 어떻게 사용될 수 있는지 설명하시오. • 교차판매에서 데이터마이닝이 어떻게 사용될 수 있는지 설명하시오. • Direct mailing에서 데이터마이닝이 어떻게 사용될 수 있는지 설명하시오. • 데이터웨어하우스와 일반 데이터베이스를 비교 설명하시오. • OLPA의 분석작업 세 가지를 간단히 설명하시오. • 다음 자료에서 ‘지역’ 차원을 Roll-up한 후의 결과를 쓰시오. (자료 생략) • 다음 자료에서 R : A ^ B -> C의 지지도와 신뢰도를 구하시오. (자료 생략) • Clustering analysis란 무엇인가? • Classification과 Clustering을 비교하여 설명하시오. • 웹 마이닝의 종류 3가지를 나열하고간단히 설명하시오. • Hitbox의 수익 모델들을 가능한 한 나열하고 간단히 설명하시오.