1 / 25

인터넷 환경의 지식시스템 제 14 장 데이터마이닝과 웹마이닝

인터넷 환경의 지식시스템 제 14 장 데이터마이닝과 웹마이닝. 개요. 자료 축적의 형태 File  Database 자료 축적의 목적 업무처리 및 기록 보존  분석적 작업을 통한 전술 / 전략적 의사결정 자료 분석의 형태 수작업 , 통찰력 또는 전통적 통계분석  데이터마이닝 , 지식 경영 Knowledge Gap 실재하는 데이터로부터 추출할 수 있는 잠재적 지식의 양적 / 질적 수준에 비하여 실제로 이용 가능한 정보나 지식의 수준이 매우 낮은 현상 원인

talia
Download Presentation

인터넷 환경의 지식시스템 제 14 장 데이터마이닝과 웹마이닝

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 인터넷 환경의 지식시스템제 14 장 데이터마이닝과 웹마이닝

  2. 개요 • 자료 축적의 형태 • File  Database • 자료 축적의 목적 • 업무처리 및 기록 보존  분석적 작업을 통한 전술/전략적 의사결정 • 자료 분석의 형태 • 수작업, 통찰력 또는 전통적 통계분석  데이터마이닝, 지식 경영 • Knowledge Gap • 실재하는 데이터로부터 추출할 수 있는 잠재적 지식의 양적/질적 수준에 비하여 실제로 이용 가능한 정보나 지식의 수준이 매우 낮은 현상 • 원인 • 데이터 분석 능력의 한계 (데이터마이닝) • 축적된 정보와 지식에 대한 관리 능력의 한계 (지식경영) • Web Mining • 웹 콘텐츠, 웹 사이트및웹 페이지의 구조, 개인의 트래픽 데이터를 분석

  3. 데이터마이닝 • 대량의 데이터 집합으로부터 유용한 지식(규칙, 패턴, 제약(constraints) 등)을 추출하는 것 • 데이터마이닝의 조건 • 충분한 데이터 • 컴퓨팅 환경 • 데이터마이닝 알고리즘 • 유사 용어 • KDD (Knowledge Discovery in Databases) • Knowledge Extraction • Data Archaeology • Data Dredging

  4. 데이터마이닝 과정 • Data Cleaning • Data Integration • Data Selection • Data Transformation • Application of Data Mining Methods • Knowledge Evaluation • Application of Knowledge

  5. 데이터마이닝 방법론의 기능적 분류 • 검증기반 데이터마이닝 • SQL • SQL Generator • Query Tools • OLAP • 발견기반 데이터마이닝 • Descriptive Data Mining • Visualization • Clustering • Association • Outlier Analysis • Characterization • Predictive Data Mining • Classification • Prediction • Time-series Analysis

  6. 데이터마이닝의 응용분야 • Fraud detection • Risk management • Claim prevention • Customer retention, Churn management • Customer acquisition • Customer segmentation and profiling • Forecasting • Pricing • Campaign effect analysis • Target marketing • Telemarketing • Direct mailing • Cross-selling, Up-selling

  7. 데이터웨어하우스 • 데이터웨어하우스는 경영자의 의사결정을 지원하기 위한, 주제 중심적(subject-oriented)이고, 통합적(integrated)이며, 시간에 따라 변하며(time-variant), 비휘발성(nonvolatile)의 자료 집합이다. • 데이터베이스와의 차이점 • 조직이나 기업의 운영적 업무를 지원하는 것이 아니라, 중견 이상의 관리자들이 기업의 상황을 체계적으로 파악하고 이해하며 이를 바탕으로 전략적 혹은 전술적 의사결정을 지원하는데 목적 • 조직이나 기업에 산재하는 각종 정보의 통합과 수집에 관여 • 개별 레코드의 빈번한 접근과 갱신이 아니라, 전체 레코드에 대한 접근과 이들에 대한 합산, 통계 등 분석 작업에 초점

  8. 데이터웨어하우스의 속성 • 여러 곳의 원천 데이터 집합들을 이용하여 분석적 업무를 수행할 수 있도록 설계된 데이터베이스 • 상대적으로 장기간의 정보 이용을 필요로 하는 소수의 사용자를 위한 시스템 • 주요 사용용도는 자료 검색 • 저장, 관리되는 데이터는 정기적으로 갱신 • 과거에서 현재에 이르는 시간적 흐름에 따른 자료를 축적

  9. 데이터웨어하우스의 구성 요소 • 데이터 추출, 정화 및 적재 도구 • 메타데이터(Metadata) 저장소 • 데이터웨어하우스 데이터베이스 • 데이터 마트(Data Mart) • 응용 도구 (보고서 출력, 질의 처리, OLAP, 데이터마이닝 도구) • 데이터웨어하우스 관리 도구 • 정보 배달 시스템

  10. OLAP (Online Analytical Processing) • 다차원 데이터베이스(Multi-dimensional database)를 주축으로 하며, 시간에 따른 데이터 분석과 필요에 따른 차원 별로 통합과 분해를 용이하게 할 수 있도록 설계 • 데이터 모델 유형 • Star schema • Snowflake schema • Constellation schema • 분석 작업 • Roll-up • 차원 제거 • Drill-down • 차원 추가 • Slice, Dice • 특정 차원(들)에 대한 선택

  11. 데이터마이닝 분석 기법 • 연관 분석(Association Analysis) • 군집 분석(Cluster Analysis) • 분류 분석(Classification Analysis)

  12. Association Rule Mining • 동의어 • Market Basket Analysis • Affinity Analysis • 기본 목적 • 자주 발생하는 유의한 패턴을 찾아내는 것 • 패턴 = Premise part + Consequent part • 단, 인과관계가 아니라 동시발생(co-occurrence)관계 • 용어 • Item : 독립적 사상(조건, 결과) • 연관규칙 : 조건 Item이 발생하면 결과 Item이발생 • R1: A^BC (A와 B가 발생하면 C가 발생) • R2: B^CD (B와 C가 발생하면 D가 발생) • 지지도 : 해당 규칙에 관련된 item들이 얼마나 자주 함께 나타나는가를 평가 • Support(R1) = P(A  B  C) • 신뢰도 : 조건부의 item들을 포함하는 사상 중에 결론부의 item들을 함께 가지는 사상의 비율 (결론부의 item들이 얼마나 조건부의 아이템들에 종속적인지를 평가) • Confidence(R1) = P(A  B  C) / P(A  B)

  13. Association Rule Mining • 연관규칙 추출 알고리즘 • AprioriAll • 연관규칙 • R1: A^BC • R2: B^CD • Support(R1) = 4 / 5 = 0.8 • Confidence(R1) = 4/4 = 1.0 • Support(R2) = 2 /5 = 0.4 • Confidence(R2) = 2 / 4 = 0.5 • 최소 지지도(minimum support)가 0.5이면, R2 제외, R1만 채택

  14. Classification Analysis • 분류를 위한 데이터마이닝 기법 • Discriminant analysis • Neural network • Decision tree • CART (Classification and Regression Trees) • CHAID (Chi-square Interaction Detection Analysis) • ID3, C4.5 • See 5.0 • Case-based reasoning • 활용 분야 • Fraud detection • 이탈 고객(churn) 탐지 • DM 발송 시 고객 응답률 향상

  15. Clustering Analysis • 임의의 사례들을 유사한 사례(군집)들로 나누는 작업 • 기준 • 유사성(Similarity) • 유형 • 분할(partitioning) 방법 • 계층형(hierarchical) 방법 • 밀도(density) 기반 방법 • k-means 기법 • Euclidian distance를 유사성 기준으로 사용 • 초기화  거리 계산  중심점 조정  수렴 조건 검사

  16. Web Mining • 웹 혹은 인터넷에서의 사용자에 관련된 정보를 축적하고 이를 바탕으로 기업이나 조직에 의미 있는 패턴이나 지식을 추출하는 일련의 과정 • 웹과 인터넷을 통해 수집한 정보뿐만 아니라 오프라인의 정보도 이용해야 함 • 웹 마이닝의 분류와 응용 분야 • Web Content Mining • Content classification • Information filtering • Recommendation • Web Structure Mining • Web mining • Information search aid • Web Usage Mining • Personalization • Cross sell/Up sell • Segmentation • Dynamic Ads. Management

  17. 웹 마이닝의 특징 • 초거대 규모의 데이터 량 • 비정형적이거나 반정형적 데이터 구조 • 사전 정형화 작업 필요 • 실시간성 • Batch 작업적 성격이 강한 일반 데이터마이닝과 구별 • 초세밀형 데이터 축적 단위 • 사용자의 클릭, 초 이하 간격으로 얻어지는 데이터 • 데이터 압축이나 추상화 작업 요구 • 빈번한 데이터 갱신

  18. 웹 마이닝의 응용 분야 • 개인화 웹 사이트 • 웹 사이트 내용과 구성 개인화 • 배너 광고 개인화 • 프로모션 개인화 • 인터넷 쇼핑몰 상품 추천 • 고객의 성향, 선호 반영 • 웹 사이트 재구성 • 효율적인 링크(네이비게이션) 구조 • 고객 성향에 맞춘 상품 구색(merchandizing) • 정보 배치와 제품 진열 최적화 • 인터넷 고객 정보 수집 및 관리 • 고객 분류 • Profiling

  19. 웹사이트에서의 사용자 행동 흐름 • Browse • Customized catalog, customized banner ad • Entry, Home, Login • Dynamic link generation • Search • Content-based filtering, Collaborative filtering • Select, Add to cart • Cross-selling, up-selling • Pay • Fraud detection

  20. 웹마이닝 기반 비즈니스 모델 • HitBox (WebSideStory) • 경로분석 • 웹 사이트 인기도 기반 정보 검색 • 동적 광고 (DoubleClick)

  21. 웹마이닝을 위한 정보 원천과 획득 • Web Content • Web Structure • Web Usage • Web log • User Profile • 고객 등록(가입) 시 획득 • Transactions or Operational Data

  22. Web Log File의 구성 • Transfer Log • 고객의 방문 일자, 시간, 고객의 도메인 명, IP 주소, 정보 요청 방법, 정보 요청 상태 정보, 고객에게 전달된 정보의 크기 등 • Error Log • Referrer Log • 현재 사용자의 요청을 수행하고 있는 위치(URL) 정보 • Agent Log • 정보를 요청한 브라우저의 이름과 버전 번호

  23. 웹마이닝의 절차 • Data Cleansing • User Identification • IP 주소, Cookies, Login 정보 • Session Identification • Session: 한 사용자가 특정 사이트에 한번 접속하여 수행한 일련의 관련 행위들 • Path Completion and Formatting • 서버 측에 잡히지 않는 경로 정보를 유추하고 보완 • Transaction Identification • 개별 사용자의 단위 행위(Session 내)를 추출 • Data Mining Procedures

  24. 웹마이닝 분석 유형 • 요약 분석(Summarization) • Click-through rate • Hit 및 Traffic 분석 • 참조자 분석 • 방문자 통계량 • … • 지식 추출(Knowledge extraction) • 연관규칙 • Item1.html ^ Item3.html  보험업 종사자 • 20대 ^ 수도권  item2.html • …

  25. 연습문제 • Knowledge Gap의 의미를 설명하시오. • 데이터마이닝이란 무엇인가? • 데이터마이닝의 과정을 간단히 설명하시오. • 데이터마이닝 방법론들을 분류, 나열하시오. • Fraud detection에서 데이터마이닝이 어떻게 사용될 수 있는지 설명하시오. • Risk management에서 데이터마이닝이 어떻게 사용될 수 있는지 설명하시오. • 생산관리에서 데이터마이닝이 어떻게 사용될 수 있는지 설명하시오. • 교차판매에서 데이터마이닝이 어떻게 사용될 수 있는지 설명하시오. • Direct mailing에서 데이터마이닝이 어떻게 사용될 수 있는지 설명하시오. • 데이터웨어하우스와 일반 데이터베이스를 비교 설명하시오. • OLPA의 분석작업 세 가지를 간단히 설명하시오. • 다음 자료에서 ‘지역’ 차원을 Roll-up한 후의 결과를 쓰시오. (자료 생략) • 다음 자료에서 R : A ^ B -> C의 지지도와 신뢰도를 구하시오. (자료 생략) • Clustering analysis란 무엇인가? • Classification과 Clustering을 비교하여 설명하시오. • 웹 마이닝의 종류 3가지를 나열하고간단히 설명하시오. • Hitbox의 수익 모델들을 가능한 한 나열하고 간단히 설명하시오.

More Related