141 653 data warehousing and data mining
Download
1 / 35

141-653 Data Warehousing and Data Mining - PowerPoint PPT Presentation


  • 114 Views
  • Uploaded on

141-653 Data Warehousing and Data Mining. ดร. วิภาดา เวทย์ประสิทธิ์ ภาควิชาวิทยาการคอมพิวเตอร์ มหาวิทยาลัยสงขลานครินทร์ ห้อง CS 320 E-mail : [email protected] Website : http://staff.cs.psu.ac.th/wiphada. วัตถุประสงค์.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' 141-653 Data Warehousing and Data Mining' - vita


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
141 653 data warehousing and data mining

141-653 Data Warehousing and Data Mining

ดร. วิภาดา เวทย์ประสิทธิ์

ภาควิชาวิทยาการคอมพิวเตอร์ มหาวิทยาลัยสงขลานครินทร์

ห้อง CS 320E-mail : [email protected]

Website : http://staff.cs.psu.ac.th/wiphada


วัตถุประสงค์

1.ให้นักศึกษามีความรู้ความเข้าใจเกี่ยวกับการจัดการเหมืองข้อมูลได้

2.ให้นักศึกษาสามารถทำเหมืองข้อมูลได้

3. ให้นักศึกษาสามารถศึกษาค้นคว้าด้วยตนเองเกี่ยวกับการทำเหมืองข้อมูลได้

Chapter 1


การวัดผล

สอบกลางภาค35%

สอบปลายภาค 40% Assignment 15%

สัมมนา10%

เวลาเรียน

อาทิตย์ 13.00 – 16.00 ห้อง S104

Chapter 1


เนื้อหา

Chapter 1 : Introduction

Chapter 2 : Data Warehouse

Chapter 3 : Data Mining

Chapter 4 : Basic Data Mining Techniques

Chapter 5: Decision Tree

Chapter 6: Association Rules

Chapter 7: The K- Means Algorithm

Chapter 8: Neural Networks

Chapter 9 : Statistical Techniques

Chapter 10 : Rule-Based Systems

Chapter 1


เอกสารประกอบการสอน

1. Data Mining A tutorial-Based Primer, Richard J. Roiger and Michael W. Geatz,

Pearson Education Inc., 2003.

2. Mining Very Large Databases with Parallel Processing, Alex A. Freitas

and Simon H. Lavington, Kluwer Academic Publishers, 1998.

3. การออกแบบและพัฒนาคลังข้อมูล (Data Warehouse), กิตติภักดีวัฒนะกุล,

บริษัทเคทีพีคอมพ์แอนด์คอนซัลท์, 2546

4. คัมภีร์ระบบสนับสนุนการตัดสินใจและระบบผู้เชี่ยวชาญ (Decision Support

Systems and Expert Systems), กิตติพงษ์ กลมกล่อม, บริษัทเคทีพีคอมพ์แอนด์

คอนซัลท์, 2546

Chapter 1


Chapter 1

Chapter 1

Introduction


Content
Content

  • Data Warehouse (คลังข้อมูล)

  • Data Warehousing (การคลังข้อมูล)

  • Data Mining (เหมืองข้อมูล)

Chapter 1


ปัญหาของการนำฐานข้อมูลหลายแบบมารวมกันปัญหาของการนำฐานข้อมูลหลายแบบมารวมกัน

  • 1. H/W S/W หลายชนิด

  • 2. Data Redundancy เกิดความซ้ำซ้อนของข้อมูล

  • 3. Data Inconsistency ข้อมูลไม่สอดคล้องกัน

  • 4. Coding System ระบบการให้รหัสเกิดปัญหามาตราฐานซ้อน (Multiple Standard)

  • การพัฒนาระบบแบบยุ้งฉาง (Silo-based System)

    • งานใครงานมัน

Chapter 1


ที่มาของคลังข้อมูลปัญหาของการนำฐานข้อมูลหลายแบบมารวมกัน

  • Business Integration

    • ต้องการมีมาตราฐานเดียวในการเก็บข้อมูลขององค์กร

  • มี 2 แบบ

  • 1. Partial Business Integration

    • Point to Point Business Integration

    • Middleware Business Integration

  • 2. Overall Business Integration

Chapter 1


ที่มาของคลังข้อมูลปัญหาของการนำฐานข้อมูลหลายแบบมารวมกัน

  • 1. Partial Business Integration

    • Point to Point Business Integration

      • เชื่อมโยงระหว่างระบบ 2 ระบบให้ติดต่อกันได้

      • แต่ละระบบงานทำงานทดแทนกันไม่ได้

      • มีปัญหา Spaghetti Phenomenon

    • Middleware Business Integration

      • มีกลุ่ม H/W S/W ที่เป็นตัวกลางในการแปลงและแลกเปลี่ยนข้อมูลระหว่างระบบงานต่างๆ

      • มีประสิทธิภาพมากขึ้น

Chapter 1


Point to point business integration
Point to Point Business Integrationปัญหาของการนำฐานข้อมูลหลายแบบมารวมกัน

Chapter 1


ที่มาของคลังข้อมูลปัญหาของการนำฐานข้อมูลหลายแบบมารวมกัน

  • 2. Overall Business Integration

    • ออกแบบและพัฒนาระบบใหม่ โดยรวมเอาเนื้อหาของข้อมูลทั้งหมดในองค์กรให้เป็นหนึ่งเดียว ไม่แยกออกเป็นส่วนๆ

    • หลายองค์กรเป็นระบบเดียว เนื้อหาเดียวกัน

    • Unified Standard

    • Maximize data consistency

    • Minimize data redundancy

Chapter 1


Data warehouse
Data Warehouse ปัญหาของการนำฐานข้อมูลหลายแบบมารวมกัน(คลังข้อมูล)

  • คลังข้อมูล หมายถึง.... หลักการหรือวิธีการ เพื่อรวมระบบสารสเทศเพื่อ การประมวลผลรายการข้อมูลที่เกิดขึ้นในแต่ละวันแต่ละสายงาน มารวมเป็นหน่วยเดียวกัน

    เพื่อสนับสนุนการตัดสินใจให้มีประสิทธิภาพมากยิ่งขึ้น

  • คลังข้อมูล หมายถึง....ข้อมูลในแหล่งข้อมูลหลายๆแหล่ง เพื่อประกอบการตัดสินใจให้มีประสิทธิภาพมากยิ่งขึ้น

  • คลังข้อมูลไม่ใช่ผลิตภัณฑ์ หรือระบบสำเร็จรูป

  • คลังข้อมูลมีความเป็นส่วนตัวของแต่ละองค์กร

    (Organization Customized System)

Chapter 1


คุณลักษณะของคลังข้อมูลคุณลักษณะของคลังข้อมูล

  • 1. Subject-Oriented

  • 2. Integrated

  • 3. Time-Variant

  • 4. Non-Volatile

Chapter 1


คุณลักษณะของคลังข้อมูลคุณลักษณะของคลังข้อมูล

  • 1. Subject-Oriented

    • ข้อมูลถูกจัดกลุ่มให้เหมาะสมกับการสืบค้น จัดตามประเด็นหลักขององค์กร เช่น

      • ลูกค้า สินค้า ยอดขาย

    • ข้อมูลจะ....ไม่ถูกจัดตามหน้าที่การงาน....ของโปรแกรมใดโปรแกรมหนึ่ง เช่น

      • การควบคุมคลังสินค้า การออกใบกำกับภาษี

  • 2. Integrated

    • จัดข้อมูลให้อยู่ในรูปแบบเดียวกัน จากแหล่งข้อมูลหลายแหล่ง

Chapter 1


คุณลักษณะของคลังข้อมูลคุณลักษณะของคลังข้อมูล

  • 3. Time-Variant

    • ข้อมูลต้องมีความถูกต้อง เพราะเก็บไว้ใช้นาน 5-10 ปี

  • 4. Non-Volatile

    • การปรับปรุงข้อมูลเป็นการเพิ่มข้อมูลใหม่เข้าไปเรื่อยๆ ไม่ใช่การแทนที่ข้อมูลเก่า

    • ข้อมูลในคลังข้อมูล....ไม่จำเป็น...ต้องทำการ Normalize เหมือนในฐานข้อมูล (Data based)

Chapter 1


ข้อดีของคลังข้อมูลคุณลักษณะของคลังข้อมูล

  • 1. ให้ผลตอบแทนในการลงทุนสูง

  • 2. ได้เปรียบคู่แข่ง วิเคราะห์ข้อมูลเพื่อกำหนดเป็นแผนกลยุทธ์ได้ก่อนคู่แข่ง เช่นพฤติกรรมผู้บริโภค

  • 3. เพิ่มประสิทธิภาพในการตัดสินใจ มีข้อมูลครบถ้วนจากอดีตจนถึงปัจจุบัน

Chapter 1


ข้อเสียของคลังข้อมูลคุณลักษณะของคลังข้อมูล

  • 1. ขั้นตอนการกรองข้อมูลใช้เวลานาน ต้องอาศัยผู้ที่มีความชำนาญในการกรองข้อมูล

  • 2. แนวโน้มในการกรองข้อมูลเพิ่มมากขึ้นเรื่อยๆ เพิ่มความซับซ้อนให้กระบวนการทำงาน

  • 3.ใช้เวลานานในการพัฒนาคลังข้อมูล

  • 4.ระบบคลังข้อมูลมีความซับซ้อนสูง

Chapter 1


Data warehousing
Data คุณลักษณะของคลังข้อมูลWarehousing (การคลังข้อมูล)

  • การคลังข้อมูล คือ การออกแบบ และสร้างโครงสร้างของข้อมูลในคลังข้อมูล รวมถึง

    • วิธีการได้มาของข้อมูล

    • วิธีการสร้างผลลัพธ์จากข้อมูลที่มี

    • วิธีการดูแลรักษา และวิธีการปรับปรุงประสิทธิภาพ

Chapter 1


สถาปัตยกรรมของคลังข้อมูลสถาปัตยกรรมของคลังข้อมูล

  • 1. Data Acquisition System

  • 2. Data Staging Area

  • 3. Data Warehouse Database/Data Store

  • 4. Data Provisioning Area /Data Mart

  • 5. End User Terminal

  • 6. Metadata Repository

Chapter 1


สถาปัตยกรรมของคลังข้อมูลสถาปัตยกรรมของคลังข้อมูล

Chapter 1


สถาปัตยกรรมของคลังข้อมูลสถาปัตยกรรมของคลังข้อมูล

  • 1. Data Acquisition System

    • รับข้อมูลจากภายนอก

  • 2. Data Staging Area

    • Data Cleansing ลดความซ้ำซ้อนของข้อมูล

    • Filtering เลือกเฉพาะข้อมูลที่มีประโยชน์

  • 3. Data Warehouse Database/Data Store

    • Data Model การออกแบบจำลองข้อมูล

    • การจัดเก็บข้อมูล

Chapter 1


สถาปัตยกรรมของคลังข้อมูลสถาปัตยกรรมของคลังข้อมูล

  • 4. Data Provisioning Area / Data Mart

    • การรายงานผลลัพธ์ต่างๆที่จำเป็นสำหรับการวิเคราะห์ข้อมูล

  • 5. End User Terminal

    • Simple Report Tool

    • Multi Dimensional Tools

    • Data Mining Tools

  • 6. Metadata Repository

    • ใช้เก็บข้อมูลที่ใช้ควบคุมการทำงานในคลังข้อมูล

Chapter 1


การวิเคราะห์ข้อมูลในคลังข้อมูลการวิเคราะห์ข้อมูลในคลังข้อมูล

  • 1. Query and Report Generator

  • 2. Multidimensional Data Analysis

  • 3. Online Analysis Processing (OLAP)

  • 4. Data Mining Tools

Chapter 1


การวิเคราะห์ข้อมูลในคลังข้อมูลการวิเคราะห์ข้อมูลในคลังข้อมูล

Chapter 1


การวิเคราะห์ข้อมูลในคลังข้อมูลการวิเคราะห์ข้อมูลในคลังข้อมูล

Chapter 1


Online analysis processing olap
Online Analysis Processing (OLAP)การวิเคราะห์ข้อมูลในคลังข้อมูล

  • กระบวนการประมวลผลข้อมูลทางคอมพิวเตอร์ ที่ช่วยให้วิเคราะห์ข้อมูลในมิติต่างๆ (Multidimensional Data Analysis)

  • การดำเนินการกับ OLAP

    • 1. Roll up / Consolidation

      • การปรับระดับความละเอียดของข้อมูล จากระดับที่ละเอียด...มาสู่ที่..หยาบขึ้น

    • 2. Drill Down

      • การปรับระดับความละเอียดของข้อมูล จากระดับที่หยาบ...ไปสู่ที่..ละเอียดมากขึ้น

    • 3. Slice

      • การเลือกพิจารณาผลลัพธ์บางส่วนที่เราสนใจ โดยเลือกเฉพาะค่าที่ถูกกำกับด้วยข้อมูลบางค่าของแต่ละมิติเท่านั้น

    • 4. Dice

      • กระบวนการพลิกแกนหรือมิติของข้อมูล ให้ตรงตามความต้องการของผู้ใช้งาน

Chapter 1


Data mining
Data Mining การวิเคราะห์ข้อมูลในคลังข้อมูล(เหมืองข้อมูล)

  • เหมืองข้อมูลเป็นเครื่องมือที่ช่วยให้ผู้ใช้เข้าถึงข้อมูลได้โดยตรงจากฐานข้อมูลขนาดใหญ่

  • เหมืองข้อมูล เป็นเครื่องมือ และ Application ที่สามารถแสดงผลการวิเคราะห์ข้อมูลทางสถิติได้

  • เหมืองข้อมูลหมายถึงการวิเคราะห์ข้อมูล เพื่อแยกประเภท จำแนกรูปแบบและความสัมพันธ์ของข้อมูลจากคลังข้อมูลหรือฐานข้อมูลขนาดใหญ่ นำสารสนเทศไปใช้ในการตัดสินใจธุรกิจ

  • ได้องค์ความรู้ใหม่ (Knowledge Discovery)

  • อาจอยู่ในรูปแบบของกฎเกณฑ์ (Rule)

Chapter 1


เทคนิคการทำเหมืองข้อมูลเทคนิคการทำเหมืองข้อมูล

  • 1. Classification

  • 2. Clustering

  • 3. Association

  • 4. Visualization

Chapter 1


เทคนิคการทำเหมืองข้อมูลเทคนิคการทำเหมืองข้อมูล

p.85

  • 1. Classification :เทคนิคในการจำแนกกลุ่มข้อมูลด้วยคุณลักษณะต่างๆที่ได้มีการกำหนดไว้แล้ว

    • สร้างแบบจำลองเพื่อการพยากรณ์ค่าข้อมูล (Predictive Model) ในอนาคต เรียกว่า ......Supervised Learning

    • มี 2 รูปแบบ

      • Tree Induction

      • Neural Network

  • 2. Clustering :เทคนิคในการจำแนกกลุ่มข้อมูลใหม่ที่มีลักษณะคล้ายกันไว้กลุ่มเดียวกัน โดยไม่มีการจัดกลุ่มข้อมูลตัวอย่างไว้ล่วงหน้า เรียกว่า .......Unsupervised Learning

  • 3. Association :เทคนิคในการค้นพบองค์ความรู้ใหม่ ด้วยการเชื่อมโยงกลุ่มของข้อมูลที่เกิดขึ้นในเหตุการณ์เดียวกันไว้ด้วยกัน

  • 4. Visualization :เทคนิคที่ใช้ในการแสดงผลในรูปแบบกราฟิกหรือ ข้อมูลหลายมิติ

Chapter 1


คุณลักษณะของเหมืองข้อมูลคุณลักษณะของเหมืองข้อมูล

  • 1. ชี้แนวทางการตัดสินใจและคาดการณ์ผลลัพธ์

  • 2. เพิ่มความเร็วในการวิเคราะห์ข้อมูล จากฐานข้อมูลขนาดใหญ่

  • 3. ค้นหาส่วนประกอบที่ซ่อนอยู่ในเอกสาร รวมถึงความสัมพันธ์ระหว่างส่วนประกอบต่างๆ

  • 4. จัดกลุ่มเอกสารตามหัวข้อต่างๆตามนโยบายบริษัท

Chapter 1


ตัวอย่างการนำเหมืองข้อมูลมาใช้งานตัวอย่างการนำเหมืองข้อมูลมาใช้งาน

  • 1. การตลาด

    • ทำนายยอดขายเมื่อมีการลดจำนวนสินค้าลง

  • 2. การเงินการธนาคาร

    • คาดการณ์โอกาสในการชำระหนี้ของลูกค้า

  • 3. การค้าขาย

  • 4. โรงงาน การผลิต

  • 5. ตลาดหลักทรัพย์

  • 6. ธุรกิจการประกัน

  • 7. H/W S/W คอมพิวเตอร์

  • 8. กระทรวงกลาโหม

  • 9. โรงพยาบาล

Chapter 1


ประโยชน์ของเหมืองข้อมูลประโยชน์ของเหมืองข้อมูล

  • 1. ค้นหาข้อมูลโดยอาศัยเทคโนโลยีของเหมืองข้อมูล

  • 2. ใช้สถาปัตยกรรมแบบ Client/Server

  • 3. ผู้ใช้ระบบไม่จำเป็นต้องทักษะในการเขียนโปรแกรม

  • 4. ผู้ใช้ต้องกำหนดขอบเขตและเป้าหมายของระบบให้ชัดเจน เพื่อความรวดเร็วและถูกต้องตามความต้องการ

  • 5. การประมวลผลแบบขนานจะช่วยเพิ่มประสิทธิภาพและความเร็วในการค้นหาข้อมูล

Chapter 1


Homework 1
Homeworkประโยชน์ของเหมืองข้อมูล1

  • 1. จงหาความหมายของคำนิยามต่อไปนี้ มาอย่างน้อย 2 แหล่ง

    อ้างอิงพร้อมบอกที่มาของแหล่งอ้างอิงด้วย

    • Data Warehouse (คลังข้อมูล)

    • Data Mining (เหมืองข้อมูล)

  • 2. จงหาว่า Data Mining Tool มีอะไรบ้าง พร้อมทั้งอธิบายมาพอสังเขป

    ส่งรายงาน (next week in class)

    • Hard Copy

    • File

    • Presentation 2 min (no slide)

Chapter 1


The road to success is always ประโยชน์ของเหมืองข้อมูล

under construction

Jim Miller


ad