1 / 74

Chapter 10

Chapter 10. Data Management: Warehousing, Analyzing, Mining, and Visualization. Information Technology For Management 5 th Edition Turban, Leidner, McLean, Wetherbe Lecture Slides by A. Lekacos, Stony Brook University John Wiley & Sons, Inc. Learning Objectives (1).

ellette
Download Presentation

Chapter 10

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Chapter 10 Data Management: Warehousing, Analyzing, Mining, and Visualization Information Technology For Management 5th Edition Turban, Leidner, McLean, Wetherbe Lecture Slides by A. Lekacos, Stony Brook University John Wiley & Sons, Inc.

  2. Learning Objectives(1) • ทำความเข้าใจถึงความสำคัญของข้อมูล, แนวทางการบริหาร และlife cycle . • อธิบายถึงแหล่งต่าง ๆ ของข้อมูลและการรวบรวมข้อมูล • อธิบายถึงระบบการบริหารจัดการเอกสาร • อธิบายถึงการทำงานของคลังข้อมูล(data warehousing) และแนวทางการใช้ระบบสนับสนุน • อธิบายถึงการค้นพบสารสนเทศและองค์ความรู้และเชาว์ปัญญาทางธุรกิจ(business intelligence) • ทำความเข้าใจกับอำนาจและผลประโยชน์ของ data mining. • อธิบายวิธีการนำเสนอข้อมูลและ geographical information systems, visual simulations และ virtual reality ในเชิงเครื่องมือต่าง ๆ ที่ใช้สนับสนุนการทำงาน

  3. Learning Objectives(2) • กล่าวถึงบทบาทของฐานข้อมูลทางการตลาดและตัวอย่าง • ทำความเข้าใจแนวทางการบริหารจัดการข้อมูลโดยใช้ Web

  4. Finding Diamonds by Data Mining at Harrah’s • Business Problem: • Harrah’s Entertainment เป็น casino chain มีทั้งหมด 26 แห่งใน 13 มลรัฐของสหรัฐอเมริกา ยอดขายปี 2002 ประมาณ 4B$ มีผลกำไร 235 M$ ปัญหาทางด้านธุรกิจของเขาก็คือ ทำ อย่างไรที่จะชักชวนให้คนเข้ามาที่บ่อนคาซิโนมากขึ้น(เพื่อใช้เงินในบ่อน)และกลับ มาอีกบ่อย ๆ • โดยทั่วไป พนักงานในคาซิโนจะอาศัยความรู้สึกส่วนตัวในการวางแผนเพื่อชักจูงลูกค้า ทั้งหมดได้ เช่น ให้ loyalty card กับลูกค้า เพื่อให้ลูกค้ามีห้องพักฟรีเพื่อให้ลูกค้าเข้ามา บ่อยขึ้น ดูการแสดงฟรีและ อื่น ๆ อีกมาก เป็นต้น การทำดังนี้ คู่แข่งอื่นๆ ก็ทำเช่นกัน ทำ ให้ไม่มีข้อแตกต่างกับคู่แข่งทั้งหลาย

  5. IT Solution: • Harrah ได้ใช้กลยุทธ์ที่อาศัย IT มาเป็นตัวผลักดันกลยุทธ์ “การบริหารความสัมพันธ์กับลูกค้า (Customer Relationship Management, CRM)” และอาศัยฐานข้อมูลของลูกค้าในด้าน การตลาดมาทำการทดสอบการโปรโมตต่าง ๆ ซึ่งทำให้บริษัทสามารถ fine tune กลยุทธ์ทางด้านการตลาดที่นำเสนอออกไปและกลยุทธ์ทางด้านการให้บริการแก่ลูกค้า เมื่อดูข้อมูลย้อนหลังพบว่า 82.7% ของรายได้ทั้งหมดมาจากเครื่อง Slot machine ที่ตั้งอยู่ใน 26 สาขา • Harrah ได้แจก loyalty smart card ให้กับทุกคน แล้วติดเครื่องอ่าน(smart card reader)ไว้ที่เครื่อง Slot machine ทุก ๆ เครื่องทั้ง 26 สาขา เพื่อบันทึกการกิจกรรมของลูกค้า นอกจากนั้น เขายังติดตั้งเครื่องอ่านไว้ทุกๆ ที่ เช่น ในภัตราคาร ร้านขายของชำร่วย ฯลฯ เพื่อบันทึกการใช้จ่ายของลูกค้าทั้งหมด ข้อมูลเหล่านี้จะถูกเก็บลงคลังข้อมูล ขนาด 300GB เพื่อนำมาวิเคราะห์ต่อไป

  6. แต่ละสาขาได้ทำการวิเคราะห์ข้อมูลหลายล้านรายการที่ได้ โดยแยกออกเป็นส่วน ๆ เช่น อุปนิสัยของลูกค้าและความชอบต่าง ๆ เป็นต้น ข้อมูลเหล่านี้จะถูกส่งไปยังคลัง ข้อมูลรวมขององค์กร (enterprise data warehouse)ซึ่งมีรายละเอียดของลูกค้าเก็บอยู่ เช่น ชื่อ ที่อยู่ อายุ เพศ รวมทั้งเกมที่ชอบเล่น ลักษณะการใช้จ่ายเงิน และ ความชื่น ชอบในด้านต่าง ๆ เป็นต้น ข้อมูลเหล่านี้จะถูก นำมาวิเคราะห์ เพื่อแยกเอาสารสนเทศ ออกมา เช่น Harrah พบว่า ลูกค้าชั้นดีของเขาจะอยู่ในวัยกลางคน และ ผู้สูงวัยที่จัด การเรื่องเวลาและรายได้ได้ด้วยตนเอง คนกลุ่มนี้จะชอบเล่น Slot machine นอกจาก นั้น คนเหล่านี้ยังเป็นกลุ่มที่ไม่ชอบพักในโรงแรมของสถาน คาซิโน แต่จะแวะเข้ามา เพราะเป็นทางผ่านเมื่อกลับจากการทำงาน และเป็นคืนของวันหยุดสุดสัปดาห์ คน กลุ่มนี้จะเลือกเอาชิพ 60$ เพื่อเล่นเกมมากว่าที่จะเลือกห้องพักฟรี พร้อมสเต็ก 2 มื้อ และชิพ 30$ แสดงว่า คนกลุ่มนี้เข้ามาเพื่อหาความสนุกสนานการเล่นเกม มากกว่ามา ท่องเที่ยว

  7. จากข้อมูลเหล่านี้ ทำให้สามารถทำการวางกลยุทธ์ทางการตลาดได้ดีขึ้น เขามองไปที่ การใช้ จ่ายของผู้ที่มาพักเป็นระยะเวลานานก่อน จากนั้นก็ดูลึกลงไปในข้อมูลถึง ความ ชอบ ความสนใจ ของลูกค้า แล้วจัดวางสิ่งต่าง ๆ (เกม) ให้ตรงกับลูกค้าต้องการ เพื่อดึง ดูดให้ลูกค้าใช้จ่ายมากขึ้น • โดยการใช้ Data mining technique (การทำเหมืองข้อมูล) เขายังพบอีกว่า ลูกค้าต่าง ๆ มักชอบเครื่องจักรเครื่องใดเครื่องหนึ่งเป็นพิเศษ ทำให้เขาสามารถจัดวางเครื่อง Slot machine ได้อย่างเหมาะสม นอกจากนั้น Data mining ยังช่วยให้บริษัท สามารถสร้าง ความพึงพอใจให้ลูกค้าได้มากขึ้น (ซึ่งลูกค้าก็จะใช้จ่ายมากขึ้นด้วย) โดยบริษัทได้มี แผนการให้โบนัสกับพนักงานที่ได้คะแนนความพึงพอใจจากลูกค้าสูงถึงค่าที่กำหนด

  8. The results: • จากประสบการณ์ของ Harrah แสดงให้เห็นว่า ยิ่งสร้างประสบการณ์ที่ดีให้กับลูกค้า มากขึ้นเพียงใด มันก็จะเป็นตัวดึงดูดใจให้ลูกค้ากลับมาใช้บริการอีก นั่นหมายถึงบริษัท ก็จะได้เงินจากลูกค้ามากขึ้น • สิ่งที่ควรศึกษาเพิ่มเติมคือ การบริหารความสัมพันธ์กับลูกค้า การทำคลังข้อมูล และ การทำเหมืองข้อมูล

  9. 10.1 การบริหารจัดการกับข้อมูล (Data Management) • แฟกเตอร์ที่วิกฤติต่อความสำเร็จ:การประยุกต์ใช้ IT ในด้านต่าง ๆ จะไม่สำเร็จได้เลย ถ้าปราศจากข้อมูล นั่นคือข้อมูลจะต้องมีคุณภาพสูง (หมายถึง ข้อมูลต้องมีความถูกต้องสมบูรณ์เหมาะสมกับเวลาไม่แปลเปลี่ยนไปมาเข้าถึงได้ ตรงประเด็น และรัดกุม) • ความยุ่งยากในการจัดการกับข้อมูล: • ขนาดของข้อมูลจะเพิ่มขึ้นในเชิง exponential เมื่อเทียบกับเวลา • ข้อมูลจะกระจายอยู่ทั่วทั้งองค์กร มันถูกรวบรวมเอาไว้หลายแบบโดยใช้หลายๆ วิธีการในการรวบรวมข้อมูล และใช้เครื่องมือที่แตกต่างกันออกไป • การเพิ่มขึ้นของข้อมูลจากภายนอกองค์กร จะขึ้นอยู่กับแนวทางที่ได้ตัดสินใจของ องค์กรนั้น ๆ • ความปลอดภัยของข้อมูล คุณภาพ และความสมบูรณ์(integrity)เป็นตัววิกฤต และเกิดอันตรายได้ง่าย

  10. แฟกเตอร์ที่วิกฤตต่อความสำเร็จ (Critical Success Factors; CSF) • การดำเนินงานในองค์กรหนึ่ง ๆ จะมีแฟกเตอร์มากมายหลายตัวที่เข้ามาเกี่ยวข้อง และต้องควบคุมให้เป็นไปตามความต้องการ • แต่จะมีแฟกเตอร์ไม่กี่ตัว ที่ต้องควบคุมให้เป็นไปอย่างถูกต้องตามต้องการ เพื่อมั่น ใจได้ว่า องค์กรจะดำเนินงานต่อไปได้และประสบความสำเร็จ เรียกแฟกเตอร์กลุ่ม นี้ว่า แฟกเตอร์ที่วิกฤตต่อความสำเร็จ (Critical Success Factors; CSF)

  11. วงจรของข้อมูล (Data Life Cycle) (1) • ธุรกิจวิ่งอยู่บนข้อมูล หรือ ก็คือการเปลี่ยนจากข้อมูลเป็นสารสนเทศและองค์ความรู้ ซึ่งผู้บริหารสามารถนำไปใช้แก้ปัญหาเชิงธุรกิจหรือสร้างโอกาสใหม่ ๆ ให้กับธุรกิจ • จากกรณีศึกษาของ Harrah จะเห็นได้ว่า องค์ความรู้คือแรงขับเคลื่อนของคำตอบต่าง ๆ และจะเห็นว่า การบริหารข้อมูลนั้นเป็นเรื่องยุ่งยาก • การเก็บและการนำเสนอข้อมูลเป็นเรื่องง่าย แต่การดึงเอาองค์ความรู้ออกมาจาก ข้อมูลที่เก็บสะสมเอาไว้ออกมาใช้งาน เป็นเรื่องที่ไม่ง่ายเลย • รูปหน้าถัดไปแสดงถึง กระบวนการข้างต้น ข้อมูลต่าง ๆ จะถูกเก็บไว้ในฐานข้อมูล ต่างๆ ข้อมูลข้างต้นจะถูกจัดการให้เหมาะกับรูปแบบที่ต้องเก็บไว้ในคลังข้อมูล (data warehouse) หรือ ตลาดข้อมูล (data mart) ผู้ใช้สามารถเข้าถึงข้อมูลที่ต้องการในคลัง ข้อมูล หรือ ตลาดข้อมูล เพื่อนำมาวิเคราะห์

  12. วงจรของข้อมูล (Data Life Cycle) (2) • การวิเคราะห์จะทำโดย: • ใช้เครื่องมือในการวิเคราะห์ข้อมูล (data analysis)และ mining tool ต่าง ๆ เพื่อ ค้นหารูปแบบต่างๆ (patterns) ที่ต้องการ • ใช้ระบบอัจฉริยะ (Intelligent system)ต่างๆ เพื่อสนับสนุนการแปลความหมาย ของข้อมูล(data interpretations) • ผลที่ได้จากการกระทำข้างต้น จะได้ข้อมูลที่ใช้ในการสนับสนุนการตัดสินใจ และ องค์ความรู้ออกมา ซึ่งมันจะถูกส่งไปยังผู้ใช้โดยนำเสนอผ่านทาง visualization tools • นอกจากนั้นองค์ความรู้ที่ได้มาจะถูกเก็บไว้ฐานความรู้ขององค์กรและนำมาใช้ร่วม กับเครื่องมือสนับสนุนต่าง ๆ ทั้งนี้เพื่อแก้ปัญหาที่เกิดขึ้นกับองค์กร

  13. วงจรของข้อมูล (Data Life Cycle) กำลังจะกล่าวถึงเรื่องนี้ หัวข้อที่จะกล่าวถึงต่อไป จะอ้างอิงตาม Flow ของรูปนี้

  14. แหล่งข้อมูลต่าง ๆ (Data Sources) • แหล่งต่างๆของข้อมูลภายใน (Internal Data Sources):เป็นข้อมูลที่เกี่ยวกับผู้คน ผลิต ภัณฑ์ การให้บริการ และ กระบวนการต่างๆ จะเป็นข้อมูลที่อยู่ภายในองค์กร ผู้ใช้ สามารถเข้าใช้ผ่านทาง Intranet • ข้อมูลส่วนบุคคล (Personal Data):ระบบสารสนเทศของผู้ใช้ หรือ เอกสารของพนักงาน ในองค์กรที่เก็บเอาไว้ เช่น ประวัติพนักงาน ประสบการณ์การทำงาน เป็นต้น อาจรวมถึง ความคิดเห็น ประสบการณ์ต่าง ๆ ด้วย ข้อมูลเหล่านี้อาจเก็บอยู่ภายนอก เครื่องคอมพิว เตอร์ของเขาก็ได้ เช่นเก็บไว้ในฐานข้อมูลกลางขององค์กร • แหล่งข้อมูลต่างๆจากภายนอก(External Data Sources):ข้อมูลต่างๆ ที่ได้มาจากภาย นอกองค์กร เช่น จากฐานข้อมูลทาง การค้าที่ต้องการตรวจสอบ หรือ เผยแพร่ จาก หน่วยงานรัฐบาล เป็นต้น • ข้อมูลที่ได้มาจะต้องทำการตรวจสอบว่า มันมีประโยชน์ใช้งานได้ตรงตามความต้องการ ไม่มีประโยชน์ใด ๆ ที่จะเก็บข้อมูลที่ไม่มีประโยชน์เอาไว้

  15. วิธีการต่าง ๆ ในการเก็บรวบรวมข้อมูลดิบ • งานในการเก็บรวบรวมข้อมูลจะมีความซับซ้อนพอควรเพื่อหลบเลี่ยงปํญหาเรื่อง คุณภาพของข้อมูล ท่านจะต้องตรวจสอบความถูกต้องของข้อมูลและขจัดส่วนที่ ไม่ต้องการออกไป • สถานที่ที่ต้องเก็บข้อมูลได้แก่ • ใน field • จากแต่ละคน (แหล่งข้อมูล) • ผ่านทางการเก็บด้วยมือในรูปแบบต่าง ๆ เช่น time studies, Surveys, Observations เป็นต้น • ใช้เครื่องมือและตัวตรวจจับต่าง ๆ • Transaction processing systems (TPS) • ผ่านทางการส่งผ่าข้อมูลแบบอิเลคทรอนิคส์ (electronic transfer) • จาก web site (Clickstream)

  16. Methods for managing data collection • ทางหนึ่งที่จะปรับปรุงการรวบรวมข้อมูลจากแหล่งภายนอกหลาย ๆ แหล่ง คือ การ ใช้ data flow manager (DFM) ซึ่งเป็นการนำเอาสารสนเทศมาจากแหล่งภายนอกไป วางไว้ในที่ที่ต้องการใช้มันในรูปแบบที่สามารถใช้ประโยชน์ได้ทันที • DFM ประกอบด้วย • ระบบการสนับสนุนในการตัดสินใจ(decision support system) • การประมวลผลข้อมูลจากส่วนกลาง(central data request processor) • การรวบรวมข้อมูลเข้าด้วยกัน • การเชื่อมต่อกับแหล่งข้อมูลภายนอก • การประมวลผลจากแหล่งข้อมูลภายนอก

  17. คุณภาพและความสมบูรณ์ของข้อมูล (Data Quality and Integrity) • คุณภาพของข้อมูล (Data quality (DQ)) คือ ส่วนที่สำคัญมากที่สุดส่วนหนึ่ง เพราะว่า คุณภาพหมายถึง การถูกใช้ให้เป็นประโยชน์ของข้อมูล ทั้งนี้รวมไปถึง คุณภาพในการ ตัดสินใจต่าง ๆ โดยใช้ข้อมูลข้างต้น • ความสมบูรณ์ของข้อมูล (Data integrity)หมายถึงข้อมูลต้องมีความถูกต้องเข้าถึงได้ ง่ายและทันสมัย • 1) Intrinsic DQ:หมายถึง ความถูกต้องตรงตามวัตถุประสงค์ เชื่อถือได้ เปิดเผยเป็นจริง • 2) DQในแง่การเข้าถึง:ความสามารถในการเข้าถึงและความปลอดภัยในการเข้าถึง • 3) DQในแง่คำอธิบาย:ตรงประเด็นมีมูลค่าเพิ่ม ถูกเวลา มีความสมบูรณ์ มีปริมาณเพียง พอ • 4) DQในแง่การนำเสนอ:แยกแยะได้ง่าย ง่ายต่อการทำความเข้าใจ นำเสนออย่างรัดกุม ไม่เปลี่ยนแปลงเมื่อนำเสนอ • อ่านเพิ่มเติมในตารางที่ 10.1 Data Problems and Possible Solutions

  18. Data Privacy, Cost and Ethics • การรวบรวมข้อมูลของพนักงาน ลูกค้า หรือ ประชาชนอื่น ๆ ทำให้เกิดเรื่องต่าง ๆ ที่เกี่ยวข้องกับการปกป้องความเป็นส่วนตัว ดังนั้น ข้อมูลต้องสามารถเข้าถึงได้เฉพาะผู้ที่มีอำนาจเท่านั้น (authorized people) • การปกป้องข้อมูลข้างต้นทำให้เกิดต้นทุน (cost) ในการรวบรวม การจัดเก็บ และ การนำมาใช้งาน • อ่านเพิ่มเติมใน A Close Look “10.1 Homeland Security Privacy and Cost Concerns” page 415

  19. การจัดการกับงานเอกสาร (Document Management) (1) • ข้อมูลที่อยู่ในรูปเอกสารจะมีมากมายที่ต้องเก็บเอาไว้ ทำให้เปลืองเนื้อที่และบริหาร จัดการลำบาก ถ้าเราสามารถเปลี่ยนให้อยู่ในรูปอิเลคทรอนิคส์(electronic document) แล้ว จะสามารถทำการควบคุมโดยใช้คอมพิวเตอร์ได้ นั่นหมายความว่า เราสามารถ ทำให้เป็นระบบอัตโนมัติได้ตลอดช่วงอายุการใช้งานของ electronic documents, page images, spreadsheets, word processing documents, และ complex documents แบบอื่น ๆ ภายในองค์กร • เครื่องมือหลัก ๆ ของการจัดการกับงานเอกสารคือซอฟท์แวร์ที่จัดการกับการไหล ของงาน (workflow software), เครื่องมือต่าง ๆ สำหรับการอนุมัติ (authoring tools)สแกนเนอร์ (scanner)ระบบต่าง ๆ เกี่ยวกับรูปภาพ (imaging systems)และ ฐานข้อมูล

  20. การจัดการกับงานเอกสาร (2) • ระบบบริหารจัดการเอกสาร (Document Management Systems, DMSs):ระบบคอมพิวเตอร์ต่าง ๆ ที่สามารถบ่งชี้ เกี่ยวกับ การจัดเก็บ การนำกลับคืน การติดตาม และ สารสนเทศในปัจจุบัน ในรูปแบบ อิเลคทรอนิคส์เพื่อให้ผู้ที่ต้องตัดสินใจนำไปใช้งาน • ระบบบริหารจัดการเอกสารโดยอาศัยเวบ (Web-Based DMS):คือการใช้ Web เพื่อช่วยทางด้านการเข้าถึงข้อมูล หรือ เอกสารต่างๆ • อ่านเพิ่มเติม A Close Look“10.2 How Companies use document management systems”, page 416

  21. วงจรของข้อมูล (Data Life Cycle) ท่านเรียนรู้เรื่องนี้แล้ว ต่อไปจะกล่าวถึงส่วนนี้ คือ Data Warehouse 6

  22. 10.2 คลังข้อมูล (Data Warehouse) • Transactional vs. Analytical Data Processing(1) • การประมวลผลเกี่ยวกับการทำธุรกรรม (Transactional processing)ถูกนำมาใช้ในระบบ ปฏิบัติงานต่าง ๆ (operational systems) (TPS) ซึ่งทำให้องค์กรมีความสามารถที่จะดำเนินการทำธุรกรรมต่าง ๆ รวมทั้งการทำรายงานที่เกี่ยวข้องในธุรกิจนั้น ๆ ได้ ข้อมูลต่าง ๆ จะแบ่งออกเป็นกลุ่มหลัก ๆ มีโครงสร้างเป็นแบบตามลำดับขั้น (hierarchical structure)และถูกดำเนินการผ่านศูนย์กลาง • งานหลักของ TPS จะถูกนำมาใช้ได้ดีกับงานประจำซึ่งมีข้อมูลที่ซ้ำๆ มันจะทำได้ อย่างรวดเร็วและมีประสิทธิผล

  23. Transactional vs. Analytical Data Processing(2) • ส่วนดำเนินงานสนับสนุนให้กับ transaction processing เรียกว่า การประมวลผลในเชิงวิเคราะห์ (analytical processing)เพื่อทำการวิเคราะห์ข้อมูลที่รวบรวมเอาไว้แล้ว • Analytical processing บางทีเรียกเป็น business intelligence ซึ่งรวมถึงการทำเหมืองข้อมูล (data mining), ระบบสนับสนุนในการตัดสินใจ (decision support systems, DSS), querying และการวิเคราะห์อื่น ๆ เอาไว้ด้วยกัน • ผลที่ได้จากการวิเคราะห์ข้างต้น จะเป็นสารสนเทศเชิงกลยุทธ์ป้อนให้กับผู้ที่ทำหน้า ที่ในการตัดสินใจ อันทำให้ผลิตผลและการตัดสินใจทำได้ดีขึ้น ส่งผลให้มีความได้ เปรียบในการเปรียบในการแข่งขันมากขึ้น

  24. คลังข้อมูลคือ…… • คลังข้อมูลคือ ที่เก็บข้อมูลในอดีตในเชิง subject-oriented ที่ถูกจัดกลุ่มเพื่อให้สามารถ เข้าถึงในรูปที่ง่ายต่อการนำไปใช้ในการประมวลผลเชิงวิเคราะห์ (เช่น data mining, decision support, querying, และ other applications) • ประโยชน์ของคลังข้อมูลคือ: • ความสามารถในการเข้าใช้ข้อมูลได้อย่างรวดเร็ว เพราะข้อมูลทั้งหมดวางอยู่ที่เดียว กัน • ความสามารถในการเข้าใช้ข้อมูลของผุ้ใช้ทำได้อย่างรวดเร็วและบ่อย ๆ ผ่านทาง Web browsers. 9

  25. คุณลักษณะของคลังข้อมูล(1)คุณลักษณะของคลังข้อมูล(1) • 1)Organization ข้อมูลถูกจัดแบ่งเป็นหัวข้อและมีสารสนเทศที่สามารถนำมาใช้สนับสนุนในการตัดสินใจเท่านั้น • 2) Consistency ข้อมูลใน different operational databases อาจถูกรวบรวม (code)แตกต่างกันแต่สำหรับใน data warehouse แล้ว มันจะต้องถูกรวบรวมในลักษณะหรือในรูปแบบเดียวกัน ตลอดเวลา • 3) Time variantข้อมูลจะถูกเก็บรวมไว้หลาย ๆ ปี ดังนั้นมันจึงสามารถนำมาใช้ในการทำนายแนวโน้ม การพยากรณ์ และ การเปรียบเทียบต่าง ๆ ตลอดระยะเวลาที่จัดเก็บ • 4) Non-volatileข้อมูลจะต้องไม่ถูก update (ไม่ทำการเปลี่ยนแปลงแก้ไข) หลังจากเก็บเข้าไปใน warehouse แล้ว 10

  26. คุณลักษณะของคลังข้อมูล (2) • 5) Relational ในทางปฏิบัติแล้ว data warehouse จะใช้โครงสร้างแบบ Relational Structure • 6) Client/serverใช้สถาปัตยกรรมแบบ Client/server • 7) Web-basedข้อมูลของ data warehouse ในปัจจุบันี้ จะถูกออกแบบให้มี efficient computing environment เพื่อใช้ใน web-based application ต่าง ๆ • 8) Integrationข้อมูลมาจากหลายแหล่งต้องรวมเข้าด้วยกันได้ • 9) Real Timeควรทำให้เป็นแบบ Real Time • อ่านเพิ่มเติม • “Table 10.2 Summary of Strategic Using of Data Warehousing”, page 421

  27. Building a Data Warehouse 11

  28. Cost: ต้นทุนและการดูแลรักษา data warehouse สูงมาก เกิดความยุ่งยากและมีต้นทุนในการ Convert data จากระบบเดิม และ อาจเกิดการเลื่อมเวลาในการ share ข้อมูล ดังนั้น พึงระมัดระวังในการจะลงมือทำ data warehouse • Architecture and Tools: สถาปัตยกรรมของ data warehouse มีหลายแบบ การเลือกใช้งานควรพิจารณาให้เหมาะสมกับสิ่งที่องค์กรต้องการ • ความเหมาะสม (Suitability): การจะทำ data warehouse ควรพิจารณาว่า • มีข้อมูลจำนวนมากที่ถูก access จากผู้ใช้ • ข้อมูลที่ใช้งานถูกจัดเก็บอยู่ในระบบที่แตกต่างกัน • มีการบริหารจัดการแบบ information-based • มีฐานลูกค้าขนาดใหญ่และหลากหลาย • ข้อมูลเดียวกันที่ใช้ในระบบที่แตกต่างกัน • ข้อมูลถูกเก็บในเชิง Highly Technical Format ทำให้ยุ่งยากในการคลี่ออกมาใช้งาน • มีประโยชน์ต่อผู้ใช้มากขึ้นในเชิงการคำนวณ

  29. Relational and Multidimensional Database • ฐานข้อมูลเชิงสัมพัทธ์ (Relational database)เป็นการเก็บข้อมูลในรูปแบบตารางแบบ สองมิติ(two–dimension- al tables) • ฐานข้อมูลแบบหลายมิติ (Multidimensional database)โดยปกติแล้ว มันจะเก็บข้อมูล ในลักษณะเป็นอาร์เรย์ หลาย ๆ อาร์เรย์ (arrays) ซึ่งแต่ละอาร์เรย์ประกอบด้วยอย่างน้อย มิติทางธุรกิจสามมิติ (three business dimension) • มิติทางธุรกิจ (Business dimension)หมายถึง การมองและวิเคราะห์ข้อมูลในมุมมอง ที่แตกต่างกันออกไป มิติเหล่านี้จะก่อรูปเป็น Data cube เมื่อเป็นเช่นนี้ มิติทางธุรกิจ คือบริเวณขอบของ data cube ซึ่งแสดงถึงมุมมองหลักๆ ของข้อมูลเชิงธุรกิจ • ฐานข้อมูลแบบหลายมิติ มักถูกนำมาใช้ในคลังข้อมูล 12

  30. สมมุติว่า……. • สมมติว่า บริษัทของเราขายของสี่ชนิดคือ nuts, screws, bolts และ Washers • กระจายสินค้าขายออกไปทั้งสามภาค คือ ภาคตะวันออก (East), ภาคตะวันตก (West)และ ภาคกลาง (Central) • การเก็บข้อมูลทั้งสามปี คือ 2001, 2002 และ 2003 • ถ้าเป็นฐานข้อมูลเชิงสัมพัทธ์ (Relational database) จะมองเห็นข้อมูลดังหน้าถัดไป เป็นการมองข้อมูลแยกออกเป็นสามส่วนตามปี แต่ละส่วนมีโครงสร้างของข้อมูล เหมือนกัน (Product, Region และ Sales) และมีการจัดกลุ่มผลิตภัณฑ์เหมือนกัน

  31. ตัวอย่างของ Relational databases

  32. ตัวอย่างของ Multidimensional database มิติของการขายแบ่งเป็น Regions, Products และ Years

  33. ความทัดเทียมกันของ Relational & Multidimensional Databases

  34. ความทัดเทียมกันของ Relational & Multidimensional Databases

  35. ความทัดเทียมกันของ Relational & Multidimensional Databases

  36. วงจรของข้อมูล (Data Life Cycle) ท่านเรียนรู้เรื่องนี้แล้ว ต่อไปจะกล่าวถึงส่วนนี้ คือ Metadata 6

  37. Metadata คืออะไร (มองอย่างง่าย ๆ) • Metadata จะให้คำอธิบาย(context)กับ “user” ในด้าน “วัตถุประสงค์(object)” เพื่อทำให้เกิดการกระทำที่มีประสิทธิภาพมากขึ้น เป็นรูปแบบที่ชัดเจนมากขึ้น • Classic example:การจัดทำเอกสารข้อมูล (data documentation) • User – นักวิเคราะห์ (analyst) • Object – ฐานข้อมูลจากการสำรวจ (survey database) • Metadata – variable definitions, code lists, … • คำอธิบายเพื่อเสริมให้เกิดการดำเนินการต่าง ๆ – information to obtain appropriate summary statistics for a given objective

  38. Data Collection (DC) Examples

  39. วงจรของข้อมูล (Data Life Cycle) ท่านเรียนรู้เรื่องนี้แล้ว ต่อไปจะกล่าวถึงส่วนนี้ คือ Data Mart 6

  40. ตลาดข้อมูล (Data Mart) (1) • ตลาดข้อมูล (Data Mart):คือคลังข้อมูลที่มีขนาดเล็กถูกออกแบบมาเพื่อใช้ในหน่วย ธุรกิจเชิงกลยุทธ์ (strategic business unit, SBU) หรือในแผนกหนึ่ง ๆ • ข้อดีของตลาดข้อมูลประกอบด้วย: • ต้นทุนต่ำ (ราคาต่ำกว่า 100,000$ในขณะที่คลังข้อมูลจะประมาณ 1M$หรือ มากกว่า) • เมื่อนำมาติดตั้งใช้งานจะใช้เวลาน้อยกว่ามาก (มักจะน้อยกว่า 90 วัน) เป็นแบบ local แทนที่จะเป็นแบบควบคุมจากศูนย์กลาง(central control) (เมื่อเปรียบเทียบในเชิงความสามารถการใช้งานของกลุ่ม) • ตอบสนองได้เร็ว ง่ายต่อการทำความเข้าใจ และเรียนรู้ได้ง่ายกว่าคลังข้อมูลที่ใช้ทั่ว ทั้งองค์กร(enterprise wide data warehouse ) 13

  41. ตลาดข้อมูล (2) • Data mart มีสองประเภทใหญ่ ๆ คือ: • Replicated (dependent) data marts คือกลุ่มย่อยขนาดเล็ก(small subset)หลาย ๆ กลุ่มของคลังข้อมูลซึ่งก็คือการคัดลอกกลุ่มย่อยบางกลุ่มในคลังข้อมูล มาไว้ใน ตลาดข้อมูลเล็กๆ หลายๆ อัน แต่ละอันจะใช้เฉพาะ functional area ที่แน่นอน หนึ่ง ๆ เท่านั้น • Stand-alone data marts.บริษัทสามารถมีตลาดข้อมูลเพียงหนึ่งหรือมากกว่าก็ได้ และเป็นอิสระจากกันโดยไม่จำเป็นต้องมีคลังข้อมูลการใช้ data mart ส่วนมาก ได้แก่ ฝ่ายการตลาด ฝ่ายบัญชี ฝ่ายที่ประยุกต์ใช้ในงานวิศวกรรม

  42. วงจรของข้อมูล (Data Life Cycle) ท่านเรียนรู้เรื่องนี้แล้ว ต่อไปจะกล่าวถึงส่วนนี้ คือ Data Analysis

  43. 10.3 Information & Knowledge Discovery with Business Intelligence • Business Intelligence (น่าจะแปลว่า “เชาว์ปัญญาเชิงธุรกิจ” มั๊งครับ):แนวทางกว้าง ๆ ของการประยุกต์ใช้และเทคนิคต่าง ๆ ในการรวบรวมข้อมูล การเก็บ การวิเคราะห์ และ การเข้าถึง เพื่อช่วยให้ผู้ใช้ในองค์กรตัดสินใจทางธุรกิจและกลยุทธ์ได้ดีขึ้น • ตัวอย่างการทำงานเป็นดังรูปในหน้าถัดไป ข้อมูลดิบที่ได้จากการทำงานจะถูกเก็บอยู่ ในฐานข้อมูลต่าง ๆ คลังข้อมูลจะดึงเอาข้อมูลเหล่านั้นมารวมกัน เมื่อใช้ Business Intelligence Software ผู้ใช้สามารถส่งคำถาม (query) ร้องขอรายงานตามที่ต้องการ (ad-hoc report) หรือ ทำการวิเคราะห์อื่น ๆ ผลที่ได้จากการร้องขอข้างต้นสามารถนำ มาทำรายงาน ทำการทำนาย แจ้งเตือน และ/หรือ นำเสนอในเชิงรูปภาพต่าง ๆ ได้ • อ่านเพิ่มเติมใน IT at Work “10.1 Ben & Jerry keeps track of its Pins”, page 424

  44. How Business Intelligence works? 15

  45. The Tools and techniques of business intelligence • การประยุกต์ใช้หลัก ๆ ประกอบด้วย การดำเนินงานทางด้าน query และ reporting, online analytical processing (OLAP), DSS, data mining, forecasting และ statistical analysis. • Business intelligence ประกอบด้วย: 1) outputs such as financial modeling and budgeting 2) resource allocation 3) coupons and sales promotions 3) Seasonality trends 4) Benchmarking (business performance) 5) competitive intelligence. • เครื่องมือที่ใช้ใน BI มักแยกออกเป็นสองส่วนหลัก ๆ คือ: • (1) การค้นพบสารสนเทศและองค์ความรู้ • (2) สนับสนุนในการตัดสินใจและintelligent analysis. 16

  46. Categories of business intelligence 1 2 BPI = Business Process Integration, BPM = Business Process Management 17

  47. The Tools and Techniques of Information and Knowledge Discovery • การค้นพบองค์ความรู้และสารสนเทศ (Information and Knowledge Discovery) จะแตกต่างจากการสนับสนุนการตัดสินใจในมุมมอง ของ “การค้นพบ (discovery)” หมายความว่า ต้องค้นพบแล้ว จึงนำผลนั้นไปใช้ สำหรับสนับสนุนในการตัดสินใจ • วิวัฒนาการของ Information and Knowledge Discovery • Information discovery เริ่มมาตั้งแต่ปลายปี 1960 พร้อมกับเทคนิคต่าง ๆ ที่ใช้รวบ รวมข้อมูล ซึ่งมันก็คือ การรวบรวมข้อมูลแบบพื้นฐาน ง่าย ๆ และ มันตอบคำถาม ต่างๆได้โดยใช้ข้อมูลกลุ่มหนึ่งที่เก็บไว้ในอดีต การวิเคราะห์แบบนี้ต่อมาได้ขยาย ออกเป็นเครื่องมือหลายตัว เช่น SQL Relational database management systems • อ่านเพิ่มเติมใน ตารางที่ 10.3 Stages in the Evolution of Knowledge Discovery

  48. Knowledge Discovery (KD) • กระบวนการคัดแยกเอาองค์ความรู้ออกมาจากข้อมูลที่มีจำนวนมาก รวม data mining เอาไว้ด้วย 18

  49. Ad-Hoc Queries and Reporting • Ad-hoc queriesหมายถึงการยินยอมให้ผู้ใช้ ต่าง ๆ ร้องขอสารสนเทศจากคอมพิวเตอร์ ในเวลาจริง (real time) ซึ่งไม่เคยมีในรายงาน ที่ทำเป็นปกติ คำตอบที่ได้มาข้างต้น (Report) จะถูกนำใช้ในการตัดสินใจอย่างเร่งด่วน • ระบบ Ad-hoc queries ง่าย ๆ ทำโดยการใช้ เมนู ที่ซับซ้อนขึ้นไปจะใช้ SQL (Structured query language) และที่ซับซ้อนขึ้นไปอีก จะ อยู่บน natural language processing บางรูป แบบสามารถติดต่อกับผู้ใช้โดยใช้การจดจำ เสียง (voice recognition)

  50. OLAP (Online Analytical Processing) • ย่อมาจาก “Online Analytical Processing” ถือเป็นเครื่องมือทางซอฟท์แวร์ประเภทหนึ่ง ที่ใช้จัดการกับข้อมูลที่เก็บไว้ในฐานข้อมูล • OLAP tools จะช่วยให้ผู้ใช้ทำการวิเคราะห์ความแตกต่างของมิติหลายๆมิติของ multidimensional data ตัวอย่างเช่น มันช่วยทำการวิเคราะห์มุมมองทางด้าน time series และ trend analysis ดังนั้น OLAP มักถูกนำมาใช้ในงาน data mining • องค์ประกอบหลักของ OLAP ก็คือ OLAP server ซึ่งวางอยู่ระหว่าง client กับ database management systems (DBMS) โดยที่ OLAP server จะเข้าใจว่า ข้อมูลควรจัดรูปแบบ อย่างไรในฐานข้อมูลและมีฟังก์ชันพิเศษต่าง ๆ สำหรับใช้ในการวิเคราะหืข้อมูล • โดยทั่วไป มักจะมี OLAP server วางอยู่ใกล้กับระบบฐานข้อมูลหลักเป็นส่วนมาก

More Related