750 likes | 1.08k Views
Chapter 10. Data Management: Warehousing, Analyzing, Mining, and Visualization. Information Technology For Management 5 th Edition Turban, Leidner, McLean, Wetherbe Lecture Slides by A. Lekacos, Stony Brook University John Wiley & Sons, Inc. Learning Objectives (1).
E N D
Chapter 10 Data Management: Warehousing, Analyzing, Mining, and Visualization Information Technology For Management 5th Edition Turban, Leidner, McLean, Wetherbe Lecture Slides by A. Lekacos, Stony Brook University John Wiley & Sons, Inc.
Learning Objectives(1) • ทำความเข้าใจถึงความสำคัญของข้อมูล, แนวทางการบริหาร และlife cycle . • อธิบายถึงแหล่งต่าง ๆ ของข้อมูลและการรวบรวมข้อมูล • อธิบายถึงระบบการบริหารจัดการเอกสาร • อธิบายถึงการทำงานของคลังข้อมูล(data warehousing) และแนวทางการใช้ระบบสนับสนุน • อธิบายถึงการค้นพบสารสนเทศและองค์ความรู้และเชาว์ปัญญาทางธุรกิจ(business intelligence) • ทำความเข้าใจกับอำนาจและผลประโยชน์ของ data mining. • อธิบายวิธีการนำเสนอข้อมูลและ geographical information systems, visual simulations และ virtual reality ในเชิงเครื่องมือต่าง ๆ ที่ใช้สนับสนุนการทำงาน
Learning Objectives(2) • กล่าวถึงบทบาทของฐานข้อมูลทางการตลาดและตัวอย่าง • ทำความเข้าใจแนวทางการบริหารจัดการข้อมูลโดยใช้ Web
Finding Diamonds by Data Mining at Harrah’s • Business Problem: • Harrah’s Entertainment เป็น casino chain มีทั้งหมด 26 แห่งใน 13 มลรัฐของสหรัฐอเมริกา ยอดขายปี 2002 ประมาณ 4B$ มีผลกำไร 235 M$ ปัญหาทางด้านธุรกิจของเขาก็คือ ทำ อย่างไรที่จะชักชวนให้คนเข้ามาที่บ่อนคาซิโนมากขึ้น(เพื่อใช้เงินในบ่อน)และกลับ มาอีกบ่อย ๆ • โดยทั่วไป พนักงานในคาซิโนจะอาศัยความรู้สึกส่วนตัวในการวางแผนเพื่อชักจูงลูกค้า ทั้งหมดได้ เช่น ให้ loyalty card กับลูกค้า เพื่อให้ลูกค้ามีห้องพักฟรีเพื่อให้ลูกค้าเข้ามา บ่อยขึ้น ดูการแสดงฟรีและ อื่น ๆ อีกมาก เป็นต้น การทำดังนี้ คู่แข่งอื่นๆ ก็ทำเช่นกัน ทำ ให้ไม่มีข้อแตกต่างกับคู่แข่งทั้งหลาย
IT Solution: • Harrah ได้ใช้กลยุทธ์ที่อาศัย IT มาเป็นตัวผลักดันกลยุทธ์ “การบริหารความสัมพันธ์กับลูกค้า (Customer Relationship Management, CRM)” และอาศัยฐานข้อมูลของลูกค้าในด้าน การตลาดมาทำการทดสอบการโปรโมตต่าง ๆ ซึ่งทำให้บริษัทสามารถ fine tune กลยุทธ์ทางด้านการตลาดที่นำเสนอออกไปและกลยุทธ์ทางด้านการให้บริการแก่ลูกค้า เมื่อดูข้อมูลย้อนหลังพบว่า 82.7% ของรายได้ทั้งหมดมาจากเครื่อง Slot machine ที่ตั้งอยู่ใน 26 สาขา • Harrah ได้แจก loyalty smart card ให้กับทุกคน แล้วติดเครื่องอ่าน(smart card reader)ไว้ที่เครื่อง Slot machine ทุก ๆ เครื่องทั้ง 26 สาขา เพื่อบันทึกการกิจกรรมของลูกค้า นอกจากนั้น เขายังติดตั้งเครื่องอ่านไว้ทุกๆ ที่ เช่น ในภัตราคาร ร้านขายของชำร่วย ฯลฯ เพื่อบันทึกการใช้จ่ายของลูกค้าทั้งหมด ข้อมูลเหล่านี้จะถูกเก็บลงคลังข้อมูล ขนาด 300GB เพื่อนำมาวิเคราะห์ต่อไป
แต่ละสาขาได้ทำการวิเคราะห์ข้อมูลหลายล้านรายการที่ได้ โดยแยกออกเป็นส่วน ๆ เช่น อุปนิสัยของลูกค้าและความชอบต่าง ๆ เป็นต้น ข้อมูลเหล่านี้จะถูกส่งไปยังคลัง ข้อมูลรวมขององค์กร (enterprise data warehouse)ซึ่งมีรายละเอียดของลูกค้าเก็บอยู่ เช่น ชื่อ ที่อยู่ อายุ เพศ รวมทั้งเกมที่ชอบเล่น ลักษณะการใช้จ่ายเงิน และ ความชื่น ชอบในด้านต่าง ๆ เป็นต้น ข้อมูลเหล่านี้จะถูก นำมาวิเคราะห์ เพื่อแยกเอาสารสนเทศ ออกมา เช่น Harrah พบว่า ลูกค้าชั้นดีของเขาจะอยู่ในวัยกลางคน และ ผู้สูงวัยที่จัด การเรื่องเวลาและรายได้ได้ด้วยตนเอง คนกลุ่มนี้จะชอบเล่น Slot machine นอกจาก นั้น คนเหล่านี้ยังเป็นกลุ่มที่ไม่ชอบพักในโรงแรมของสถาน คาซิโน แต่จะแวะเข้ามา เพราะเป็นทางผ่านเมื่อกลับจากการทำงาน และเป็นคืนของวันหยุดสุดสัปดาห์ คน กลุ่มนี้จะเลือกเอาชิพ 60$ เพื่อเล่นเกมมากว่าที่จะเลือกห้องพักฟรี พร้อมสเต็ก 2 มื้อ และชิพ 30$ แสดงว่า คนกลุ่มนี้เข้ามาเพื่อหาความสนุกสนานการเล่นเกม มากกว่ามา ท่องเที่ยว
จากข้อมูลเหล่านี้ ทำให้สามารถทำการวางกลยุทธ์ทางการตลาดได้ดีขึ้น เขามองไปที่ การใช้ จ่ายของผู้ที่มาพักเป็นระยะเวลานานก่อน จากนั้นก็ดูลึกลงไปในข้อมูลถึง ความ ชอบ ความสนใจ ของลูกค้า แล้วจัดวางสิ่งต่าง ๆ (เกม) ให้ตรงกับลูกค้าต้องการ เพื่อดึง ดูดให้ลูกค้าใช้จ่ายมากขึ้น • โดยการใช้ Data mining technique (การทำเหมืองข้อมูล) เขายังพบอีกว่า ลูกค้าต่าง ๆ มักชอบเครื่องจักรเครื่องใดเครื่องหนึ่งเป็นพิเศษ ทำให้เขาสามารถจัดวางเครื่อง Slot machine ได้อย่างเหมาะสม นอกจากนั้น Data mining ยังช่วยให้บริษัท สามารถสร้าง ความพึงพอใจให้ลูกค้าได้มากขึ้น (ซึ่งลูกค้าก็จะใช้จ่ายมากขึ้นด้วย) โดยบริษัทได้มี แผนการให้โบนัสกับพนักงานที่ได้คะแนนความพึงพอใจจากลูกค้าสูงถึงค่าที่กำหนด
The results: • จากประสบการณ์ของ Harrah แสดงให้เห็นว่า ยิ่งสร้างประสบการณ์ที่ดีให้กับลูกค้า มากขึ้นเพียงใด มันก็จะเป็นตัวดึงดูดใจให้ลูกค้ากลับมาใช้บริการอีก นั่นหมายถึงบริษัท ก็จะได้เงินจากลูกค้ามากขึ้น • สิ่งที่ควรศึกษาเพิ่มเติมคือ การบริหารความสัมพันธ์กับลูกค้า การทำคลังข้อมูล และ การทำเหมืองข้อมูล
10.1 การบริหารจัดการกับข้อมูล (Data Management) • แฟกเตอร์ที่วิกฤติต่อความสำเร็จ:การประยุกต์ใช้ IT ในด้านต่าง ๆ จะไม่สำเร็จได้เลย ถ้าปราศจากข้อมูล นั่นคือข้อมูลจะต้องมีคุณภาพสูง (หมายถึง ข้อมูลต้องมีความถูกต้องสมบูรณ์เหมาะสมกับเวลาไม่แปลเปลี่ยนไปมาเข้าถึงได้ ตรงประเด็น และรัดกุม) • ความยุ่งยากในการจัดการกับข้อมูล: • ขนาดของข้อมูลจะเพิ่มขึ้นในเชิง exponential เมื่อเทียบกับเวลา • ข้อมูลจะกระจายอยู่ทั่วทั้งองค์กร มันถูกรวบรวมเอาไว้หลายแบบโดยใช้หลายๆ วิธีการในการรวบรวมข้อมูล และใช้เครื่องมือที่แตกต่างกันออกไป • การเพิ่มขึ้นของข้อมูลจากภายนอกองค์กร จะขึ้นอยู่กับแนวทางที่ได้ตัดสินใจของ องค์กรนั้น ๆ • ความปลอดภัยของข้อมูล คุณภาพ และความสมบูรณ์(integrity)เป็นตัววิกฤต และเกิดอันตรายได้ง่าย
แฟกเตอร์ที่วิกฤตต่อความสำเร็จ (Critical Success Factors; CSF) • การดำเนินงานในองค์กรหนึ่ง ๆ จะมีแฟกเตอร์มากมายหลายตัวที่เข้ามาเกี่ยวข้อง และต้องควบคุมให้เป็นไปตามความต้องการ • แต่จะมีแฟกเตอร์ไม่กี่ตัว ที่ต้องควบคุมให้เป็นไปอย่างถูกต้องตามต้องการ เพื่อมั่น ใจได้ว่า องค์กรจะดำเนินงานต่อไปได้และประสบความสำเร็จ เรียกแฟกเตอร์กลุ่ม นี้ว่า แฟกเตอร์ที่วิกฤตต่อความสำเร็จ (Critical Success Factors; CSF)
วงจรของข้อมูล (Data Life Cycle) (1) • ธุรกิจวิ่งอยู่บนข้อมูล หรือ ก็คือการเปลี่ยนจากข้อมูลเป็นสารสนเทศและองค์ความรู้ ซึ่งผู้บริหารสามารถนำไปใช้แก้ปัญหาเชิงธุรกิจหรือสร้างโอกาสใหม่ ๆ ให้กับธุรกิจ • จากกรณีศึกษาของ Harrah จะเห็นได้ว่า องค์ความรู้คือแรงขับเคลื่อนของคำตอบต่าง ๆ และจะเห็นว่า การบริหารข้อมูลนั้นเป็นเรื่องยุ่งยาก • การเก็บและการนำเสนอข้อมูลเป็นเรื่องง่าย แต่การดึงเอาองค์ความรู้ออกมาจาก ข้อมูลที่เก็บสะสมเอาไว้ออกมาใช้งาน เป็นเรื่องที่ไม่ง่ายเลย • รูปหน้าถัดไปแสดงถึง กระบวนการข้างต้น ข้อมูลต่าง ๆ จะถูกเก็บไว้ในฐานข้อมูล ต่างๆ ข้อมูลข้างต้นจะถูกจัดการให้เหมาะกับรูปแบบที่ต้องเก็บไว้ในคลังข้อมูล (data warehouse) หรือ ตลาดข้อมูล (data mart) ผู้ใช้สามารถเข้าถึงข้อมูลที่ต้องการในคลัง ข้อมูล หรือ ตลาดข้อมูล เพื่อนำมาวิเคราะห์
วงจรของข้อมูล (Data Life Cycle) (2) • การวิเคราะห์จะทำโดย: • ใช้เครื่องมือในการวิเคราะห์ข้อมูล (data analysis)และ mining tool ต่าง ๆ เพื่อ ค้นหารูปแบบต่างๆ (patterns) ที่ต้องการ • ใช้ระบบอัจฉริยะ (Intelligent system)ต่างๆ เพื่อสนับสนุนการแปลความหมาย ของข้อมูล(data interpretations) • ผลที่ได้จากการกระทำข้างต้น จะได้ข้อมูลที่ใช้ในการสนับสนุนการตัดสินใจ และ องค์ความรู้ออกมา ซึ่งมันจะถูกส่งไปยังผู้ใช้โดยนำเสนอผ่านทาง visualization tools • นอกจากนั้นองค์ความรู้ที่ได้มาจะถูกเก็บไว้ฐานความรู้ขององค์กรและนำมาใช้ร่วม กับเครื่องมือสนับสนุนต่าง ๆ ทั้งนี้เพื่อแก้ปัญหาที่เกิดขึ้นกับองค์กร
วงจรของข้อมูล (Data Life Cycle) กำลังจะกล่าวถึงเรื่องนี้ หัวข้อที่จะกล่าวถึงต่อไป จะอ้างอิงตาม Flow ของรูปนี้
แหล่งข้อมูลต่าง ๆ (Data Sources) • แหล่งต่างๆของข้อมูลภายใน (Internal Data Sources):เป็นข้อมูลที่เกี่ยวกับผู้คน ผลิต ภัณฑ์ การให้บริการ และ กระบวนการต่างๆ จะเป็นข้อมูลที่อยู่ภายในองค์กร ผู้ใช้ สามารถเข้าใช้ผ่านทาง Intranet • ข้อมูลส่วนบุคคล (Personal Data):ระบบสารสนเทศของผู้ใช้ หรือ เอกสารของพนักงาน ในองค์กรที่เก็บเอาไว้ เช่น ประวัติพนักงาน ประสบการณ์การทำงาน เป็นต้น อาจรวมถึง ความคิดเห็น ประสบการณ์ต่าง ๆ ด้วย ข้อมูลเหล่านี้อาจเก็บอยู่ภายนอก เครื่องคอมพิว เตอร์ของเขาก็ได้ เช่นเก็บไว้ในฐานข้อมูลกลางขององค์กร • แหล่งข้อมูลต่างๆจากภายนอก(External Data Sources):ข้อมูลต่างๆ ที่ได้มาจากภาย นอกองค์กร เช่น จากฐานข้อมูลทาง การค้าที่ต้องการตรวจสอบ หรือ เผยแพร่ จาก หน่วยงานรัฐบาล เป็นต้น • ข้อมูลที่ได้มาจะต้องทำการตรวจสอบว่า มันมีประโยชน์ใช้งานได้ตรงตามความต้องการ ไม่มีประโยชน์ใด ๆ ที่จะเก็บข้อมูลที่ไม่มีประโยชน์เอาไว้
วิธีการต่าง ๆ ในการเก็บรวบรวมข้อมูลดิบ • งานในการเก็บรวบรวมข้อมูลจะมีความซับซ้อนพอควรเพื่อหลบเลี่ยงปํญหาเรื่อง คุณภาพของข้อมูล ท่านจะต้องตรวจสอบความถูกต้องของข้อมูลและขจัดส่วนที่ ไม่ต้องการออกไป • สถานที่ที่ต้องเก็บข้อมูลได้แก่ • ใน field • จากแต่ละคน (แหล่งข้อมูล) • ผ่านทางการเก็บด้วยมือในรูปแบบต่าง ๆ เช่น time studies, Surveys, Observations เป็นต้น • ใช้เครื่องมือและตัวตรวจจับต่าง ๆ • Transaction processing systems (TPS) • ผ่านทางการส่งผ่าข้อมูลแบบอิเลคทรอนิคส์ (electronic transfer) • จาก web site (Clickstream)
Methods for managing data collection • ทางหนึ่งที่จะปรับปรุงการรวบรวมข้อมูลจากแหล่งภายนอกหลาย ๆ แหล่ง คือ การ ใช้ data flow manager (DFM) ซึ่งเป็นการนำเอาสารสนเทศมาจากแหล่งภายนอกไป วางไว้ในที่ที่ต้องการใช้มันในรูปแบบที่สามารถใช้ประโยชน์ได้ทันที • DFM ประกอบด้วย • ระบบการสนับสนุนในการตัดสินใจ(decision support system) • การประมวลผลข้อมูลจากส่วนกลาง(central data request processor) • การรวบรวมข้อมูลเข้าด้วยกัน • การเชื่อมต่อกับแหล่งข้อมูลภายนอก • การประมวลผลจากแหล่งข้อมูลภายนอก
คุณภาพและความสมบูรณ์ของข้อมูล (Data Quality and Integrity) • คุณภาพของข้อมูล (Data quality (DQ)) คือ ส่วนที่สำคัญมากที่สุดส่วนหนึ่ง เพราะว่า คุณภาพหมายถึง การถูกใช้ให้เป็นประโยชน์ของข้อมูล ทั้งนี้รวมไปถึง คุณภาพในการ ตัดสินใจต่าง ๆ โดยใช้ข้อมูลข้างต้น • ความสมบูรณ์ของข้อมูล (Data integrity)หมายถึงข้อมูลต้องมีความถูกต้องเข้าถึงได้ ง่ายและทันสมัย • 1) Intrinsic DQ:หมายถึง ความถูกต้องตรงตามวัตถุประสงค์ เชื่อถือได้ เปิดเผยเป็นจริง • 2) DQในแง่การเข้าถึง:ความสามารถในการเข้าถึงและความปลอดภัยในการเข้าถึง • 3) DQในแง่คำอธิบาย:ตรงประเด็นมีมูลค่าเพิ่ม ถูกเวลา มีความสมบูรณ์ มีปริมาณเพียง พอ • 4) DQในแง่การนำเสนอ:แยกแยะได้ง่าย ง่ายต่อการทำความเข้าใจ นำเสนออย่างรัดกุม ไม่เปลี่ยนแปลงเมื่อนำเสนอ • อ่านเพิ่มเติมในตารางที่ 10.1 Data Problems and Possible Solutions
Data Privacy, Cost and Ethics • การรวบรวมข้อมูลของพนักงาน ลูกค้า หรือ ประชาชนอื่น ๆ ทำให้เกิดเรื่องต่าง ๆ ที่เกี่ยวข้องกับการปกป้องความเป็นส่วนตัว ดังนั้น ข้อมูลต้องสามารถเข้าถึงได้เฉพาะผู้ที่มีอำนาจเท่านั้น (authorized people) • การปกป้องข้อมูลข้างต้นทำให้เกิดต้นทุน (cost) ในการรวบรวม การจัดเก็บ และ การนำมาใช้งาน • อ่านเพิ่มเติมใน A Close Look “10.1 Homeland Security Privacy and Cost Concerns” page 415
การจัดการกับงานเอกสาร (Document Management) (1) • ข้อมูลที่อยู่ในรูปเอกสารจะมีมากมายที่ต้องเก็บเอาไว้ ทำให้เปลืองเนื้อที่และบริหาร จัดการลำบาก ถ้าเราสามารถเปลี่ยนให้อยู่ในรูปอิเลคทรอนิคส์(electronic document) แล้ว จะสามารถทำการควบคุมโดยใช้คอมพิวเตอร์ได้ นั่นหมายความว่า เราสามารถ ทำให้เป็นระบบอัตโนมัติได้ตลอดช่วงอายุการใช้งานของ electronic documents, page images, spreadsheets, word processing documents, และ complex documents แบบอื่น ๆ ภายในองค์กร • เครื่องมือหลัก ๆ ของการจัดการกับงานเอกสารคือซอฟท์แวร์ที่จัดการกับการไหล ของงาน (workflow software), เครื่องมือต่าง ๆ สำหรับการอนุมัติ (authoring tools)สแกนเนอร์ (scanner)ระบบต่าง ๆ เกี่ยวกับรูปภาพ (imaging systems)และ ฐานข้อมูล
การจัดการกับงานเอกสาร (2) • ระบบบริหารจัดการเอกสาร (Document Management Systems, DMSs):ระบบคอมพิวเตอร์ต่าง ๆ ที่สามารถบ่งชี้ เกี่ยวกับ การจัดเก็บ การนำกลับคืน การติดตาม และ สารสนเทศในปัจจุบัน ในรูปแบบ อิเลคทรอนิคส์เพื่อให้ผู้ที่ต้องตัดสินใจนำไปใช้งาน • ระบบบริหารจัดการเอกสารโดยอาศัยเวบ (Web-Based DMS):คือการใช้ Web เพื่อช่วยทางด้านการเข้าถึงข้อมูล หรือ เอกสารต่างๆ • อ่านเพิ่มเติม A Close Look“10.2 How Companies use document management systems”, page 416
วงจรของข้อมูล (Data Life Cycle) ท่านเรียนรู้เรื่องนี้แล้ว ต่อไปจะกล่าวถึงส่วนนี้ คือ Data Warehouse 6
10.2 คลังข้อมูล (Data Warehouse) • Transactional vs. Analytical Data Processing(1) • การประมวลผลเกี่ยวกับการทำธุรกรรม (Transactional processing)ถูกนำมาใช้ในระบบ ปฏิบัติงานต่าง ๆ (operational systems) (TPS) ซึ่งทำให้องค์กรมีความสามารถที่จะดำเนินการทำธุรกรรมต่าง ๆ รวมทั้งการทำรายงานที่เกี่ยวข้องในธุรกิจนั้น ๆ ได้ ข้อมูลต่าง ๆ จะแบ่งออกเป็นกลุ่มหลัก ๆ มีโครงสร้างเป็นแบบตามลำดับขั้น (hierarchical structure)และถูกดำเนินการผ่านศูนย์กลาง • งานหลักของ TPS จะถูกนำมาใช้ได้ดีกับงานประจำซึ่งมีข้อมูลที่ซ้ำๆ มันจะทำได้ อย่างรวดเร็วและมีประสิทธิผล
Transactional vs. Analytical Data Processing(2) • ส่วนดำเนินงานสนับสนุนให้กับ transaction processing เรียกว่า การประมวลผลในเชิงวิเคราะห์ (analytical processing)เพื่อทำการวิเคราะห์ข้อมูลที่รวบรวมเอาไว้แล้ว • Analytical processing บางทีเรียกเป็น business intelligence ซึ่งรวมถึงการทำเหมืองข้อมูล (data mining), ระบบสนับสนุนในการตัดสินใจ (decision support systems, DSS), querying และการวิเคราะห์อื่น ๆ เอาไว้ด้วยกัน • ผลที่ได้จากการวิเคราะห์ข้างต้น จะเป็นสารสนเทศเชิงกลยุทธ์ป้อนให้กับผู้ที่ทำหน้า ที่ในการตัดสินใจ อันทำให้ผลิตผลและการตัดสินใจทำได้ดีขึ้น ส่งผลให้มีความได้ เปรียบในการเปรียบในการแข่งขันมากขึ้น
คลังข้อมูลคือ…… • คลังข้อมูลคือ ที่เก็บข้อมูลในอดีตในเชิง subject-oriented ที่ถูกจัดกลุ่มเพื่อให้สามารถ เข้าถึงในรูปที่ง่ายต่อการนำไปใช้ในการประมวลผลเชิงวิเคราะห์ (เช่น data mining, decision support, querying, และ other applications) • ประโยชน์ของคลังข้อมูลคือ: • ความสามารถในการเข้าใช้ข้อมูลได้อย่างรวดเร็ว เพราะข้อมูลทั้งหมดวางอยู่ที่เดียว กัน • ความสามารถในการเข้าใช้ข้อมูลของผุ้ใช้ทำได้อย่างรวดเร็วและบ่อย ๆ ผ่านทาง Web browsers. 9
คุณลักษณะของคลังข้อมูล(1)คุณลักษณะของคลังข้อมูล(1) • 1)Organization ข้อมูลถูกจัดแบ่งเป็นหัวข้อและมีสารสนเทศที่สามารถนำมาใช้สนับสนุนในการตัดสินใจเท่านั้น • 2) Consistency ข้อมูลใน different operational databases อาจถูกรวบรวม (code)แตกต่างกันแต่สำหรับใน data warehouse แล้ว มันจะต้องถูกรวบรวมในลักษณะหรือในรูปแบบเดียวกัน ตลอดเวลา • 3) Time variantข้อมูลจะถูกเก็บรวมไว้หลาย ๆ ปี ดังนั้นมันจึงสามารถนำมาใช้ในการทำนายแนวโน้ม การพยากรณ์ และ การเปรียบเทียบต่าง ๆ ตลอดระยะเวลาที่จัดเก็บ • 4) Non-volatileข้อมูลจะต้องไม่ถูก update (ไม่ทำการเปลี่ยนแปลงแก้ไข) หลังจากเก็บเข้าไปใน warehouse แล้ว 10
คุณลักษณะของคลังข้อมูล (2) • 5) Relational ในทางปฏิบัติแล้ว data warehouse จะใช้โครงสร้างแบบ Relational Structure • 6) Client/serverใช้สถาปัตยกรรมแบบ Client/server • 7) Web-basedข้อมูลของ data warehouse ในปัจจุบันี้ จะถูกออกแบบให้มี efficient computing environment เพื่อใช้ใน web-based application ต่าง ๆ • 8) Integrationข้อมูลมาจากหลายแหล่งต้องรวมเข้าด้วยกันได้ • 9) Real Timeควรทำให้เป็นแบบ Real Time • อ่านเพิ่มเติม • “Table 10.2 Summary of Strategic Using of Data Warehousing”, page 421
Cost: ต้นทุนและการดูแลรักษา data warehouse สูงมาก เกิดความยุ่งยากและมีต้นทุนในการ Convert data จากระบบเดิม และ อาจเกิดการเลื่อมเวลาในการ share ข้อมูล ดังนั้น พึงระมัดระวังในการจะลงมือทำ data warehouse • Architecture and Tools: สถาปัตยกรรมของ data warehouse มีหลายแบบ การเลือกใช้งานควรพิจารณาให้เหมาะสมกับสิ่งที่องค์กรต้องการ • ความเหมาะสม (Suitability): การจะทำ data warehouse ควรพิจารณาว่า • มีข้อมูลจำนวนมากที่ถูก access จากผู้ใช้ • ข้อมูลที่ใช้งานถูกจัดเก็บอยู่ในระบบที่แตกต่างกัน • มีการบริหารจัดการแบบ information-based • มีฐานลูกค้าขนาดใหญ่และหลากหลาย • ข้อมูลเดียวกันที่ใช้ในระบบที่แตกต่างกัน • ข้อมูลถูกเก็บในเชิง Highly Technical Format ทำให้ยุ่งยากในการคลี่ออกมาใช้งาน • มีประโยชน์ต่อผู้ใช้มากขึ้นในเชิงการคำนวณ
Relational and Multidimensional Database • ฐานข้อมูลเชิงสัมพัทธ์ (Relational database)เป็นการเก็บข้อมูลในรูปแบบตารางแบบ สองมิติ(two–dimension- al tables) • ฐานข้อมูลแบบหลายมิติ (Multidimensional database)โดยปกติแล้ว มันจะเก็บข้อมูล ในลักษณะเป็นอาร์เรย์ หลาย ๆ อาร์เรย์ (arrays) ซึ่งแต่ละอาร์เรย์ประกอบด้วยอย่างน้อย มิติทางธุรกิจสามมิติ (three business dimension) • มิติทางธุรกิจ (Business dimension)หมายถึง การมองและวิเคราะห์ข้อมูลในมุมมอง ที่แตกต่างกันออกไป มิติเหล่านี้จะก่อรูปเป็น Data cube เมื่อเป็นเช่นนี้ มิติทางธุรกิจ คือบริเวณขอบของ data cube ซึ่งแสดงถึงมุมมองหลักๆ ของข้อมูลเชิงธุรกิจ • ฐานข้อมูลแบบหลายมิติ มักถูกนำมาใช้ในคลังข้อมูล 12
สมมุติว่า……. • สมมติว่า บริษัทของเราขายของสี่ชนิดคือ nuts, screws, bolts และ Washers • กระจายสินค้าขายออกไปทั้งสามภาค คือ ภาคตะวันออก (East), ภาคตะวันตก (West)และ ภาคกลาง (Central) • การเก็บข้อมูลทั้งสามปี คือ 2001, 2002 และ 2003 • ถ้าเป็นฐานข้อมูลเชิงสัมพัทธ์ (Relational database) จะมองเห็นข้อมูลดังหน้าถัดไป เป็นการมองข้อมูลแยกออกเป็นสามส่วนตามปี แต่ละส่วนมีโครงสร้างของข้อมูล เหมือนกัน (Product, Region และ Sales) และมีการจัดกลุ่มผลิตภัณฑ์เหมือนกัน
ตัวอย่างของ Multidimensional database มิติของการขายแบ่งเป็น Regions, Products และ Years
ความทัดเทียมกันของ Relational & Multidimensional Databases
ความทัดเทียมกันของ Relational & Multidimensional Databases
ความทัดเทียมกันของ Relational & Multidimensional Databases
วงจรของข้อมูล (Data Life Cycle) ท่านเรียนรู้เรื่องนี้แล้ว ต่อไปจะกล่าวถึงส่วนนี้ คือ Metadata 6
Metadata คืออะไร (มองอย่างง่าย ๆ) • Metadata จะให้คำอธิบาย(context)กับ “user” ในด้าน “วัตถุประสงค์(object)” เพื่อทำให้เกิดการกระทำที่มีประสิทธิภาพมากขึ้น เป็นรูปแบบที่ชัดเจนมากขึ้น • Classic example:การจัดทำเอกสารข้อมูล (data documentation) • User – นักวิเคราะห์ (analyst) • Object – ฐานข้อมูลจากการสำรวจ (survey database) • Metadata – variable definitions, code lists, … • คำอธิบายเพื่อเสริมให้เกิดการดำเนินการต่าง ๆ – information to obtain appropriate summary statistics for a given objective
วงจรของข้อมูล (Data Life Cycle) ท่านเรียนรู้เรื่องนี้แล้ว ต่อไปจะกล่าวถึงส่วนนี้ คือ Data Mart 6
ตลาดข้อมูล (Data Mart) (1) • ตลาดข้อมูล (Data Mart):คือคลังข้อมูลที่มีขนาดเล็กถูกออกแบบมาเพื่อใช้ในหน่วย ธุรกิจเชิงกลยุทธ์ (strategic business unit, SBU) หรือในแผนกหนึ่ง ๆ • ข้อดีของตลาดข้อมูลประกอบด้วย: • ต้นทุนต่ำ (ราคาต่ำกว่า 100,000$ในขณะที่คลังข้อมูลจะประมาณ 1M$หรือ มากกว่า) • เมื่อนำมาติดตั้งใช้งานจะใช้เวลาน้อยกว่ามาก (มักจะน้อยกว่า 90 วัน) เป็นแบบ local แทนที่จะเป็นแบบควบคุมจากศูนย์กลาง(central control) (เมื่อเปรียบเทียบในเชิงความสามารถการใช้งานของกลุ่ม) • ตอบสนองได้เร็ว ง่ายต่อการทำความเข้าใจ และเรียนรู้ได้ง่ายกว่าคลังข้อมูลที่ใช้ทั่ว ทั้งองค์กร(enterprise wide data warehouse ) 13
ตลาดข้อมูล (2) • Data mart มีสองประเภทใหญ่ ๆ คือ: • Replicated (dependent) data marts คือกลุ่มย่อยขนาดเล็ก(small subset)หลาย ๆ กลุ่มของคลังข้อมูลซึ่งก็คือการคัดลอกกลุ่มย่อยบางกลุ่มในคลังข้อมูล มาไว้ใน ตลาดข้อมูลเล็กๆ หลายๆ อัน แต่ละอันจะใช้เฉพาะ functional area ที่แน่นอน หนึ่ง ๆ เท่านั้น • Stand-alone data marts.บริษัทสามารถมีตลาดข้อมูลเพียงหนึ่งหรือมากกว่าก็ได้ และเป็นอิสระจากกันโดยไม่จำเป็นต้องมีคลังข้อมูลการใช้ data mart ส่วนมาก ได้แก่ ฝ่ายการตลาด ฝ่ายบัญชี ฝ่ายที่ประยุกต์ใช้ในงานวิศวกรรม
วงจรของข้อมูล (Data Life Cycle) ท่านเรียนรู้เรื่องนี้แล้ว ต่อไปจะกล่าวถึงส่วนนี้ คือ Data Analysis
10.3 Information & Knowledge Discovery with Business Intelligence • Business Intelligence (น่าจะแปลว่า “เชาว์ปัญญาเชิงธุรกิจ” มั๊งครับ):แนวทางกว้าง ๆ ของการประยุกต์ใช้และเทคนิคต่าง ๆ ในการรวบรวมข้อมูล การเก็บ การวิเคราะห์ และ การเข้าถึง เพื่อช่วยให้ผู้ใช้ในองค์กรตัดสินใจทางธุรกิจและกลยุทธ์ได้ดีขึ้น • ตัวอย่างการทำงานเป็นดังรูปในหน้าถัดไป ข้อมูลดิบที่ได้จากการทำงานจะถูกเก็บอยู่ ในฐานข้อมูลต่าง ๆ คลังข้อมูลจะดึงเอาข้อมูลเหล่านั้นมารวมกัน เมื่อใช้ Business Intelligence Software ผู้ใช้สามารถส่งคำถาม (query) ร้องขอรายงานตามที่ต้องการ (ad-hoc report) หรือ ทำการวิเคราะห์อื่น ๆ ผลที่ได้จากการร้องขอข้างต้นสามารถนำ มาทำรายงาน ทำการทำนาย แจ้งเตือน และ/หรือ นำเสนอในเชิงรูปภาพต่าง ๆ ได้ • อ่านเพิ่มเติมใน IT at Work “10.1 Ben & Jerry keeps track of its Pins”, page 424
The Tools and techniques of business intelligence • การประยุกต์ใช้หลัก ๆ ประกอบด้วย การดำเนินงานทางด้าน query และ reporting, online analytical processing (OLAP), DSS, data mining, forecasting และ statistical analysis. • Business intelligence ประกอบด้วย: 1) outputs such as financial modeling and budgeting 2) resource allocation 3) coupons and sales promotions 3) Seasonality trends 4) Benchmarking (business performance) 5) competitive intelligence. • เครื่องมือที่ใช้ใน BI มักแยกออกเป็นสองส่วนหลัก ๆ คือ: • (1) การค้นพบสารสนเทศและองค์ความรู้ • (2) สนับสนุนในการตัดสินใจและintelligent analysis. 16
Categories of business intelligence 1 2 BPI = Business Process Integration, BPM = Business Process Management 17
The Tools and Techniques of Information and Knowledge Discovery • การค้นพบองค์ความรู้และสารสนเทศ (Information and Knowledge Discovery) จะแตกต่างจากการสนับสนุนการตัดสินใจในมุมมอง ของ “การค้นพบ (discovery)” หมายความว่า ต้องค้นพบแล้ว จึงนำผลนั้นไปใช้ สำหรับสนับสนุนในการตัดสินใจ • วิวัฒนาการของ Information and Knowledge Discovery • Information discovery เริ่มมาตั้งแต่ปลายปี 1960 พร้อมกับเทคนิคต่าง ๆ ที่ใช้รวบ รวมข้อมูล ซึ่งมันก็คือ การรวบรวมข้อมูลแบบพื้นฐาน ง่าย ๆ และ มันตอบคำถาม ต่างๆได้โดยใช้ข้อมูลกลุ่มหนึ่งที่เก็บไว้ในอดีต การวิเคราะห์แบบนี้ต่อมาได้ขยาย ออกเป็นเครื่องมือหลายตัว เช่น SQL Relational database management systems • อ่านเพิ่มเติมใน ตารางที่ 10.3 Stages in the Evolution of Knowledge Discovery
Knowledge Discovery (KD) • กระบวนการคัดแยกเอาองค์ความรู้ออกมาจากข้อมูลที่มีจำนวนมาก รวม data mining เอาไว้ด้วย 18
Ad-Hoc Queries and Reporting • Ad-hoc queriesหมายถึงการยินยอมให้ผู้ใช้ ต่าง ๆ ร้องขอสารสนเทศจากคอมพิวเตอร์ ในเวลาจริง (real time) ซึ่งไม่เคยมีในรายงาน ที่ทำเป็นปกติ คำตอบที่ได้มาข้างต้น (Report) จะถูกนำใช้ในการตัดสินใจอย่างเร่งด่วน • ระบบ Ad-hoc queries ง่าย ๆ ทำโดยการใช้ เมนู ที่ซับซ้อนขึ้นไปจะใช้ SQL (Structured query language) และที่ซับซ้อนขึ้นไปอีก จะ อยู่บน natural language processing บางรูป แบบสามารถติดต่อกับผู้ใช้โดยใช้การจดจำ เสียง (voice recognition)
OLAP (Online Analytical Processing) • ย่อมาจาก “Online Analytical Processing” ถือเป็นเครื่องมือทางซอฟท์แวร์ประเภทหนึ่ง ที่ใช้จัดการกับข้อมูลที่เก็บไว้ในฐานข้อมูล • OLAP tools จะช่วยให้ผู้ใช้ทำการวิเคราะห์ความแตกต่างของมิติหลายๆมิติของ multidimensional data ตัวอย่างเช่น มันช่วยทำการวิเคราะห์มุมมองทางด้าน time series และ trend analysis ดังนั้น OLAP มักถูกนำมาใช้ในงาน data mining • องค์ประกอบหลักของ OLAP ก็คือ OLAP server ซึ่งวางอยู่ระหว่าง client กับ database management systems (DBMS) โดยที่ OLAP server จะเข้าใจว่า ข้อมูลควรจัดรูปแบบ อย่างไรในฐานข้อมูลและมีฟังก์ชันพิเศษต่าง ๆ สำหรับใช้ในการวิเคราะหืข้อมูล • โดยทั่วไป มักจะมี OLAP server วางอยู่ใกล้กับระบบฐานข้อมูลหลักเป็นส่วนมาก