900 likes | 1.64k Views
บทที่ 4 การประมวลผลข้อมูล (Data Processing). ข้อมูลและสารสนเทศ. ข้อมูล (Data) คือ ข้อเท็จจริงหรือสิ่งที่ยอมรับว่าเป็นข้อเท็จจริง สำหรับใช้เป็นหลักอนุมานหาความจริงหรือการคำนวณสำหรับ การหาค่าความจริง ปกติคือข้อมูลดิบ (Raw Data)
E N D
บทที่ 4การประมวลผลข้อมูล (Data Processing)
ข้อมูลและสารสนเทศ • ข้อมูล (Data) คือ ข้อเท็จจริงหรือสิ่งที่ยอมรับว่าเป็นข้อเท็จจริง สำหรับใช้เป็นหลักอนุมานหาความจริงหรือการคำนวณสำหรับ การหาค่าความจริง ปกติคือข้อมูลดิบ (Raw Data) • สารสนเทศ (Information) คือ ข่าวสารที่ได้จากการนำข้อมูลดิบมาคำนวณหรือประมวลผล อย่างใดอย่างหนึ่ง ซึ่งข่าวสารที่ได้สามารถนำไปใช้ได้ทันที
รายได้ของพนักงานแต่ละคนรายได้ของพนักงานแต่ละคน • รายจ่ายขององค์กร จำนวนชั่วโมงการทำงาน X อัตราค่าจ้างต่อชั่วโมง • จำนวนชั่วโมงการทำงานของพนักงาน • อัตราค่าจ้างต่อชั่วโมง กระบวนการประมวลข้อมูลให้เป็นสารสนเทศ
Know How Data Data Processing Information ความหมายของความรู้ (Knowledge) • ความรู้ คือ ความรับรู้และความเข้าใจในการนำสารสนเทศไปใช้ในการแก้ปัญหาในการดำเนินงาน
คุณสมบัติของสารสนเทศ • ถูกต้อง • สมบูรณ์ • ประหยัด • ตรงต่อความต้องการ • ง่ายต่อการใช้งาน • ทันต่อเวลา • ตรวจสอบได้
การประมวลผลข้อมูลและการจัดการข้อมูลการประมวลผลข้อมูลและการจัดการข้อมูล • การประมวลผลข้อมูล (Data Processing) การประมวลผลข้อมูลสามารถทำได้ 2 วิธี คือ • การประมวลผลแบบแบตซ์ (Batch Processing) • การประมวลผลแบบเรียลไทม์ (Real - Time Processing)
การประมวลผลข้อมูลและการจัดการข้อมูลการประมวลผลข้อมูลและการจัดการข้อมูล • การจัดการข้อมูล (Data Management) • บิต (Bit) • ไบต์ (Byte) / อักขระ (Characters) • ฟิลด์ (Field) • ระเบียน (Record) • ไฟล์ / แฟ้มข้อมูล (File) • ฐานข้อมูล (Database)
วิวัฒนาการของเทคโนโลยีฐานข้อมูล • ปี 1960 เทคโนโลยีฐานข้อมูลได้เริ่มพัฒนามาจาก File processing • ปี 1970 ได้นำไปสู่การพัฒนาระบบการเก็บข้อมูลในรูปแบบตาราง (Ralational Database System ) • ปี 1980 เทคโนโลยีฐานข้อมูลได้เริ่มมีการปรับปรุงและพัฒนาในการหาระบบจัดการที่มีศักยภาพมากขึ้น • ปี 1990 – ปัจจุบัน สามารถจัดเก็บข้อมูลได้ในหลายรูปแบบ แตกต่างกันทั้งระบบปฏิบัติการ หรือการจัดเก็บฐานข้อมูล
ระบบแฟ้มข้อมูล (File-Based System) • การจัดเก็บแฟ้มข้อมูลด้วยคอมพิวเตอร์ในยุคแรกๆ มีรูปแบบจัดเก็บคล้ายการจัดเก็บแฟ้มเอกสารต่างๆ ด้วยมือ • ข้อดีระบบแฟ้มข้อมูล • ง่ายต่อการออกแบบและพัฒนา (Easy to Design and Implement) • การประมวลแบบแฟ้มข้อมูลเป็นวิธีดั้งเดิมที่ใช้กันมานาน และมีความรวดเร็ว(Historically and Processing Speed)
ระบบแฟ้มข้อมูล (File-Based System) • ข้อจำกัดระบบแฟ้มข้อมูล (Limitations of the File-Based Approach) • ข้อมูลมีการเก็บแยกจากกัน (Separation and Isolation of Data) • ข้อมูลมีความซ้ำซ้อน (Duplication of Data/Data Redundancy) • ข้อมูลมีความขึ้นต่อกัน (Data Dependence) • มีรูปแบบที่ไม่ตรงกัน (Incompatible File Formats) • รายงานต่างๆ ถูกกำหนดไว้อย่างจำกัด (Fixed question/proliferation of application program)
ประเภทของแฟ้มข้อมูล • แฟ้มหลัก (Master File) • แฟ้มรายการเปลี่ยนแปลง (Transaction File) • แฟ้มเอกสาร (Document File) • Archival File • Table Look-Up File หรือ Reference File • Audit File
ระบบฐานข้อมูล • (กิตติ ภักดีวัฒนะกุล และ จำลอง ครูอุตสาหะ,2544) ได้ให้คำนิยามของฐานข้อมูลว่า การจัดเก็บข้อมูลอย่างมีระบบ และความสัมพันธ์ระหว่างข้อมูลประกอบด้วย รายละเอียดของข้อมูลที่เกี่ยวข้องกัน ซึ่งถูกนำมาใช้ในงานด้านต่างๆ ไม่ว่าจะเป็นการเพิ่มข้อมูล การลบ การแก้ไข การเรียกดูข้อมูล
วัตถุประสงค์ของการใช้ฐานข้อมูลวัตถุประสงค์ของการใช้ฐานข้อมูล • เพิ่มความเร็วในการพัฒนาโปรแกรม • ลดค่าใช้จ่ายในการบำรุงรักษาโปรแกรม • อำนวยความสะดวกให้ผู้ใช้ทั่วไปที่ไม่ใช่โปรแกรมเมอร์ • สามารถใช้ข้อมูลร่วมกันได้ (Integration of Data) • ควบคุมข้อมูลได้ง่ายขึ้น
ชนิดของฐานข้อมูล • ฐานข้อมูลลำดับชั้น (Hierarchical Database) • ข้อดี โครงสร้างที่เข้าใจง่าย มีความซับซ้อนน้อยที่สุด และเหมาะกับข้อมูลที่มีความสัมพันธ์แบบ One-to-Many และป้องกันความปลอดภัยในข้อมูลที่ดี • ข้อเสีย ไม่สามารถรองรับข้อมูลที่มีความสัมพันธ์ในลักษณะของ Many-to-Many ได้ มีความยืดหยุ่นหรือมีความคล่องตัวน้อย กล่าวคือ การปรับเปลี่ยนโครงสร้าง Tree นั้นมีความยุ่งยาก รวมทั้งการเรียกใช้ข้อมูลจำเป็นต้องผ่าน Root เสมอ
ชนิดของฐานข้อมูล • ฐานข้อมูลเครือข่าย (Network Database) • ข้อดี สนับสนุนความสัมพันธ์แบบ Many-to-Many ลดความซ้ำซ้อนในข้อมูลเกิดขึ้นน้อยกว่าแบบลำดับชั้น รวมทั้งสามารถเชื่อมโยงข้อมูลแบบไป - กลับได้ และมีความยืดหยุ่นในด้านของการค้นหาข้อมูลดีกว่า โดยจะใช้ Pointer ในการเข้าถึงข้อมูลได้ทันที • ข้อเสีย เนื่องจากสามารถเข้าถึงเรคคอร์ดได้โดยตรง ทำให้การป้องกันความปลอดภัยของข้อมูลมีน้อย รวมทั้งสิ้นเปลืองเนื้อที่หน่วยความจำในการเก็บ Pointer และการเปลี่ยนแปลงในโครงสร้างยังมีความยุ่งยากอยู่
ชนิดของฐานข้อมูล • ฐานข้อมูลเชิงสัมพันธ์ (Relational Database) • ข้อดี มีความเข้าใจและสื่อสารได้เข้าใจง่าย เนื่องจากนำเสนอในลักษณะตาราง 2 มิติ ทำให้สามารถเลือกวิวข้อมูลตามเงื่อนไขได้หลายคีย์ฟิลด์ โครงสร้างข้อมูลมีความซับซ้อนในข้อมูลมีน้อยมาก ทำให้มีระบบความปลอดภัยที่ดี • ข้อเสีย จำเป็นต้องเสียค่าใช้จ่ายในระบบค่อนข้างสูง เนื่องจากทรัพยากรทั้งตัวฮาร์ดแวร์ และซอฟต์แวร์ที่นำมาใช้ต้องมีความสามารถสูง
ชนิดของฐานข้อมูล • ฐานข้อมูลเชิงวัตถุ (Object-Oriented Database : OODB) • ข้อดี แบบจำลองนี้ คือ สามารถจัดการกับข้อมูลชนิดต่างๆ ที่มีความสลับซับซ้อนได้เป็นอย่างดี ไม่ว่าจะเป็น Graphic ,Video , Sound นอกจากนี้ยังสนับสนุนคุณสมบัติของการนำกลับมาใหม่(Reusable) • ข้อเสีย แบบจำลองเชิงวัตถุถือว่าเป็นเทคโนโลยีใหม่ของ DBMS ซึ่งมักจะนำไปใช้กับหน่วยงานขนาดใหญ่ที่จำเป็นต้องใช้บุคลากรที่มีความรู้ความเชี่ยวชาญ และประสบการณ์ในการจัดการกับข้อมูลที่มีความสลับซับซ้อนและเป็นฐานข้อมูลที่ใช้รองรับความซับซ้อนของข้อมูลที่จะทวีเพิ่มขึ้นในอนาคต
ชนิดของฐานข้อมูล • ฐานข้อมูลแบบมัลติไดเมนชั่น (Multidimensional Database) • ข้อดี แบบจำลองนี้ คือ เป็นฐานข้อมูลที่ได้มาจากคลังข้อมูล ใช้เพื่อช่วยในการวิเคราะห์ข้อมูลเพื่อสนับสนุนการตัดสินใจของผู้บริหารโดยเสนอข้อมูลหลาย ๆ มิติให้พิจารณาเป็นฐานข้อมูลที่ใช้ในหน่วยงานใหญ่ ๆ • ข้อเสีย เป็นเทคโนโลยีใหม่ของ DBMS ซึ่งมักจะนำไปใช้กับหน่วยงานขนาดใหญ่ที่จำเป็นต้องใช้บุคลากรที่มีความรู้ความเชี่ยวชาญ และประสบการณ์ในการจัดการกับข้อมูลที่มีความสลับซับซ้อนและเป็นฐานข้อมูลที่ใช้รองรับความซับซ้อนของข้อมูลที่จะทวีเพิ่มขึ้นในอนาคต และมีค่าใช้จ่ายในการพัฒนาระบบเป็นจำนวนมาก
ระบบการจัดการฐานข้อมูล (Database Management System) • ระบบการจัดการฐานข้อมูล หรือเรียกย่อๆว่า DBMS คือ โปรแกรมที่ใช้เป็นเครื่องมือในการจัดการฐานข้อมูล ซึ่งประกอบด้วยฟังก์ชันหน้าที่ต่างๆ ในการจัดการกับข้อมูล รวมทั้งภาษาที่ใช้ทำงานกับข้อมูล โดยมักจะใช้ภาษา SQL ในการโต้ตอบระหว่างกันกับผู้ใช้ เพื่อให้สามารถทำการกำหนดการสร้าง การเรียกดู การบำรุงรักษาฐานข้อมูล รวมทั้งการจัดการควบคุมการเข้าถึงฐานข้อมูล
ส่วนประกอบของสภาพแวดล้อมระบบการจัดการฐานข้อมูลส่วนประกอบของสภาพแวดล้อมระบบการจัดการฐานข้อมูล • ฮาร์ดแวร์ (Hardware) • ซอฟต์แวร์ (Software) • ข้อมูล (Data) • ขั้นตอนการปฏิบัติงาน (Procedures) • บุคลากร (People)
คลังข้อมูล (Data Warehouse) • คลังข้อมูล คือ ฐานข้อมูลที่มีข้อมูลเพื่อใช้สำหรับองค์กรที่มีขนาดใหญ่ ซึ่งอาจประกอบด้วยข้อมูลย้อนหลังหลายๆ ปีจนถึงข้อมูลปัจจุบัน นำมาใช้เพื่อการวิเคราะห์และตัดสินใจสำหรับธุรกิจขององค์กรและสนับสนุนการใช้งานสำหรับผู้ใช้งานหลายระดับ • คลังข้อมูล เป็นเทคโนโลยีที่จะทำการเปลี่ยนหรือแปลงข้อมูลที่เก็บไว้ให้อยู่ในรูปของสารสนเทศที่ใช้เพื่อการดำเนินงานหรือตัดสินใจทางธุรกิจ
คลังข้อมูล (Data Warehouse) • OLAP : Online Analytical Processing คือ เทคโนโลยีที่ใช้ข้อมูลจากคลังข้อมูล เพื่อนำไปใช้ในการวิเคราะห์และตัดสินใจทางธุรกิจอย่างมีประสิทธิภาพ
คลังข้อมูล (Data Warehouse) • คุณสมบัติของคลังข้อมูล • Consolidated and Consistent Consolidated • Subject-oriented Data • Historical Data • Read - Only Data
Data Mart • Data Mart นั้นเป็นส่วนย่อยของคลังข้อมูลจึงมีขนาดเล็กกว่า โดยจะเก็บไว้ในฐานข้อมูลหนึ่งๆ ส่วนใหญ่มักจะหมายถึง ข้อมูลที่เก็บไว้ในระดับหน่วยหรือระดับฝ่ายเท่านั้น • Data Mart มีลักษณะดังต่อไปนี้ • ข้อมูลเจาะจงไปยังฟังก์ชันเฉพาะกลุ่มหรือหน่วยงานภายในขององค์กร • ให้ผลตอบแทนที่รวดเร็ว คุ้มค่ากับการลงทุนในด้านของเวลา • การบริหารและการจัดการข้อมูลสามารถทำได้โดยง่าย • ช่วยเพิ่มประสิทธิภาพ เนื่องจากการคิวรีถูกแบ่งไปยังข้อมูลแต่ละส่วนของฟังก์ชัน
การทำเหมืองข้อมูล (Data Mining) • Data mining เป็นเทคโนโลยีสารสนเทศที่สามารถกลั่นกรอง วิเคราะห์ ข้อมูลที่มีปริมาณมหาศาลเพื่อให้ได้ข้อมูลที่มีประโยชน์หรือได้ข้อมูลที่ซ่อนเร้นอยู่ในข้อมูลที่มีปริมาณมหาศาล และนำข้อมูลที่มีประโยชน์มาใช้เป็นฐานความรู้เพื่อช่วยในการบริหารงาน
การทำเหมืองข้อมูล (Data Mining) • Philippe Nieuwbourg ( CXP Information ) กล่าวไว้ว่า “ Data Mining คือ เทคนิคที่ผู้ใช้สามารถปฏิบัติการได้โดย อัตโนมัติ กับ ข้อมูลที่ไม่รู้จัก ซึ่งเป็น การเพิ่มคุณค่า ให้กับข้อมูลที่มี”
การทำเหมืองข้อมูล (Data Mining) • Data Mining คือ ขบวนการทำงานที่เรียกว่า Process ที่สกัดข้อมูล (Extract data) จากฐานข้อมูลขนาดใหญ่ (Large Information) เพื่อให้ได้สารสนเทศ (Usefull Information) ที่เรายังไม่รู้ (Unknown Data) โดยเป็นสารสนเทศที่มีเหตุผล (Valid) และสามารถนำไปใช้ได้ (Actionable) ซึ่งเป็นสิ่งสำคัญในการที่จะช่วยการตัดสินใจในการทำธุรกิจ Data Mining เป็นโปรเซสที่สำคัญในการทำ Knowledge Discovery in Databaseที่เราเรียกสั้นๆว่า KDD ส่วน Data Mining สามารถเรียกสั้นๆว่า DM
ปัจจัยที่ทำให้ Data Mining เป็นที่ได้รับความนิยม • จำนวนและขนาดข้อมูลขนาดใหญ่ถูกผลิตและขยายตัวอย่างรวดเร็ว • ข้อมูลถูกจัดเก็บเพื่อนำไปสร้างระบบการสนับสนุนการตัดสินใจ • ระบบ Computer สมรรถนะสูงมีราคาต่ำลง • การแข่งขันอย่างสูงในด้านอุตสาหกรรมและการค้า
ประเภทข้อมูลที่สามารถทำ Data Mining • Relational Database • Data Warehouses • Transactional Database • Advanced Database
ลักษณะเฉพาะของข้อมูลที่สามารถทำ Data Mining • ข้อมูลขนาดใหญ่ • ข้อมูลที่มาจากหลายแหล่ง • ข้อมูลที่ไม่มีการเปลี่ยนแปลงตลอดช่วงเวลาที่ทำการ Mining • ข้อมูลที่มีโครงสร้างซับซ้อน
การประยุกต์ใช้งาน Data Mining • วิเคราะห์การฉ้อโกงของมิจฉาชีพ เช่น กิจการโทรคมนาคม , ธนาคารใช้ป้องกันการฉ้อโกง • การวิเคราะห์ผลิตภัณฑ์ • การวิเคราะห์บัตรเครดิต • การวิเคราะห์ลูกค้า • การวิเคราะห์การขาย • Text Mining • พาณิชย์อิเล็กทรอนิกส์ • ลดความเสี่ยงในการตัดสินใจ