960 likes | 1.13k Views
第三章 資料與知識管理. 本章概要. 資料管理:重要的成功因素 資料倉儲 企業情報發現的資訊與知識 資料探勘概念與應用 資料視覺化科技 以網路為基礎的資料管理系統 知識管理介紹 知識管理的資訊科技. 學習目標. 暸解資料的重要性、管理議題與其生命週期 說明資料來源與其蒐集 說明文件管理系統 解釋資料倉儲的運算與其在決策支援上的角色 說明資訊與知識發現以及企業情報 瞭解資料探勘的效能與優點 說明資料呈現方法,並解釋可當成決策支援工具的地理資訊系統、視覺模擬,與虛擬實境 暸解網路在資料管理所扮演的角色 定義知識並說明不同類型的知識
E N D
本章概要 • 資料管理:重要的成功因素 • 資料倉儲 • 企業情報發現的資訊與知識 • 資料探勘概念與應用 • 資料視覺化科技 • 以網路為基礎的資料管理系統 • 知識管理介紹 • 知識管理的資訊科技 Chapter 3
學習目標 • 暸解資料的重要性、管理議題與其生命週期 • 說明資料來源與其蒐集 • 說明文件管理系統 • 解釋資料倉儲的運算與其在決策支援上的角色 • 說明資訊與知識發現以及企業情報 • 瞭解資料探勘的效能與優點 • 說明資料呈現方法,並解釋可當成決策支援工具的地理資訊系統、視覺模擬,與虛擬實境 • 暸解網路在資料管理所扮演的角色 • 定義知識並說明不同類型的知識 • 說明知識管理系統所使用的技術 Chapter 3
3.1 資料管理 • 重要的成功因素(A critical success factor):資訊科技應用不可能不使用資料。資料應該要高品質,這代表其可以精確、完整、即時、一致、可存取、相關與簡單扼要的。 • 管理資料的困難度: • 資料的量隨著時間以指數的方式增加。 • 資料散置在組織各處且由很多人用許多方式與設備蒐集起來。 • 持續增加的外部資料需要在組織決策時被考量。 • 資料安全性、品質與完整性是很重要的且很容易受到危害。 Chapter 3
重要成功因素(Critical Success Factors,CSF) • 為了要確認組織的生存與成功必須要正確進行的那些事情。 • 組織將資料管理視為關鍵成功因素。 • 作為組織重要資產的資料確認與資料困難度已經導致組織要尋求更有效率及有效的資料管理解決方案。 Chapter 3
資料生命週期 Chapter 3
Metadata的定義探討 • 記載資料元素或屬性(如:名稱、大小、資料類型等)的資料、有關記錄或資料結構(如:長度、欄位、行列等),以及有關資料的資料(如:位置、關聯、擁有者等)。 • metadata就是資料(Metadata is data) • …超過30種的定義 Chapter 3
Metadata的面貌探討 不同社群的習慣稱呼 • 電腦界:資料字典(Data Dictionary) • 圖書館界:圖書館目錄(Library Catalogue) • 博物館界:記錄、登錄、資料標準(Documentation, Register, Data Standard) • 檔案館界:檢索工具(Finding Aids) • … Chapter 3
一個簡例 Chapter 3
資料來源 • 內部資料來源:有關人們、產品、服務與流程的資料。 • 個人資料:資訊系統使用者或是其他公司員工可能利用創造個人資料來文件化其自己的專業知識。 • 外部資料來源:來自於商業資料庫到感應器與衛星的資料。 Chapter 3
文件管理 • 透過組織裡文件的整個生命週期的電子化文件、全文影像、試算紙、文字處理文件與其他複雜的文件的自動化控制。 • 文件管理的主要工具是工作流程軟體、作者工具、掃瞄器、影像系統以及資料庫。 • 文件管理系統(Document Management Systems,DMSs):以電子化格式提供辨識、儲存、整理、追蹤與簡報資訊給決策者的電腦系統。 Chapter 3
3.2 資料倉儲 • 交易處理(Transaction Processing):資料以階級結構被組織,並集中以快速與有效率地處理例行、重複的資料。 • 分析處理(Analytical Processing):累積資料的分析,常常由最終使用者進行,也稱為企業情報。 • 資料倉儲(Data Warehouse):是以隨時可供分析處理活動(像是資料探勘、決策支援、查詢與其他應用)的形式組織而成的主題導向之歷史資料的儲存處。 Chapter 3
資料倉儲的特徵 • 組織:資料以主題方式組織,包含只與決策支援相關的資訊。 • 一致性:在不同營運資料庫的資料可能以不同方式編碼,在資料倉儲裡,會用一致性的方式編碼。 • 時間變化:資料被儲存多年所以可以用來瞭解趨勢、預測與比較。 • 不變性:資料一旦輸入到倉儲就不再更新。 • 多維度:一般資料倉儲使用多維度結構。 • 網路為基礎:今日的資料倉儲被設計來提供以網路為基礎應用的有效率的運算環境。 Chapter 3
建置資料倉儲 Chapter 3
商業智慧系統架構 Chapter 3
商業智慧系統架構與技術 • 資料擷取、轉換與載入 • 擷取(Extraction)、轉換(Transformation )與載入(Load),簡稱ETL,是導入資料倉儲過程中最重要,也是困難度較高的工作, • 因為這部分需考量各個部門不同的型態資料、不同使用者的分析需求、多樣之分析工具,並將之整合始能有效運作。 Chapter 3
資料擷取、轉換與載入流程 Chapter 3
商業智慧系統架構與技術 • 建立資料倉儲 • 資料倉儲是從不同來源蒐集來的資料的儲存體,而資料倉儲的建構是透過一連串的資料純化、轉換、整合、載入與定期的資料更新的過程,並將轉換後正確的資料載入資料倉儲。 • 資料倉儲(Data Warehouse) • 資料超市(Data Mart) • 資料立方體 (Data Cube) Chapter 3
關聯式與多維度資料庫 • 關聯式資料庫將資料儲存在二度空間的表格,多維度資料庫一般以陣列方式儲存資料,至少是要三個企業維度的組合。 Chapter 3
關聯式資料庫的範例 Chapter 3
多維度資料庫的範例 Chapter 3
關聯式與多維度資料庫之間的對應陣列 Chapter 3
關聯式與多維度資料庫之間的對應陣列(續) Chapter 3
資料超市 • 資料超市(Data Mart):設計給策略專業單位(SBU)或是部門使用的小型的資料倉儲。 • 資料超市的優點包括:低成本(價格低於10萬美元,比起資料倉儲要價高達100萬美元或是更多);明顯較短的導入提前期,常常少於90天;地方控制而非中央控制,賦與使用團體權力。比起泛企業資料倉儲有更快速的反應並更容易瞭解與操作。 Chapter 3
3.3 企業情報發現的資訊與知識 • 企業情報(Business Intelligence):應用與技術的廣泛類別與蒐集、儲存、分析和提供存取資料以協助企業使用者做更好的企業與策略決策。 Chapter 3
企業情報如何運作? Chapter 3
企業情報工具與技術 • 主要的應用包括查詢與報告的活動與技術、線上分析處理(OLAP) 、決策支援、資料探勘、預測與統計分析。 • 企業情報工具可以區分為以下兩個主要類別: (1)資訊與知識發現(information and knowledge discovery) (2)決策支援與情報分析(decision support and intelligent analysis) Chapter 3
商業智慧系統架構與技術 • BI分析技術 • 目前已有許多BI分析技術被發展出來 ,例如: • 線上即時分析處理(Online Analytical Processing, OLAP) • 資料探勘(Data Mining) • 報表系統(Reporting) • 作業基礎管理(Activity-Based Management, ABM) Chapter 3
商業智慧系統架構與技術 • BI分析技術 • 線上即時分析處理 • OLAP技術提供以直覺的商業規則與維度,多維度的資料模型,使OLAP提供使用者從不同角度分析資料的彈性,例如以產品、通路、地理區域等不同維度以進行效益分析,並允許互動式地查詢既有資料。 • 在OLAP 資料模型中,資料是以立方體(Cube) 來表示,其中主要包含二個項目: • (1) 維度 (Dimension) • (2) 衡量值 (Measure) Chapter 3
商業智慧系統架構與技術 • BI分析技術 • 線上即時分析處理 • Codd等人(1993)指出為了能夠完成各種複雜的查詢動作,OLAP技術應具有以下四項功能:(請參考課本例子) • (1)上捲(Roll-up) • (2)下鑚(Drill-Down,有時也稱為下拉) • (3)轉軸(Pivot 或稱 Rotate ) • (4)切片(Slice)和切塊(Dice) Chapter 3
商業智慧系統架構與技術 • BI分析技術 • 線上即時分析處理 • 上捲(Roll-up):該功能主要是將某一Cube的資料歸納到某一維度上或將某個維度的資料往上層整合 • 下鑚(Drill-Down,有時也稱為下拉):可以針對資料Cube中特定維度向下分解,也就是將某個維度的資料往下層分析 • 轉軸(Pivot 或稱 Rotate ):轉動資料軸以提供不同的視覺表示方式 • 切片(Slice)和切塊(Dice):切片是把資料立方體切成薄片,也就是將三維度資料中,選定某個維度切片,使其變成二維度的資料。切塊是從所有的維度中切出一個範圍較小、維度相同的一個小立方體。 Chapter 3
商業智慧系統架構與技術 • BI分析技術 • 線上即時分析處理 • OLAP 提供多種資料分析方式:關聯式OLAP、多維度OLAP及混合式OLAP : • 關聯式OLAP(Relational OLAP, ROLAP):以儲存資料倉儲資料的資料庫來存放彙總性資料 • 多維度OLAP(Multi-Dimension OLAP, MOLAP):以多維度結構儲存彙總結果及基本資料 • 混合式OLAP(Hyper OLAP, HOLAP):是前面兩者的混和體,結合MOLAP的快速運算能力與ROLAP的延伸能力(Scalability),彙總資料儲存於MOLAP,而基本資料則儲存於資料倉儲的關連性資料庫之中 Chapter 3
商業智慧系統架構與技術 • BI分析技術 • 資料探勘(Data Mining) • 資料探勘可以協助從資料裡探索有用的知識,甚至運用邏輯分析與運算規則對未來情境進行預測,以支援管理者做決策。 Chapter 3
商業智慧系統架構與技術 • BI分析技術 • 資料探勘技術可分為三大類: • 分類技術:運用不同的分類技術以處理不同型態的資料,提供企業所需的決策資訊或幫助企業做預測。 • (1)分類分析(Classification) • (2)集群分析(Clustering Analysis) • 相關分析:利用資料間彼此關聯的網路,分析其間的相關性。 • (1)關聯分析(Association) • (2)鏈結分析(Link Analysis) Chapter 3
商業智慧系統架構與技術 • BI分析技術 • 時間相關分析:觀察客戶一段時間內的交易型態,了解相同客戶,不同交易時間內的消費習性。 • (1)順序相關分析(Sequential Pattern Analysis) • (2)時間序列分析(Time Series Analysis) Chapter 3
企業情報類別 Chapter 3
商業智慧系統架構 Chapter 3
知識發現(Knowledge Discovery,KD) • 從大量資料萃取知識的流程,包括資料探勘。 • 知識發現主要的目標是在資料裡辨識有效的、新的、潛在的、有用的,與最終可理解的模式。 • 知識發現因為有以下三項相當成熟的科技所支援: • 大量資料蒐集 • 有力的多處理器電腦 • 資料探勘與其他演算法 Chapter 3
資訊與知識發現演進的階段 Chapter 3
OLAP與資料倉儲的關係 Chapter 3
3.4 資料探勘概念與應用 • 資料探勘(Data mining):在大型資料庫、資料倉儲或是資料超市裡搜尋有價值的企業資訊。 • 資料探勘的技術可以提供以下的功能: • 趨勢與行為的自動化預測:資料探勘可以在大型資料庫自動化找尋預測性資訊的流程。 • 自動化過去未知模式的發現:資料探勘工具辨識過去隱藏的模式。 Chapter 3
資料探勘應用 • 零售業與銷售:預測銷售以及決定正確的存貨水準與商店之間的配銷時程和預防虧損。 • 銀行業:預測借貸呆帳水準與盜刷信用卡。 • 製造業與生產:預測機械的錯誤,並發現主要控制製造功能最佳化的因素。 • 保險:預測申請理賠數量與醫療保險內容的成本。 • 警察工作:追蹤犯罪模式、地點與犯罪行為。 • 健康保建:提供與重要病症相關的病人地理位置。 • 行銷:用來預測哪些顧客將會反應郵件或是購買特定產品的顧客地理位置。 Chapter 3
文字探勘(Text Mining) • 對於無結構與較無結構的文字檔案的資料探勘應用。 • 文字探勘協助組織進行以下事件 (1)查詢「隱藏的」文件內容,包括額外有用的關係,與(2)利用一般主題的群體文件(如,辨識所有類似抱怨的保險公司的顧客)。 Chapter 3
網路探勘(Web Mining) • 網路探勘是對於發現可行動與有意義的模式、檔案,與網路資源趨勢的資料探勘技術的應用。 • 網路探勘被運用在以下領域: • 資訊過濾(電子郵件、雜誌與報紙) • 監視(競爭者、專利與技術發展) • 分析使用狀況的網路存取登錄的探勘(點選狀況的分析) • 協助瀏覽;以及網際網路對抗犯罪的服務。 Chapter 3
網路探勘(Web Mining)(續) • 網路探勘可以執行以下功能: • 資源發現:在網路上找出不熟悉的文件與服務。 • 資訊萃取:從網路上發現新的資訊自動化萃取特定資訊。 • 歸納:在網站上與跨許多網站上找出一般模式。 Chapter 3
3.5 資料視覺化科技 • 資料視覺化(Data Visualization) :利用像是數位影像、地理資訊系統、使用者繪圖介面、多維度表格與圖片、虛擬實境、3D呈現、視訊與動畫以及其他多媒體格式的資料視覺呈現。 • 視覺化軟套軟體提供使用者自我引導探索與大量資料的視覺分析的功能。 Chapter 3
地理資訊系統(Geographical Information System ,GIS) • 針對以電腦為主使用數位繪製的擷取、儲存、查詢、整合、操作與顯示資料的系統。 • 最明顯的特徵是每筆紀錄或是數位元件有可辨識的地理位置,利用整合空間導向資料庫與其他資料庫的地圖,使用者可以產生規劃、問題解決與決策的資訊,以增加其生產力與決策品質。 Chapter 3
視覺互動模式與模擬 • 視覺互動模式(Visual Interactive Modeling ,VIM):使用電腦繪圖顯示呈現不同管理或是營運決策在目標上的影響,像是利潤或市場佔有率,該模式可以使用在決策支援與訓練上。 • 視覺互動模擬(Visual Interactive Simulation ,VIS):最終使用者以動畫形式觀看模擬模式的一種方法,其使用繪圖終端機。 Chapter 3
虛擬實境(Virtual Reality,VR) • 虛擬實境指的是互動的、電腦產生的、三度空間繪圖透過頭戴式顯示器傳送給使用者。 • 虛擬實境與網路:稱為虛擬實境標記語言 (VRML) 的虛擬實境的獨立平台標準使人們可以透過線上在超級市場、博物館,與商店瀏覽如同與文字資訊一樣簡易。 • VRML可以允許物件被網際網路使用者用來在虛擬空間裡「行走」。 Chapter 3
3.6 以網路為主的資料管理系統 Chapter 3