PolyAnalyst 6.0 資料採礦介紹

PolyAnalyst 6.0 資料採礦介紹 皮托科技股份有限公司黃家祚

公司背景 • 成立於民國八十一年 • 本公司佈局於中台灣的彰化市，憑藉地理位置之優勢，可提供北、中、南的客戶服務，以達到Quick Response。 • 公司主旨：提供學術界、業界最新的科技知識與尖端之產品，並提供最好的教育傳遞及服務品質。 • 本公司的服務項目包括： • 軟硬體研究設備銷售與導入 • 軟硬體專業訓練 • 軟硬體諮詢服務 • 系統專案整合等服務等。

公司經歷 • 聯電12吋晶圓廠規劃案 • 中華汽車機器人模擬軟體導入規劃案 • 中華汽車全廠系統模擬導入專案 • 中華汽車數位工廠導入案 • 華邦晶圓廠系統模擬專案 • 大眾電腦林口廠設施佈置評估專案 • 宏碁匈牙利廠設施佈置案 • 緯創資通中山廠設施佈置案 • 日月光設施佈置專案-與成大楊大和老師合作 • 奇美系統模擬設施佈置案

公司經歷 • 世界宗教博物館華嚴世界規劃案 • 力晶半導體系統模擬 • 台灣DELL可靠度導入專案 • 格蘭富系統模擬專案導入 • 台灣高鐵可靠度導入專案 • 智邦可靠度導入專案 • 中國國家衛星氣象中心 • 台灣電力股份有限公司 • 台北翡翠水庫管理局 • 勞工安全衛生研究所 • 另外還有羅技、訊舟、怡利、正文、立碟、啟碁、台灣視訊、冠訊、普立爾、研華、國威、欣技、維熹、佳必琪、技嘉…等等不勝枚舉

公司產品介紹 The Advanced Knowledge Provider

XLSTAT資料處理及統計分析 • XLSTAT-3DPLOT : 將資料以以視覺化之三維(3D)呈現。 • XLSTAT-TIME : 時間數列分析、光譜分析、傅立葉變換, 變數轉換、描述統計、 ARIMA 模型。 • XLSTAT-PLS : 此模組提供運算路徑係數(PLS)回歸解答。 • XLSTAT-MX : 市場行銷認知偏好映射分析(感官資料分析) 以及 GPA。

XLSTAT資料處理及統計分析 • XLSTAT-LIFE : 生存資料分析 (生命表及Kaplan-Meier估計法)。 • XLSTAT-ADA : 進階資料分析(ADA)，提供多重運算表格，可應用到心理學領域到生態學 • XLSTAT-PIVOT : 樞紐分析表(pivot table) • XLSTAT-Dose : 醫藥和化學劑量影響分析。

Neurosolutions物件導向類神經軟體 TanhAxon • Object Oriented Graphical user interface • NeuralWizard、NeuralExpert、TestingWizard • NeuroSolutions for Excel • Code generation, custom components, OLE automation Controller

類神經網路的應用 NeuroSolutions Applications Sample Customer Applications NeuroSolutions can be used to design neural networks to solve many different types of real-world problems. These summaries are just a sample of the wide variety of fields to which NeuroSolutions can be applied. Medicine Social Sciences Psychology Finance Marketing Image Processing Education Management Instrumentation Flow Control Signals Theory Generation

類神經網路的應用 • 神經網路在自動控制中的應用 • 應用類神經於颱風降雨量分析預測(預測) • 翡翠水庫壩體負荷偏移量估算 • 應用類神經網路於風力預測(預測) • 運用類神經於螺旋槳設計之輸出推力估算分析(函數逼近) • 運用類神經在衛星照片進行地表偵測與搜尋辨識(分類) SVMs in NeuroSolutions

In-Place Data Mining / On Line PolyAnalyst • 多策略的資料採礦套裝軟體 • 含有最多的機器學習演算法，分有資料分析及文字採礦等多種演算法 • 結構化的規則處理工具 • 易於使用 • 豐富的資料處理工具與和善的視覺化介面 • 深度整合 • 經由 OLE DB 可將模型應用到外部資料庫 • 可將報表直接輸出成 HTML 檔案

嵌入式類神經網路即時影像/訊號處理開發晶片嵌入式類神經網路即時影像/訊號處理開發晶片

決策分析-Logical Decisions • 可協助評估和排序複雜的方案 • 多屬性決策分析 • 多屬性價值效用理論(Multi Attribute Utility Theory) • 多目標決策分析(Multi-objective decision analysis) • 價值焦點思考(Value-Focused Thinking) • 方案評估法之分析 - 提供五種方案的權重評估 • 權重法評估之分析 - 提供六種複雜的權重評估 • 機率 - 提供六種不同的機率描述 • 成果顯示 - 提供多樣的圖示報表及排序來確認最佳方案的選擇

PolyAnalyst軟體介紹

什麼是資料採礦? • 資料採礦為透過電腦，運用資料分析的技術，破解在大量且隱藏在資料中之前未知，可能有用，或不明顯的資訊 • 目的：用來作為商業目標之預測或商業行為分析，藉以讓企業達到存活的目的。 • 如：破解消費者行為模式，藉此得到先機，以贏得市場 • 目的： • 分析市場型態及規則，並建立出決策模型 • 根據過去歷史資料來預測未來的行為

大量資料 信用卡消費資料：假設每人平均有1.5張信用卡，每月平均消費10筆，該行約有150萬的客戶。就資料量而言，每月約有2,250萬筆消費記錄，每年約有2億7千萬筆消費記錄大量的資料型態或規則客戶的消費型態或規則裏面要有礦! 引用銘傳資工系李御璽老師投影片

資料前處理 PolyAnalyst提供資料前處理功能資料前處理是一個資料採礦的關鍵，因為GIGO。所謂的資料倉儲亦即是資料前處理資料選擇，資料清理，欄位擴充，編碼資料前處理在整個知識發堀過程中，是最重要的，也最花的時間

資料前處理 欄位選擇資料分割資料整合資料清理 Null Value闕漏值資料錯誤 Outlier 欄位擴充(Enrichment) 內/外部資料 • 資料編碼 • 資料轉換(0/1→No/Yes) • 欄位轉換 • 資料精簡 • 記錄精簡(Record Reduction) • 欄位精簡(Attribute Reduction)

PolyAnalyst 6.0演算法 • 節點資料庫-提供更多資料分析機械學習演算法 • 提供文字採礦分析節點，並改善文字檢索方式

演算法介紹

PolyAnalyst演算法參考 分類

Decision Tree Node • This tree is used to help make a decision, otherwise referred to as a prediction or classification. • During analysis which requires classification the Decision Tree is a good candidate algorithm to start exploration of the data. • 決策樹無法處理連續性數值，因此必要時，須先轉換成類別型態 • 演算法由ID3改良而成

Decision Tree介紹

Decision Tree介紹 • 執行Decision Tree之結果

貝氏分類法 • 貝氏分類法主要是採用機率方式進行分類 • 以右邊的範例來說明，例用Age>36以上來區分成兩類，因為我們可以看到當Age>=36時，大都沒有使用Notebook。 • 因此建立貝氏網路，並設定機率 • 總共有23筆資料 • Age>=36共有9筆，小36有14筆 • 所以抽出一個人，他年齡大於等於36以上的機率為9/23 • 當抽到一個人，年齡>=36且已經購買筆記型電腦Yes)的機率為0，未購買的機率為1 • 當抽到一個人年齡小於36，且已購買的機率為6/7，未購買的機率為1/7。

貝氏網路介紹 • 建立貝氏網路 • 設定Age<36，(No)未購買的資料有2筆，(Yes)的資料有12筆 • 設定Age>=37，(No)的資料有9筆，(Yes)的資料有0筆。

貝氏定理 • 根據計算後，可以設定查詢根據貝氏所作之分類之正確率及錯誤率

Neural Network • 載入資料，並將資料分成訓練資料及跟測試資料集 • 建立資料處理流程，並開啟類神經網路，設定目標屬性跟輸入資料屬性

Neural Network • 網路設定 • Number of Layer：隱藏層數量設定為1層 • 第一層隱藏層之神經元數量：5個 • 轉換函數為雙曲函數Sigmoid • 訓練之演算法：RPROP

Neural Network • 訓練次數：300次(內定，可以調整) • 誤差值：當均方差小於設定值則停止 • (以上誤差值若在訓練次數內就達到，系統就會自動停止)

Neural Network 測試結果 • 訓練結果

SVM支持向量機 • 支持向量机是一種監督式學習網路，此神經網路廣泛應用在統統計分類及回歸分析中。此演算法在分類、文字識別，圖形分類有較好的應用。優點是分類效果佳，缺點是訓練時間久。 • SVM is a multi-dimensional classification algorithm that can use Boolean, String, and Numerical values as input.

SVM • 載入一個分類問題，為北美帝王蟹分公母之範例 • 設定性別為分析預測之目標變數

SVM • 分類結果可以透過觀看模糊矩陣，查看分類正確率

SVM測試結果 • 點選開啟Score，可以觀察SVM之測試結果

關聯分析介紹

關聯分析 • 在PolyAnalyst的關聯分析演算法包含了： • Link Chart • Link Analysis • 購物籃分析 • 交易購物籃分析

關聯分析Link Chart • 點選載入職業與工具關聯分析案例 • 運用Link Chart進行2種類別間之關聯分析

關聯分析Link Analysis • 點選載入職業與工具關聯分析案例 • 運用Link Analysis進行項目間之關聯分析

案例介紹展示

影響汽車耗油量因素分析 • 案例介紹： • 在這個案例中，PolyAnalyst 被用來尋找與一輛車子的每加侖行駛英哩數 MPG (miles per gallon) 有關聯的經驗法則特徵 • 內如：描述一輛車子使用一加侖的汽油能夠行駛多少英哩，與這台車子其它的技術參數。被尋找出來的經驗法則能讓人以此預測的數值來比較一台給定車子的 MPG。 • 經過探測並且歸納總結出一些重要的因子關係和不同群組車輛的特徵。 • 資料中包含有下列屬性：MPG 數值、引擎汽缸數(cyl)、排氣量(displ)、加速到每小時一百英哩所需的秒數(accel)、車子出廠年度(year)、車子的出廠國度(origin:USA,Europe,or Japan)，車型的名稱(model)。

案例介紹展示

影響汽車耗油量因素分析 • 案例介紹： • 在這個案例中，PolyAnalyst 被用來尋找與一輛車子的每加侖行駛英哩數 MPG (miles per gallon) 有關聯的經驗法則特徵 • 內如：描述一輛車子使用一加侖的汽油能夠行駛多少英哩，與這台車子其它的技術參數。被尋找出來的經驗法則能讓人以此預測的數值來比較一台給定車子的 MPG。 • 經過探測並且歸納總結出一些重要的因子關係和不同群組車輛的特徵。 • 資料中包含有下列屬性：MPG 數值、引擎汽缸數(cyl)、排氣量(displ)、加速到每小時一百英哩所需的秒數(accel)、車子出廠年度(year)、車子的出廠國度(origin:USA,Europe,or Japan)，車型的名稱(model)。

建立新專案 • 點選File中，選擇New Project…功能，或者點選圖示工具列中之New Project，啟動建立新專案。

建立新專案 • 點選到Study資料夾下，選擇Create，建立新的研究，並設設定名稱為MPG Forecasting。

建立新專案 • 建立之後，會開啟新的專案作業畫面

資料匯入物件

物件使用方式介紹 • 點選CSV物件，將該物件用滑鼠左鍵壓住，拖拉至作業區，再將該物件放下 1 2 3

設定CSV物件 • 點選開啟CSV物件屬性頁 • 選擇Browser，開啟C:\Program Files\Megaputer Intelligence\PolyAnalyst 6.0\Examples\ CarData.csv

PolyAnalyst 6.0 資料採礦介紹

PolyAnalyst 6.0 資料採礦介紹

Presentation Transcript

Mining data with PolyAnalyst

Utilizing Text Analytics in Your VOC Program: Analyzing Verbatims with PolyAnalyst ™