以 Hadoop 叢集運算建置旅遊新聞巨量資料加值應用

以Hadoop叢集運算建置旅遊新聞巨量資料加值應用以Hadoop叢集運算建置旅遊新聞巨量資料加值應用指導教授:陳弘明、陳世穎報告者：謝翔倫

目錄 • 前言 • 相關研究 • Hadoop • HDFS • MapReduce • HBase • 研究方法 • 系統架構 • 系統環境 • 子系統介紹 • 實驗結果 • 結論 • 未來展望

前言(1/2) • 大台灣旅遊網具備完整、豐富且具深度之台灣觀光旅遊資訊 • 10年多下來累積超過20萬筆觀光旅遊資訊 • 缺乏統計分析數據，讓管理者進行決策參考 • 傳統的資料處理方式無法負荷如此巨量的資料處理

前言(2/2) • 因上述需求和問題，透過本研究 • 利用巨量儲存技術，解決傳統資料庫無法處理的企業問題 • 使用資料平行化處理技術，使其在執行相關分析、統計與資料挖掘等技術時，能加速處理

相關研究(1/5)- Hadoop • 雲端運算平台 • Apache 開放原始碼專案 • 整合相關子架構 • HDFS、MapReduce、HBase等 • 使用JAVA開發 • 可執行在由一般PC所架設的叢集環境

相關研究(2/5)- HDFS • Hadoop分散式檔案系統 • Hadoop Distributed File System(HDFS) • 為主從式架構 • 一個目錄節點(Name Node)與數個資料節點(Data Nodes) • Name Node • 存放文件的訊息(如檔名、路徑、副本數量) • Data Nodes • 存放文件本身的資料(被分割成多個區塊) • 資料存取特性 • Write-once-read-many 存取模式

相關技術(3/5)-HDFS DataNode DataNode DataNode NameNode File: /Tranews/tnews_all.csv ─ copies:1， blocks:{1,3,4,6,7} File :/users/input/myFile ─ copies:3, blocks:{2,5} 1 3 2 5 6 7 5 2 4 2 5

相關研究(4/5)-MapReduce • MapReduce是由 Google 所引進的軟體框架 • 使用者僅需專注於定義Map與Reduce函數 Map 階段 Reduce 階段 Sort / copy Input Output 0 Map function Reduce function Merge Split 0 Map function Reduce function Merge Output 1 Split 1

相關研究(5/5)-HBase • NoSQL的儲存系統 • 類似表格的資料結構 • 分散式資料庫 • 儲存結構上每個紀錄單元可分為 • RowKey(類似主鍵) • ColumnFamily:Qualifier(表格群組與單一欄位) • Value • TimeStamp(時間戳記) • 以HDFS為基礎 • 可提供HadoopMapReduc程式設計

研究方法-系統架構

研究方法-系統環境 • 1個Master與3個Slaves • 硬體：Intel X86 Compatible Server Platform. • OS：Linux Ubuntu-12.04版以上(含) • Web Server：Apache Server 1.3.x版以上(含) • 網頁應用程式：PHP開發 • Database：Hbase-0.94.0 • Hadoop版本1.0.3 • Mapper數量：6 • Reducer數量：6 • 區塊大小：64 MB • 最低複本數量：3

研究方法-子系統介紹 • 巨量資料原型子系統 • 透過本子系統建置各原型模組 • Hadoop各項參數為上述之規格

研究方法-子系統介紹 • 巨量資料儲存子系統 • 使用HBase作為儲存系統 • 其模組流程圖為 • 主要儲存三項HBase表格 • 原始資料表 • 分析結果資料表 • 提供查詢資料表 Raw Data 資料擷取模組資料轉換模組 HBase 儲存系統資料傳輸模組前端網頁瀏覽

研究方法-子系統介紹 • 巨量資料分析子系統 • 使用MapReduce作為分析巨量資料之主要技術 • 其模組流程圖為 • 主要功能 • 使用WiKi之台灣各地旅遊景點為關鍵字 • 對旅遊文章進行全文檢索以及關鍵字標記 • 對旅遊文章進行關鍵字統計 HBase 原始表格巨量資料平行處理模組 HBase 分析結果表格資料傳輸模組前端網頁瀏覽

實驗結果 • 全文檢索及關鍵字標記

實驗結果 • 關鍵字統計

實驗結果 • 原文比較

實驗結果 • 文章關鍵字排名

結論 • 本研究透過開放式原始碼Hadoop平台建構以MapReduce軟體架構處理巨量資料分析之系統 • 提供使用者針對熱門關鍵字進行文章推薦之加值服務 • 提供使用者針對文章內的關鍵字進行相關文章之推薦服務 • 根據統計出來的熱門景點變化做出景點分析提供更精確的旅遊分析資訊

未來展望 • 透過旅遊網站後台連線紀錄掌握使用者的需求 • 瀏覽行為 • 喜好關聯性分析 • 了解使用者主要瀏覽的類型、主題 • 未來本系統不只應用在旅遊市場上面，有可能會結合其他不同種類型的巨量資料，去開闢及尋找不同的新市場和新方向。

THANK YOU FOR YOUR LISTENING

Write-once-read-many • 避免因資料改寫而造成大量的更改時間 • 更改該文件分散在檔案系統中的所有Block

以 Hadoop 叢集運算建置旅遊新聞巨量資料加值應用