hadoop n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
以 Hadoop 叢集運算建置旅遊新聞巨量資料加值應用 PowerPoint Presentation
Download Presentation
以 Hadoop 叢集運算建置旅遊新聞巨量資料加值應用

Loading in 2 Seconds...

play fullscreen
1 / 22

以 Hadoop 叢集運算建置旅遊新聞巨量資料加值應用 - PowerPoint PPT Presentation


  • 125 Views
  • Uploaded on

以 Hadoop 叢集運算建置旅遊新聞巨量資料加值應用. 指導教授 : 陳弘明、陳世穎 報告者:謝翔倫. 目錄. 前言 相關研究 Hadoop HDFS MapReduce HBase 研究方法 系統架構 系統環境 子系統介紹 實驗結果 結論 未來展望. 前言 (1/2). 大台灣旅遊網具備完整、豐富且具深度之台灣觀光旅遊資訊 10 年多下來累積超過 20 萬筆觀光旅遊資訊 缺乏統計分析數據,讓管理者進行決策參考 傳統的資料處理方式無法負荷如此巨量的資料處理. 前言 (2/2). 因上述需求和問題, 透過本研究

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '以 Hadoop 叢集運算建置旅遊新聞巨量資料加值應用' - cheryl-christensen


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
hadoop

以Hadoop叢集運算建置旅遊新聞巨量資料加值應用以Hadoop叢集運算建置旅遊新聞巨量資料加值應用

指導教授:陳弘明、陳世穎

報告者:謝翔倫

slide2
目錄
  • 前言
  • 相關研究
    • Hadoop
    • HDFS
    • MapReduce
    • HBase
  • 研究方法
    • 系統架構
    • 系統環境
    • 子系統介紹
  • 實驗結果
  • 結論
  • 未來展望
slide3
前言(1/2)
  • 大台灣旅遊網具備完整、豐富且具深度之台灣觀光旅遊資訊
    • 10年多下來累積超過20萬筆觀光旅遊資訊
  • 缺乏統計分析數據,讓管理者進行決策參考
  • 傳統的資料處理方式無法負荷如此巨量的資料處理
slide4
前言(2/2)
  • 因上述需求和問題,透過本研究
    • 利用巨量儲存技術,解決傳統資料庫無法處理的企業問題
    • 使用資料平行化處理技術,使其在執行相關分析、統計與資料挖掘等技術時,能加速處理
1 5 hadoop
相關研究(1/5)- Hadoop
  • 雲端運算平台
  • Apache 開放原始碼專案
  • 整合相關子架構
    • HDFS、MapReduce、HBase等
  • 使用JAVA開發
  • 可執行在由一般PC所架設的叢集環境
2 5 hdfs
相關研究(2/5)- HDFS
  • Hadoop分散式檔案系統
    • Hadoop Distributed File System(HDFS)
  • 為主從式架構
    • 一個目錄節點(Name Node)與數個資料節點(Data Nodes)
  • Name Node
    • 存放文件的訊息(如檔名、路徑、副本數量)
  • Data Nodes
    • 存放文件本身的資料(被分割成多個區塊)
  • 資料存取特性
    • Write-once-read-many 存取模式
3 5 hdfs
相關技術(3/5)-HDFS

DataNode

DataNode

DataNode

NameNode

File: /Tranews/tnews_all.csv ─ copies:1, blocks:{1,3,4,6,7}

File :/users/input/myFile ─ copies:3, blocks:{2,5}

1

3

2

5

6

7

5

2

4

2

5

4 5 mapreduce
相關研究(4/5)-MapReduce
  • MapReduce是由 Google 所引進的軟體框架
  • 使用者僅需專注於定義Map與Reduce函數

Map 階段

Reduce 階段

Sort / copy

Input

Output 0

Map

function

Reduce

function

Merge

Split 0

Map

function

Reduce

function

Merge

Output 1

Split 1

5 5 hbase
相關研究(5/5)-HBase
  • NoSQL的儲存系統
    • 類似表格的資料結構
    • 分散式資料庫
  • 儲存結構上每個紀錄單元可分為
    • RowKey(類似主鍵)
    • ColumnFamily:Qualifier(表格群組與單一欄位)
    • Value
    • TimeStamp(時間戳記)
  • 以HDFS為基礎
  • 可提供HadoopMapReduc程式設計
slide11
研究方法-系統環境
  • 1個Master與3個Slaves
    • 硬體:Intel X86 Compatible Server Platform.
    • OS:Linux Ubuntu-12.04版以上(含)
    • Web Server:Apache Server 1.3.x版以上(含)
    • 網頁應用程式:PHP開發
    • Database:Hbase-0.94.0
  • Hadoop版本1.0.3
    • Mapper數量:6
    • Reducer數量:6
    • 區塊大小:64 MB
    • 最低複本數量:3
slide12
研究方法-子系統介紹
  • 巨量資料原型子系統
    • 透過本子系統建置各原型模組
    • Hadoop各項參數為上述之規格
slide13
研究方法-子系統介紹
  • 巨量資料儲存子系統
    • 使用HBase作為儲存系統
    • 其模組流程圖為
    • 主要儲存三項HBase表格
      • 原始資料表
      • 分析結果資料表
      • 提供查詢資料表

Raw Data

資料擷取

模組

資料轉換

模組

HBase

儲存系統

資料傳輸

模組

前端網頁

瀏覽

slide14
研究方法-子系統介紹
  • 巨量資料分析子系統
    • 使用MapReduce作為分析巨量資料之主要技術
    • 其模組流程圖為
    • 主要功能
      • 使用WiKi之台灣各地旅遊景點為關鍵字
      • 對旅遊文章進行全文檢索以及關鍵字標記
      • 對旅遊文章進行關鍵字統計

HBase

原始表格

巨量資料平行處理模組

HBase

分析結果表格

資料傳輸

模組

前端網頁

瀏覽

slide15
實驗結果
  • 全文檢索及關鍵字標記
slide16
實驗結果
  • 關鍵字統計
slide17
實驗結果
  • 原文比較
slide18
實驗結果
  • 文章關鍵字排名
slide19
結論
  • 本研究透過開放式原始碼Hadoop平台建構以MapReduce軟體架構處理巨量資料分析之系統
  • 提供使用者針對熱門關鍵字進行文章推薦之加值服務
  • 提供使用者針對文章內的關鍵字進行相關文章之推薦服務
  • 根據統計出來的熱門景點變化做出景點分析提供更精確的旅遊分析資訊
slide20
未來展望
  • 透過旅遊網站後台連線紀錄掌握使用者的需求
    • 瀏覽行為
    • 喜好關聯性分析
    • 了解使用者主要瀏覽的類型、主題
  • 未來本系統不只應用在旅遊市場上面,有可能會結合其他不同種類型的巨量資料,去開闢及尋找不同的新市場和新方向。
write once read many
Write-once-read-many
  • 避免因資料改寫而造成大量的更改時間
    • 更改該文件分散在檔案系統中的所有Block