Hadoop

http://hpds.ee.kuas.edu.tw/ Hadoop Presenter:Billy

Outline Hadoop 簡介 Hadoop-HDFS Hadoop-MapReduce

Hadoop 簡介 Define: A framework that allows for the distributed processing of large data sets across clusters of computers using a simple programming model. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-avaiability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-availabile service on top of a cluster of computers, each of which may be prone to failures.

Feature 以Java開發自由軟體上千個節點 Petabyte等級的資料量創始者 Doug Cutting 為Apache 軟體基金會的 top level project

Feature(conf.) • 巨量 • 擁有儲存與處理大量資料的能力 • 經濟 • 可以用在由一般PC所架設的叢集環境內 • 效率 • 籍由平行分散檔案的處理以致得到快速的回應 • 可靠 • 當某節點發生錯誤，系統能即時自動的取得備份資料以及佈署運算資源

起源：Google論文 • Google’s GFS & MapReduce papers published: • SOSP 2003 : “The Google File System” • OSDI 2004 : “MapReduce : Simplifed Data Processing on Large Cluster” • OSDI 2006 : “Bigtable: A Distributed Storage System for Structured Data” • directly address Nutch's scaling issues

Hadoop Project Avro: A data serialization system. Cassandra: A scalable multi-master database with no single points of failure. Chukwa: A data collection system for managing large distributed systems. HBase: A scalable, distributed database that supports data storage for large tables. Hive: A data warehouse infrastructure that provides data summarization and ad hoc querying. Mahout: A Scalable machine learning and data mining library. Pig: A high-level data-flow language and execution framework for parallel computation. ZooKeeper: A high-performance coordination service for distributed applications.

Hadoop 名詞解釋 Job 任務 Task 小工作 JobTracker 任務分派者 TaskTracker 小工作的執行者 Client 發起任務的客戶端 Map 應對 Reduce 總和 Namenode 名稱節點 Datanode 資料節點 Namespace 名稱空間 Replication 副本 Blocks 檔案區塊 (64M) Metadata 屬性資料

Hadoop 主要架構

Master 管理HDFS的名稱空間控制對檔案的讀/寫配置副本策略對名稱空間作檢查及紀錄 Hadoop 資料的管理 Namenode Datanode • Workers • 執行讀/寫動作 • 執行Namenode的副本策略

Hadoop 分派程序 Master 使用者發起工作指派工作給Tasktrackers 排程決策、工作分配、錯誤處理 Jobtracker Tasktrackers • Workers • 運作Map 與 Reduce 的工作 • 管理儲存、回覆運算結果

Hadoop Hadoop Namenode JobTracker Data Task Data Task Data Task Java Java Java Linuux Linuux Linuux Node2 Node3 12 Node1

Client 互動

HDFS- Hadoop Distributed File System

HDFS: 開發動機 • 基於 Google File System (GFS) • 用便宜而不可靠的電腦,打造互為備援的儲存媒介,拿來存放海量資料。 • 為何不使用現存的檔案系統呢? 不同的工作負載與設計優先權須處理比其他檔案系統還要更大的資料集

基本假設 高單元故障率便宜的個人電腦商品總是容易故障海量檔案的『客觀』參考數字就只是幾百萬個檔案而已... 每個大小約100MB或更大; 通常以數GB的檔案最常見這些檔案都只寫一次(write-once),多數是附加(append) 大量的串流讀取需求持續而大量的資料通量(throughput)遠比較短的反應延遲( latency)來得重要

HDFS 設計準則 檔案以區塊(block)方式儲存每個區塊大小遠比多數檔案系統都來得大(預設值為64MB) 透過複本機制來提高可靠度每個區塊至少備分到三台以上的DataNode 單一master (NameNode) 來協調存取及屬性資(metadata) 簡易的集中控管機制沒有資料快取機制(No data caching) 快取對於大資料集與串流讀取沒太大幫助熟悉的介面,但客制化的API 簡化問題;專注於分散式應用

管理資料

HDFS 運作 Namenode (the master) 檔案路徑– 副本數, 由哪幾個block組成 name:/users/joeYahoo/myFile - copies:2, blocks:{1,3} name:/users/bobYahoo/someData.gzip, copies:3, blocks:{2,4,5} Metadata I/O Client Datanodes (the slaves) 2 1 1 4 2 5 2 3 4 3 4 5 5

目的：提高系統的可靠性與讀取的效率 可靠性：節點失效時讀取副本已維持正常運作讀取效率：分散讀取流量（但增加寫入時效能瓶頸） HDFS 運作(conf.) HDFS運作方式？ Namenode JobTracker file1 (1,3) file2 (2,4,5) Map tasks Reduce tasks TaskTracker TT ask for task Block 1 TT 2 TT TT 1 1 2 5 4 2 TT 3 TT 4 3 4 5 5

HDFS的可靠性 資料完整性 checked with CRC32 用副本取代出錯資料 Heartbeat Datanode 定期向Namenode送heartbeat Metadata FSImage、Editlog為核心印象檔及日誌檔多份儲存，當NameNode壞掉可以手動復原常見的三種錯誤狀況資料崩毀網路或資料節點失效名稱節點錯誤

系統流程圖

Map Reduce

MapReduce MapReduce is a framework for computing certain kinds of distributable problems using a large number of computers (nodes), collectively referred to as a cluster.

Map Reduce 概念 • Functional Programming : Map Reduce • map(...) : • [ 1,2,3,4 ] – (*2) -> [ 2,4,6,8 ] • reduce(...): • [ 1,2,3,4 ] - (sum) -> 10 • 演算法（Algorithms）： • Divide and Conquer • 分而治之 • 在程式設計的軟體架構內，適合使用在大規模數據的運算中 25

MapReduce運作流程 split 0 split 1 split 2 split 3 split 4 input HDFS map output HDFS sort/copy merge reduce part0 map reduce part1 map JobTracker跟NameNode取得需要運算的blocks JobTracker選數個TaskTracker來作Map運算，產生些中間檔案 JobTracker將中間檔案整合排序後，複製到需要的TaskTracker去 JobTracker派遣TaskTracker作reduce reduce完後通知JobTracker與Namenode以產生output 26

Map Input key1 val Output key2 val key1 val … … Select Key Reduce Input key1 val val …. val Output key values MapReduce <Key,Value> Row Data Map Reduce 27

MapReduce 單台 28

MapReduce in Parallel 29

a,2 also,1 am,1 are,1 I,1 am,1 a,1 a, 1 a,1 also,1 am,1 are,1 I,1 tiger,1 tiger,1 you,1 tiger,1 you,1 are,1 I, 1 tiger,2 you,1 also,1 a, 1 tiger,1 示範 I am a tiger, you are also a tiger a,2 also,1 am,1 are,1 I,1 tiger,2 you,1 map reduce map reduce map JobTracker先選了三個Tracker做map Map結束後，hadoop進行中間資料的整理與排序 JobTracker再選兩個TaskTracker作reduce 30

http://hpds.ee.kuas.edu.tw/ Thank You !

Hadoop

Hadoop

Presentation Transcript

Hadoop

Hadoop

Hadoop

Hadoop , Hadoop , Hadoop !!!

Hadoop

Hadoop @

Cassandra + Hadoop

Hadoop Demo

Hola Hadoop

Hadoop

Hadoop Házi

HADOOP

Hadoop

Hadoop

Hadoop

Hadoop

Hadoop

Hadoop

Hadoop

Hadoop

HADOOP

Hadoop