HDFS

HDFS Hadoop Distributed File System

Problem • Chcemyodczytać a następnieprzetworzyć1 TB danych • 1 komputer, 4 dyski, 100Mb/s każdy = 45 min • 10 komputerów, 4 dyski, 100MB/s każdy = 4,5 min • Problemy • Niezawodnośćkomputerów • Wielkośćklastra • Wspólnainfrastruktura (wydajnainiezawodna)

Rozwiązanie - Hadoop • Hadoop Core • Rozproszony system plików • Map/Reduce • Open Source – Apache • Java • Środowiska: Linux, Windows, OS X, Solaris • Start w 2004

“Moving Computation is Cheaper than Moving Data”

HDFS • Zarządzaneprzezjedenwęzeł – transmisja z wieloma • Plikisądzielone • Transparentnie • Typowawielkośćbloków 64 MB (4KB Unix) • Replikowane • Wręczliniowaskalowalność • Dostęppoprzez Java, C, liniękomend • Działanaistniejącymsystemieplików (ext3, ext4, XFS) • Google GFS

Typywęzłów • HDFS • NameNode • DataNode • Map/Reduce • JobTracker • TaskTracker

NameNode • Tylkojeden w klastrze • Utrzymujeinformacje o systemieplików • Single Point of Failure • Dane trzymane w pamięci RAM • Liczbaplików w klastrzeograniczonawielkośćiąpamięci RAM • Secondary NameNode – przechowujekopięmetadanych

DataNode • Wiele w klastrze • Zarządzablokamidanych • Obsługujeklienta • Okresowowysyłazawartośćwęzła do NameNode

Architektura

Block Placement • Domyślnie 3 repliki • Umiejscowienie (Rack Awareness) • Na tymsamymwęźle • W innejszafie • W jeszczeinnejszafie • Dane czytanesą z najbliższegomiejsca • Re-replikacja

Block Placement

Poprawnośćdanych • CRC32 • Tworzeniepliku • Suma kontrolnanakażde 512 bajtów – generowaneprzezklienta • PrzechowywanenaDataNode • Odczytpliku • Dane isumakontrolnaprzesyłana do klienta I weryfikowana • OkresowawalidacjaprzezDataNode

Web UI • NameNode • DataNode • JobTracker

Bonus • Import Checkpoint • Rebalancer • Rack Awareness • Safemode • Fsck • Recovery Mode • Upgrade and rollback • File permissions and security • Scalability • Synthetic Load Generator • WebHDFS REST API

Ktokorzysta • Amazon • Adobe • Alibaba • eBay • Facebook • IBM • Last.fm • LinkedIn • Powerset / Microsoft • Yahoo – 40 tys. Komputerów, 4500 węzłów

A w praktyce…

HDFS

HDFS

Presentation Transcript

HDFS/GFS

HDFS and S3 plugins

HDFS & MapReduce

Vertica to HDFS Capstone Project

Hadoop&HDFS

HDFS: Hadoop Distributed FS

Green HDFS

Graduate Study in HDFS

HDFS 监控维护

Welcome to HDFS 221!

HDFS 361—Research Methods

HADOOP (HDFS)

Graduate Study in HDFS

HDFS & MapReduce

HDFS - Hadoop Overview 2-

HDFS Hadoop Distributed File System

Cloud Computing GFS and HDFS

Process of Hive in HDFS

HDFS 361—Research Methods

HDFS Yarn Architecture

HDFS

HDFS

Presentation Transcript

HDFS/GFS

HDFS and S3 plugins

HDFS &amp; MapReduce

Vertica to HDFS Capstone Project

Hadoop&amp;HDFS

HDFS: Hadoop Distributed FS

Green HDFS

Graduate Study in HDFS

HDFS 监控 维护

Welcome to HDFS 221!

HDFS 361—Research Methods

HADOOP (HDFS)

Graduate Study in HDFS

HDFS &amp; MapReduce

HDFS - Hadoop Overview 2-

HDFS Hadoop Distributed File System

Cloud Computing GFS and HDFS

Process of Hive in HDFS

HDFS 361—Research Methods

HDFS Yarn Architecture

HDFS & MapReduce

Hadoop&HDFS

HDFS 监控维护

HDFS & MapReduce