1 / 17

HDFS

HDFS. Hadoop Distributed File System. Problem. Chcemy odczytać a następnie przetworzyć 1 TB danych 1 komputer , 4 dyski , 100Mb/s każdy = 45 min 10 komputerów , 4 dyski , 100MB/s każdy = 4,5 min Problemy Niezawodność komputerów Wielkość klastra

Download Presentation

HDFS

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. HDFS Hadoop Distributed File System

  2. Problem • Chcemyodczytać a następnieprzetworzyć1 TB danych • 1 komputer, 4 dyski, 100Mb/s każdy = 45 min • 10 komputerów, 4 dyski, 100MB/s każdy = 4,5 min • Problemy • Niezawodnośćkomputerów • Wielkośćklastra • Wspólnainfrastruktura (wydajnainiezawodna)

  3. Rozwiązanie - Hadoop • Hadoop Core • Rozproszony system plików • Map/Reduce • Open Source – Apache • Java • Środowiska: Linux, Windows, OS X, Solaris • Start w 2004

  4. “Moving Computation is Cheaper than Moving Data”

  5. HDFS • Zarządzaneprzezjedenwęzeł – transmisja z wieloma • Plikisądzielone • Transparentnie • Typowawielkośćbloków 64 MB (4KB Unix) • Replikowane • Wręczliniowaskalowalność • Dostęppoprzez Java, C, liniękomend • Działanaistniejącymsystemieplików (ext3, ext4, XFS) • Google GFS

  6. Typywęzłów • HDFS • NameNode • DataNode • Map/Reduce • JobTracker • TaskTracker

  7. NameNode • Tylkojeden w klastrze • Utrzymujeinformacje o systemieplików • Single Point of Failure • Dane trzymane w pamięci RAM • Liczbaplików w klastrzeograniczonawielkośćiąpamięci RAM • Secondary NameNode – przechowujekopięmetadanych

  8. DataNode • Wiele w klastrze • Zarządzablokamidanych • Obsługujeklienta • Okresowowysyłazawartośćwęzła do NameNode

  9. Architektura

  10. Block Placement • Domyślnie 3 repliki • Umiejscowienie (Rack Awareness) • Na tymsamymwęźle • W innejszafie • W jeszczeinnejszafie • Dane czytanesą z najbliższegomiejsca • Re-replikacja

  11. Block Placement

  12. Block Placement

  13. Poprawnośćdanych • CRC32 • Tworzeniepliku • Suma kontrolnanakażde 512 bajtów – generowaneprzezklienta • PrzechowywanenaDataNode • Odczytpliku • Dane isumakontrolnaprzesyłana do klienta I weryfikowana • OkresowawalidacjaprzezDataNode

  14. Web UI • NameNode • DataNode • JobTracker

  15. Bonus • Import Checkpoint • Rebalancer • Rack Awareness • Safemode • Fsck • Recovery Mode • Upgrade and rollback • File permissions and security • Scalability • Synthetic Load Generator • WebHDFS REST API

  16. Ktokorzysta • Amazon • Adobe • Alibaba • eBay • Facebook • IBM • Last.fm • LinkedIn • Powerset / Microsoft • Yahoo – 40 tys. Komputerów, 4500 węzłów

  17. A w praktyce…

More Related