Grid Datafarm for a HEP application

SC2002 High-Performance Bandwidth Challenge Grid Datafarm for a HEP application Osamu Tatebe (Grid Technology Research Center, AIST) Satoshi Sekiguchi(AIST), Youhei Morita (KEK), Satoshi Matsuoka (Titech & NII), Kento Aida (Titech), Donald F. (Rick) McMullen (Indiana), Philip Papadopoulos (SDSC) Data Grid ミニワークショップ国立天文台＠三鷹 2002年12月11日

SC2002 high-performance bandwidth challenge • demonstrate exciting applications at the maximum possible speed

Bandwidth Challenge!!!! Overview of Our Challenge • Seven clusters in US and Japan comprise a cluster-of-cluster file system: Gfarm file system • The FADS/Goofy simulation code based on the Geant4 toolkit simulates the ATLAS detector and generates hits collection (a terabyte of raw data) in the Gfarm file system • The Gfarm file system replicates data across the clusters

一ヶ所に保存すると 保存箇所以外からの書き込み・読み出しに時間がかかる災害時などにデータが失われたり、アクセスできなくなったりするグリッド技術（グリッドデータファーム）を用いたテラバイト（１兆文字）クラスの大規模データ • 分けて別々に保存すると • 別々の管理単位になり、管理、アクセスが大変 • 手元にないデータへの読み書きは時間がかかる • 災害時などには部分的にデータが失われたり、アクセスできなくなったりする

グリッドデータファームを使うと • 複数分散ディスクによりファイルシステムを構成 • 分散して書き込まれた複数ファイルを一つのファイルとして扱える • 部分的な複製ができる • 複数の複製により障害に備える • データがある場所でそのデータを高速処理するバルチモアつくば東京インディアナサンディエゴ

Target Application at SC2002: FADS/Goofy • Monte Carlo Simulation Framework with Geant4 (C++) • FADS/Goofy: Framework for ATLAS/Autonomous Detector Simulation / Geant4-based Object-oriented Folly http://atlas.web.cern.ch/Atlas/GROUPS/SOFTWARE/OO/domains/simulation/ • Modular I/O package selection:Objectivity/DB and/or ROOT I/Oon top of Gfarm filesystemwith good scalability • CPU intensive event simulationwith high speed file replicationand/or distribution

Network and cluster configuration for SC2002 Bandwidth Challenge OC-12 Indiana Univ. Indianapolis GigaPoP Tsukuba WAN 1 Gbps OC-12 POS SC2002, Baltimore PNWG AIST Tokyo NOC 10 GE APAN/TransPAC Grid Cluster Federation Booth SCinet 10 GE E1200 OC-12 ATM (271Mbps) StarLight Titech GbE SuperSINET NII-ESnet HEP PVC OC-12 ICEPP KEK ESnet NOC SDSC GbE 20 Mbps US Japan SC会場とのデータ転送の理論総バンド幅 2.1 Gbps KEK Titech AIST ICEPP SDSC Indiana U SC2002 Total disk capacity: 18 TB, disk I/O bandwidth: 6 GB/s

SC2002 バンド幅チャレンジ 2.3 Gbps! 日米間通信 741Mbps 複数経路を同時利用世界初！実証実験:複製インディアナ大産総研つくばつくばWAN MAFFIN 10Gbps 1Gbps 622Mbps 622Mbps 大手町シアトル米国内網 SC2002 会場 KEK 271Mbps シカゴ 10Gbps 20Mbps 622Mbps 1Gbps 1Gbps サンディエゴ SDSC 東工大東大バルチモア

SC会場 GbEで接続された12ノードのPCクラスタをForce10 E1200で10GEでSCinetに接続 LANにおける性能ネットワークバンド幅は930Mbps ファイル転送性能は75MB/s(=629Mbps) AIST 同等の7ノードのクラスタ。GbEでつくばWAN、Maffinを経て東京XPに接続 Indiana大 FEで接続された15ノードのクラスタ。OC12でIndianapolis GigaPoPに接続 SDSC GbEで接続された8ノードのクラスタ。OC12で外部接続 TransPACの南北ルートのルーティングデフォルトは北ルート SC会場、AISTのそれぞれ3ノードについて南ルートを通るよう東京XP、Maffinで設定 AIST、SC会場間のRTT: 北ルート 199ms、南ルート 222ms 南ルートは271Mbpsにシェーピング GbE PC E1200 OC192 10GE SCinet 12 ノード PC ネットワーク、クラスタ構成の特徴 SC2002会場のネットワーク構成

大きな遅延 RTT: 北回り 199ミリ秒、南回り 222ミリ秒 socket buffer size の拡大複数ストリーム、ネットワークストライピングパケットロスによる window size の限界 High Speed TCP(HSTCP, net100）の利用 Sally Floyd の Internet Draft 輻輳ウィンドウの早期復帰過大な window size によるパケットロスの増大小さな socket buffer で複数のストリームを利用ディスク性能の限界複数のストリームによる並列ディスクアクセスストライピング・アクセス適切なストライプ・サイズの選択複数ホストへの分割 gfarm –断片化されたファイルノード数が少ないため、必要バンド幅を達成するために必要最小限のノードを利用、単体性能の向上 1ノードあたり平均200Mbps! ネットワークの理論性能近くを達成するためには、全ルートのデバグが必要。（皆様お手数をおかけしました）ルータごとのパケットロス率、 Abileneカンザスシティ、デンバー間のパケットロス修正北ルート米国方向で35Mbpsから500Mbps強に大改善！ TransPAC南ルート（OC-12 ATM)のセルロス解決できず。271MbpsにシェープしたPVCを利用転送可能なレートを超えて送信すると急激に性能低下送信バッファサイズによる制御送信間隔による制御ネットワーク転送のみ：250Mbps程度、ファイル転送：170Mbps程度シェーピングをはずして、アプリケーションで転送レートを制御しても改善せず HSTCPおよびnet100パッチによる複数TCPストリームのバンド幅不均衡単一ストリームのバンド幅が過大にならないよう転送レート制御が必要ネットワーク性能とファイル転送性能の性能差 Incomingとoutgoingストリームの性能は必ずしも輪にならない片方向だけよりも劣化する場合も APAN/TransPAC における詳細な測定モニタの必要性 1分平均値 → 10秒、1秒、1/10秒平均が必要 Lessons from the Challenge 64KB/0.2sec = 2.62Mbps 200ms 64KB 700Mbpsを達成するには280台（ストリーム）必要、これを4台で達成チャレンジ Lessons

IperfによるTransPAC性能評価 北ルート 10-sec average bandwidth 南ルート SC会場から南北両ルートに対し、北ルート2ノード、南ルート3ノードの計10ノードを利用して 753Mbps(10秒平均)を達成（理論ピーク性能：622+271=893Mbps） 5-min average bandwidth

IperfによるSC会場とのバンド幅測定（1分平均）IperfによるSC会場とのバンド幅測定（1分平均） TransPAC北 SDSC インディアナ大 TransPAC南 TransPACのバンド幅は測定時の状況により大幅に変化米国内Abileneのパケットロス障害による

日米間のグリッド実験 産経新聞12月1日日経産業新聞11月22日日本経済新聞11月21日夕刊読売新聞11月21日夕刊米国4ノード、日本4ノード、ファイル転送で 741 Mbps達成！（10秒平均）

TransPACにおけるファイル転送の設定と結果

SC会場とIndianaおよびSDSCのファイル複製性能

Bandwidth Measurement Result 1-sec average bandwidth 10-sec average bandwidth 0.1-sec average bandwidth We achieved 2.3 Gbps using 12 nodes! (outgoing 1.7 Gbps, incoming 0.6 Gps)

Special thanks to • Rick McMullen, John Hicks (Indiana Univ, PRAGMA) • Phillip Papadopoulos (SDSC, PRAGMA) • Hisashi Eguchi (Maffin) • Kazunori Konishi, Yoshinori Kitatsuji, Ayumu Kubota (APAN) • Chris Robb (Indiana Univ, Abilene) • Force 10 Networks, Inc

Grid Datafarm for a HEP application

Grid Datafarm for a HEP application

Presentation Transcript

Drug Discovery Grid -- A real grid application

Grid Canada Testbed using HEP applications

Drug Discovery Grid -- A real grid application

Grid Datafarm and File System Services

SC2003 High-Performance Bandwidth Challenge Participant Trans-Pacific Grid Datafarm

Grid Datafarm Architecture for Petascale Data Intensive Computing

Hungarian HEP-related GRID activities

GridX1: A Canadian Computational Grid for HEP Applications

Interactive European Grid Environment for HEP Application with Real Time Requirements

UK HEP Grid Deployment

( HEP ) GRID Activities in Hungary

A Grid Parallel Application Framework

HEP GRID computing in Poland

The German HEP Community Grid

HEP Data Grid in Japan

Challenges and Success of HEP GRID

Worldwide File Replication on Grid Datafarm

Overview of UK HEP Grid

Grid Application

Worldwide File Replication on Grid Datafarm

HEP grid computing in Portugal