グリッド技術を利用した大規模計算機システムの構築

グリッド技術を利用した大規模計算機システムの構築グリッド技術を利用した大規模計算機システムの構築東大素粒子物理国際研究センター松永浩之、磯部忠昭、小林富雄、坂本宏、真下哲郎、松井長隆、森下可奈子

Worldwide LHC Computing Grid • LHC実験では、データ量がかつてないほど多いので、 CERNだけでデータの保管や処理を行うことが不可能 • Raw データの量だけで >3PB/year • Worldwide LHC Computing Grid (WLCG) • LHCの実験に必要な計算機資源を確保し、Grid middleware の開発・配備を行う • WLCG においても、仮想組織（VO: Virtual Organization) ごとに使用・運用方法は少しずつ異なる　（VO は各実験に対応：ATLAS VO など） • WLCGサイト間の連携や、サイトでのソフトウェアのインストール方法など

地域解析センター • 東大素粒子センターに、日本におけるアトラス実験のデータ解析の拠点として、「地域解析センター」を設置 • 地域解析センターでは、WLCGとして使用する資源とそれ以外 (非WLCG) の資源に区別して運用 • WLCGでは ATLAS VO のみサポート • 非WLCG 分は、ATLAS日本グループが独占して使用 • ただし、WLCG に提供しているストレージ（ディスク）は、非WLCG の計算機からもアクセス可能なように設計 • WLCG で使用されている三種類の Grid middleware のうち、ヨーロッパを中心に開発されている gLite を用いて、WLCG のサイト (TOKYO-LCG2) を構築・運用

計算資源 • 昨年から本システム設置 • 計算サーバー： 650 ノード x 4 コア • 120 ノードを gLite の Worker Node として使用　(~1000kSI2k) • また、一部は gLite “Head Node” として使用 • ディスクアレイ：１４０台 • １台に 500GB x 16 HDD、RAID-6 で使用 • ３０台 (~190TB) を WLCG に提供 • 近く６５台 (~400TB) まで追加予定 • テープライブラリ：８０００本 • LTO-3 (400GB/本)

Tape Robot PC Servers Disk Arrays Disk Arrays ~270 m2

WLCG サイト構成 • CE (Computing Element) + WN • Torque + Maui の batch system • Fair share、Priority (Production、software インストール） • （将来 WN 数が増加した場合） LSF への移行も検討 • WN は、8GB memory (2GB/core)、~40GB working disk space (10GB/core) • SE (Storage Element) • DPM (Disk Pool Manager) で構築 • CERN の Castor から派生（テープはなし） • rfio、name server (MySQL based) • データ転送は gridFTP • xrootd の動作も可能 • rfio などにより、（非LCG 上のノードの）ジョブから直接ファイルをアクセス可能 • SRM (Storage Resource Manager) プロトコル対応 • 実験からの機能要求、異なる実装に対する interoperability • Information System (BDII、Globus MDS)、LFC File Catalog、Resource Broker、User Interface、Monitoring/Accounting など

SE の構築 • １台のファイルサーバーに５台のディスクアレイ (~6TB/台) を接続 • 4Gbps の Fibre-Channel • ファイルサーバーでは、Chelsio の 10Gbps の NIC を使用 • 遠くの相手と効率よくデータ転送するため、TCP の Window size 等を調整 • 東大のサイトは、主にフランス・リヨンのサイトとの間でデータを転送 (RTT~280ms) • SL3/i386 用パッケージしかないころより、 SL4/x86_64 の OS で（互換モードで）稼動。また、filesystem には XFS を使用 • SL4 の TCP の実装 (BIC-TCP) は、SL3 のもの (TCP Reno)より輻輳制御が優れている • 大きな Filesystem (>2TB) を作成可能。 • 大量のファイル消去は ext3 より XFS のほうが高速。また、XFSは大きなファイルの扱いが得意 • gridFTP を用いた multi-stream でのデータ転送による fragmentation の効果が XFS は ext3 より小さい • ただし、XFS は (RedHat Linux でサポートされていないため)独自に patch を当てたり kernel parameter の調整をしないと高負荷で不安定になる場合がある

利用ソフトウェア • Quattor • OS インストール (+ アップデート) • Lemon • Fabric モニター • MRTG, SmokePing • Network モニター • OpenManage (Dell), RAIDWatch (Infortrend) • サーバー、RAID 管理 • 自家製 scripts • SE でのディスク利用、データ転送状況 • CE でのアカウンティング • その他、LCG で提供されているモニター、アカウンティング

高可用性・高信頼性 • 東大のサイトは高可用性・高信頼性を実現 • WLCGサイトにおいて上位 • ２００８年１月には、可用性98%、信頼性９９％ • ハードウェアの選択 • UPS、冗長構成（RAID、電源、Oracle RAC） • 事前の高負荷でのテストによる不良発見 • FB-DIMM の ECC single bit error • 電源ユニットの故障 • XFSに起因する kernel panic • gLite middleware の慎重な update • 頻繁に update が release されるが、仕様・設定の変更や bug が含まれることが多い • 各種モニタリング・ツールの活用

サイトの利用統計 月ごとのCPU 使用量ディスク使用量、使用可能量 • CPU、ディスクの使用とも順調に増加 • CPU は ATLAS Production の状況で変化 • ディスクは昨年８月に~190TB追加 50TB 200TB

まとめと予定 • TOKYO-LCG2 の運用は順調 • 高可用性、高信頼性を実現 • 使用率も除々に増加 • データ転送のための最適化も進展（次のトーク） • 今後の予定 • Oracle RAC の運用 • gLite の backend の database として • ATLAS Conditions database • ATLAS software 等を AFS で提供 • （非WLCG部分での）Castor の導入

グリッド技術を利用した大規模計算機システムの構築

グリッド技術を利用した大規模計算機システムの構築

Presentation Transcript