スーパーコンの概要

スーパーコンの概要 日本物理学会（首都大学） 2007年３月２５日大阪大学核物理研究センター計算機室　　外川浩章

スーパーコンの概要 • Phase I (2007.1~) 8 nodes (CMC) = 2.0 TF 6 nodes (ILE)= 1.5 TF 計 5 TF 6 nodes (RCNP) = 1.5TF × 32GF 64, 128, 256GB Note 64GB×4nodes, 128GB×8nodes, 256GB×8nodes 128 TB (CMC suita) 64 TB (ILE) 64 TB (RCNP)

100GF 100GF 1024GB スーパーコンの概要 In addition to phase I • Phase II (2008.7~) × 10 nodes (CMC) = 16 TF 768 TB (CMC suita)

32GF 128GB 32GF 35GF 64GB 256GB スーパーコンの構成 • Phase I (200７.１~) RCNP and ILE CMC ×８ ×２ ×４

100GF 100GF 1024GB 32GF 128GB 32GF 35GF 64GB 256GB スーパーコンの構成 • Phase II (2008.7~) RCNP and ILE CMC ×８ ×２ ×10 ×４

スーパーコンの概要 • 占有ノードという固定した考え方はなくす • が、占有ノードは残せる • メモリの速度と容量が異なるノードの混在 • Phase２ではＣＰＵ速度が異なるノードも混在 • システム全体としてのスループットを追及する • ＣＭＣユーザーのジョブがＲＣＮＰやＩＬＥでも流れる • フェアシェアによる適切な資源割当て • 利用負担金は変更なし。レンタル期間を通じての平均化。

RCNP（ILE） CMC占有 RCNP（ILE）占有 32GF 32GF 32GF 32GF 128GB 128GB 128GB 128GB 32GF 32GF 35GF 64GB 64GB 256GB スーパーコンの運用 • Phase I (2007.1~) CMC ×８（共有２／８）

RCNP（ILE） CMC占有 RCNP（ILE）占有 100GF 100GF 1024GB 32GF 32GF 32GF 32GF 128GB 128GB 128GB 128GB 32GF 32GF 35GF 64GB 64GB 256GB スーパーコンの運用（案） • Phase II (2008.7~) CMC ×８（共有２／８） ×１０（共有2.5/10）

32GF 32GF 35GF 32GF 35GF 32GF 32GF 32GF 32GF 32GF 35GF 32GF 32GF 32GF 32GF 35GF 35GF 35GF 35GF 35GF 64GB 128GB 256GB 128GB 64GB 64GB 256GB 128GB 128GB 128GB 128GB 128GB 64GB 256GB 256GB 256GB 256GB 256GB 128GB 256GB スーパーコンの運用 • Phase I (2007.1~) RCNP site CMC site ILE site RCNP nodes CMC nodes (2 nodes for RCNP) ILE nodes

SX8 SX8 SX8 SX8 SX8 SX8 SX8 SX8 SX8 SX8 SX8 SX8 SX8 SX8 SX8 st1,2 st1,2 ネットワーク構成 Super SINET fss Gfirm fss DMZ-SC ＦＷ miho その他 Jumbo SERVER NAS NAS FC-SW FC-SW FC-SW 96TB 64TB 200TB

ディスクの運用

ディスクの運用 SX-8, etc miho, etc Other SuperSINET Site nfs FC nfs FC rsync nfs NAS ST STS FC FC FC Home Work Short DataX Mirror

キューの運用 • 基本的には新しいジョブ管理システム（JM）に任せる • 投入ジョブクラスは「sx-rcnp」の１つだけ • ＣＭＣノードへの投入は別 • ＣＰＵ数、メモリ量、経過時間を指定してジョブを投入 • 後はＪＭが「実行予定表」にジョブを貼り付けて「予約」する。 • 一度予約されると、その実行開始が遅れる事はない • システム障害等の不測の事態が発生した場合は除く。 • あるジョブを、他の予約を破棄して優先的に実行する機能もある。 • リソースの要求のされ方により、予約表には隙間ができてしまうことがある。後から投入されたジョブがこの隙間に入る場合、そのジョブでそこを埋める。（バックフィル機能） • この事で既に予約されているジョブが遅れる事はない事に注意。 • 使用実績を反映してジョブの優先度を決定する。（フェアシェア機能）

キューの運用 • RCNP • sx-rcnp@rcnp • R4D@rcnp • CMC • SXF@cmc • SXL@cmc • DBG@cmc • LSP@cmc • qsubして１分待つ。

予約状況の表示 • ＣＭＣノード http://www.hpc.cmc.osaka-u.ac.jp/j/service/sx_jobjyoho.html • ＲＣＮＰノード https://www.hpc.cmc.osaka-u.ac.jp/manual/cis-rcnp.html

CPUの割当て batch batch batch batch batch batch DEBUG 会話型 sx803 64 GB batch batch batch batch batch batch batch batch sx810 会話型 128 GB batch batch batch batch batch batch batch batch sx811 128 GB

ログインサーバーとフロントエンド login.hpc.cmc.osaka-u.ac.jp login.hpc.cmc.osaka-u.ac.jp login.rcnp.osaka-u.ac.jp fronta frontb frontc frontd miho sx-8 会話型 sx803 会話型 sx810 会話型

ファイル転送サーバー ftp.hpc.cmc.osaka-u.ac.jp ftp1.rcnp.osaka-u.ac.jp ftp2.rcnp.osaka-u.ac.jp home work short data data5 home IBM

パスワードの変更について • ＣＭＣの方針で、ＮＩＳ系のコマンドは使用禁止にする。 • ｕｎｉｘのコマンドでパスワードを変更する事はできない。 • ｗｗｗインターフェイスが用意される。（４月２日～）

大規模デバッグジョブの募集について • ＣＭＣのＤＤＲ２の４ノードを数時間予約してデバッグをしてもらう • 運用開始直後でユーザーも使い方に悩んでいる • 小規模なデバッグでは問題を発見、修正できない場合がある • 数人で行なってもらう • ユーザー当たりの同時実行数は１とする • 経過時間は３０分。（大きくして欲しいという声はある） • 管理者と常に連絡が取れる状態で行なってもらう

スーパーコンの概要

スーパーコンの概要

Presentation Transcript