1 / 20

スーパーコンの概要

スーパーコンの概要. 日本物理学会(首都大学) 2007 年3月25日. 大阪大学核物理研究センター 計算機室  外川浩章. スーパーコンの概要. Phase I (2007.1~). 8 nodes (CMC) = 2.0 TF 6 nodes (ILE) = 1.5 TF 計 5 TF 6 nodes (RCNP) = 1.5TF. ×. 32GF. 64, 128, 256GB. Note 64GB×4nodes, 128GB×8nodes, 256GB×8nodes. 128 TB (CMC suita)

Download Presentation

スーパーコンの概要

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. スーパーコンの概要 日本物理学会(首都大学) 2007年3月25日 大阪大学核物理研究センター 計算機室  外川浩章

  2. スーパーコンの概要 • Phase I (2007.1~) 8 nodes (CMC) = 2.0 TF 6 nodes (ILE)= 1.5 TF 計 5 TF 6 nodes (RCNP) = 1.5TF × 32GF 64, 128, 256GB Note 64GB×4nodes, 128GB×8nodes, 256GB×8nodes 128 TB (CMC suita) 64 TB (ILE) 64 TB (RCNP)

  3. 100GF 100GF 1024GB スーパーコンの概要 In addition to phase I • Phase II (2008.7~) × 10 nodes (CMC) = 16 TF 768 TB (CMC suita)

  4. 32GF 128GB 32GF 35GF 64GB 256GB スーパーコンの構成 • Phase I (2007.1~) RCNP and ILE CMC ×8 ×2 ×4

  5. 100GF 100GF 1024GB 32GF 128GB 32GF 35GF 64GB 256GB スーパーコンの構成 • Phase II (2008.7~) RCNP and ILE CMC ×8 ×2 ×10 ×4

  6. スーパーコンの概要 • 占有ノードという固定した考え方はなくす • が、占有ノードは残せる • メモリの速度と容量が異なるノードの混在 • Phase2ではCPU速度が異なるノードも混在 • システム全体としてのスループットを追及する • CMCユーザーのジョブがRCNPやILEでも流れる • フェアシェアによる適切な資源割当て • 利用負担金は変更なし。レンタル期間を通じての平均化。

  7. RCNP(ILE) CMC占有 RCNP(ILE)占有 32GF 32GF 32GF 32GF 128GB 128GB 128GB 128GB 32GF 32GF 35GF 64GB 64GB 256GB スーパーコンの運用 • Phase I (2007.1~) CMC ×8 (共有2/8)

  8. RCNP(ILE) CMC占有 RCNP(ILE)占有 100GF 100GF 1024GB 32GF 32GF 32GF 32GF 128GB 128GB 128GB 128GB 32GF 32GF 35GF 64GB 64GB 256GB スーパーコンの運用(案) • Phase II (2008.7~) CMC ×8 (共有2/8) ×10 (共有2.5/10)

  9. 32GF 32GF 35GF 32GF 35GF 32GF 32GF 32GF 32GF 32GF 35GF 32GF 32GF 32GF 32GF 35GF 35GF 35GF 35GF 35GF 64GB 128GB 256GB 128GB 64GB 64GB 256GB 128GB 128GB 128GB 128GB 128GB 64GB 256GB 256GB 256GB 256GB 256GB 128GB 256GB スーパーコンの運用 • Phase I (2007.1~) RCNP site CMC site ILE site RCNP nodes CMC nodes (2 nodes for RCNP) ILE nodes

  10. SX8 SX8 SX8 SX8 SX8 SX8 SX8 SX8 SX8 SX8 SX8 SX8 SX8 SX8 SX8 st1,2 st1,2 ネットワーク構成 Super SINET fss Gfirm fss DMZ-SC FW miho その他 Jumbo SERVER NAS NAS FC-SW FC-SW FC-SW 96TB 64TB 200TB

  11. ディスクの運用

  12. ディスクの運用 SX-8, etc miho, etc Other SuperSINET Site nfs FC nfs FC rsync nfs NAS ST STS FC FC FC Home Work Short DataX Mirror

  13. キューの運用 • 基本的には新しいジョブ管理システム(JM)に任せる • 投入ジョブクラスは「sx-rcnp」の1つだけ • CMCノードへの投入は別 • CPU数、メモリ量、経過時間を指定してジョブを投入 • 後はJMが「実行予定表」にジョブを貼り付けて「予約」する。 • 一度予約されると、その実行開始が遅れる事はない • システム障害等の不測の事態が発生した場合は除く。 • あるジョブを、他の予約を破棄して優先的に実行する機能もある。 • リソースの要求のされ方により、予約表には隙間ができてしまうことがある。後から投入されたジョブがこの隙間に入る場合、そのジョブでそこを埋める。(バックフィル機能) • この事で既に予約されているジョブが遅れる事はない事に注意。 • 使用実績を反映してジョブの優先度を決定する。(フェアシェア機能)

  14. キューの運用 • RCNP • sx-rcnp@rcnp • R4D@rcnp • CMC • SXF@cmc • SXL@cmc • DBG@cmc • LSP@cmc • qsubして1分待つ。

  15. 予約状況の表示 • CMCノード http://www.hpc.cmc.osaka-u.ac.jp/j/service/sx_jobjyoho.html • RCNPノード https://www.hpc.cmc.osaka-u.ac.jp/manual/cis-rcnp.html

  16. CPUの割当て batch batch batch batch batch batch DEBUG 会話型 sx803 64 GB batch batch batch batch batch batch batch batch sx810 会話型 128 GB batch batch batch batch batch batch batch batch sx811 128 GB

  17. ログインサーバーとフロントエンド login.hpc.cmc.osaka-u.ac.jp login.hpc.cmc.osaka-u.ac.jp login.rcnp.osaka-u.ac.jp fronta frontb frontc frontd miho sx-8 会話型 sx803 会話型 sx810 会話型

  18. ファイル転送サーバー ftp.hpc.cmc.osaka-u.ac.jp ftp1.rcnp.osaka-u.ac.jp ftp2.rcnp.osaka-u.ac.jp home work short data data5 home IBM

  19. パスワードの変更について • CMCの方針で、NIS系のコマンドは使用禁止にする。 • unixのコマンドでパスワードを変更する事はできない。 • wwwインターフェイスが用意される。(4月2日~)

  20. 大規模デバッグジョブの募集について • CMCのDDR2の4ノードを数時間予約してデバッグをしてもらう • 運用開始直後でユーザーも使い方に悩んでいる • 小規模なデバッグでは問題を発見、修正できない場合がある • 数人で行なってもらう • ユーザー当たりの同時実行数は1とする • 経過時間は30分。(大きくして欲しいという声はある) • 管理者と常に連絡が取れる状態で行なってもらう

More Related