1 / 6

並列計算から見た SAN

並列計算から見た SAN. 遠藤 敏夫 ( 東工大 ). ISR9288 switch. ISR9288 switch. ISR9288 switch. ISR9288 switch. ISR9288 switch. ISR9288 switch. ISR9288 switch. ISR9288 switch. TSUBAME のネットワーク. 10GB InfiniBand ノードあたり Voltaire HCA x 2 上流のバンド幅は,全体全の 1/5. MPO(fiber) x24. IB(InfiniBand) x24.

neal
Download Presentation

並列計算から見た SAN

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 並列計算から見たSAN 遠藤 敏夫 (東工大)

  2. ISR9288 switch ISR9288 switch ISR9288 switch ISR9288 switch ISR9288 switch ISR9288 switch ISR9288 switch ISR9288 switch TSUBAMEのネットワーク • 10GB InfiniBand • ノードあたりVoltaire HCA x 2 • 上流のバンド幅は,全体全の1/5 MPO(fiber) x24 IB(InfiniBand) x24 10GB Voltaire InfiniBand 120 nodes 55 nodes 120 nodes 120 nodes 120 nodes 120 nodes

  3. Voltaire MPI • TCP/IPを介さずに高性能通信 • MVAPICHベースの実装 • 多様なチューニングパラメータ VIADEV_HCA_DISTRIBUTE VIADEV_EXIT_ON_ASYNC_PORT_ERROR BLOCKING_SUPPORT VIADEV_MAX_BLOCK_COUNT VIADEV_USE_PEER_TO_PEER VIADEV_RDMA_LIMIT VIADEV_CQ_SIZE VIADEV_NUM_RDMA_BUFFER VIADEV_ENABLE_ADAPTIVE_FAST_PATH ほか,60以上のパラメータ

  4. ISR9288 switch ISR9288 switch ISR9288 switch ISR9288 switch ISR9288 switch ISR9288 switch ISR9288 switch ISR9288 switch Linpack測定時のデータマッピング MPO(fiber) x24 IB(InfiniBand) x24 10GB Voltaire InfiniBand 120 nodes 55 nodes 120 nodes 120 nodes 120 nodes 120 nodes 92 行列の担当を, なるべく上流の通信量を減らすように設定 36

  5. シミュレーショングループの遭遇した問題 • 多数のCPUによる,MPI並列流体計算 • 800CPUまでは通常通り動く • 1000CPUになると,「プログラムが途中で止まる」 • 利用ノードがスイッチ間にまたがることが判明 • 上流スイッチでパケット落ちが頻発 • 「遅くなる」ではなく「止まる」のは厳しい…

  6. SAN(というか通信ソフトウェア)はこうなってほしいSAN(というか通信ソフトウェア)はこうなってほしい • 高バンド幅かつ公平なトランスポート層 • (半)自動チューニング • 約60のパラメータはきつい • 異常理由の一般ユーザへの開示 • トポロジーの一般ユーザへの開示,MPIとの連携 • アクセラレータ直結?

More Related