1 / 23

SX5@RCNP 超入門

SX5@RCNP 超入門. 斎藤卓也 中村純 広島大学・情報メディア教育研究センター. RCNP ワークショップ「高速計算機を用いた研究の現状と将来」 2004年11月10日(水). http://nio-mon.riise.hiroshima-u.ac.jp/~nakamura/RCNP-SX5.ppt ( 出来れば英語版も準備したい ). このTalkで訴えたいこと or 真のHPCを目指して. SX5 at RCNP すばらしいハードウェア 是非研究に有効に役立てましょう 2.ボロボロのソフトウエア 我々の知識不足が原因? どうやってうまく使うか

trixie
Download Presentation

SX5@RCNP 超入門

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. SX5@RCNP超入門 斎藤卓也 中村純 広島大学・情報メディア教育研究センター RCNPワークショップ「高速計算機を用いた研究の現状と将来」 2004年11月10日(水) http://nio-mon.riise.hiroshima-u.ac.jp/~nakamura/RCNP-SX5.ppt(出来れば英語版も準備したい)

  2. このTalkで訴えたいことor真のHPCを目指してこのTalkで訴えたいことor真のHPCを目指して SX5 at RCNP • すばらしいハードウェア • 是非研究に有効に役立てましょう 2.ボロボロのソフトウエア • 我々の知識不足が原因? • どうやってうまく使うか • できれば何とか次期システムでしてほしい

  3. 国外ユーザーからのメッセージ • One complaint about SX5 is that there is no good and up to date helpweb page (at least in English) for the users. They have changed now thecommands for submitting jobs etc. I have received e-mails concerningthose changes but the main body is in Japanese. It would be helpfulif there would be a web page with such info. in English (perhaps there isand I don‘t know)It is also not clearly stated anywhere which are the available disks and their characteristics, it seems that in some of them data is removed ifnot used for a certain time.Anyway, SX5 works much better than any of the systems I have used in Spainso I don't want to complain too much. • SX5について不満に思うことは、どこにもユーザーに対するきちんとした最新のHELPウェブページが(少なくとも英語では)無いことです。ジョブをサブミットするコマンドなどが最近変更されました。この変更に関するE-メールを受け取りましたが本文は日本語でした。もし、このような情報に関する英語のウェブページがあれば、とても助けになります。(おそらく存在していて私が知らないだけなのででょう) どれが使用可能なディスクで、その条件がどうなっているのか、どこにも記述が見当たりません。ディスクのいくつかは、一定時間使用されないと、データが消されるようです。しかし、SX5は私が自国でこれまで使ったどのシステムよりも、はるかによく動くので、あまり不満をいいたいとは思いません。

  4. 目次 • SX5 (中村) • アカウントの取得まで (中村) • ログイン、ジョブのサブミット(SX57) (中村) • SX上でのコンパイル (斎藤) • 並列実行(SX52~57) (斎藤) • 要望 (斎藤)

  5. アカウントの取得まで • 利用資格:素粒子・原子核の研究者 • 有職、無職を問わない • 国外の人も利用可(これは大英断!大計センターは駄目) • RCNP理論部・保坂淳先生にメールでお願いする • http://www.rcnp.osaka-u.ac.jp/Divisions/CN/computer/apply/apply_com.htmlからUNIXマシーン(senri.rcnp.osaka-u.ac.jp)のアカウントをWebで申請。 • このページだけ英語だが実際の申請ページ、説明は日本語なので、日本語の読めない人は誰かに頼む • http://www.rcnp.osaka-u.ac.jp/Divisions/CN/computer/super/apply.htmlを読んで、UNIXマシーンからメールでスーパーコンピュータ(SX5)のアカウントを申請 • 返事はsenriに来る

  6. ログイン、ジョブのサブミット(SX57) • senri.rcnp.osaka-u.ac.jpにまずログイン • そこからsx5.rcnp.osaka-u.ac.jpへssh(telnetもOK) • sx5上のUNIXは非常に使いにくいので、コンパイル、サブミット(とキューの確認)以外はできるだけsenriの上で • senri上の/home.sx5/rcnpXXXX にsx5のホームがマウントされている(rcnpXXXXはsx5上のアカウント名)

  7. SX5 • ベクトル機 • 長いDOループ(繰り返しループ)のある科学技術計算なら、PCクラスターよりはるかに高い実行スピード、容易なプログラミング • 1ノード=10GFLOPS/CPU × 16 + 128GBメモリー(1GFLOPS=1秒間に109回の和差積計算) • CMC(大阪大学サイバーメディアセンター)全体では8ノード • RCNPが1ノード、レーザー核融合研究センターが1ノード

  8. 多分配置はこうなっている SX50 SX52 SX54 SX56 (ILE) SX51 SX53 SX55 SX57 (RCNP) front02 (login.hpc.cmc.osaka-u.ac.jp) senri (senri.rcnp.osaka-u.ac.jp)

  9. ログイン、ジョブのサブミット(続き) • コンパイルは(pathは/usr/bin) • fortran → f90 • C → cc • C++ → c++ • 投げるキューは • RS 5 min 2GB(最大16GB) • RM 2 hours 2GB(最大8GB) • RL 8 hours 2GB(最大16GB)

  10. ログイン、ジョブのサブミット(続き) • キューの状態を見る • qstat -u rcnpXXXX (自分のジョブの状態) • qstat -Q  (すべての状態) • キュー上のジョブをキャンセル • qdel request.id • NQSII(新しいNQSコマンド)一覧表 • 英語版はどこ?

  11. #!/bin/csh -f setenv F_PROGINF DETAIL cd /sx/rcnp/home/rcnpXXXX ./a.out> out mv fort.2 fort.1 qsub -q RM goNEXT 簡単なサブミットの例 • qsub –q RM script-filescript-fileの中身の例 終了後、XXX.oYYY, XXX.eYYYというファイルができる(XXX:スクリプトファイル名、YYY:ジョブID)

  12. SX5上でのコンパイル On sx57 ( Super-UX UNIX), % f90 program.f On login02 ( Linux ), % sxf90 program.f よく使うオプション % f90 -C hopt–Wf”-a dbl4”–ftrace -C hopt : 最適化オプション -Wf”-a dbl4” : 単精度実数→倍精度実数 -ftrace : 実行性能の測定 プログラム実行サイズの概算 % size ./a.out 4151696 + 237456 + 441659328 = 446048480 ( cmc上では、sizeではなく、sxsize(バグあり?) ) % ftrace -f ftrace.out (sxftrace, login02 )

  13. Ftrace ? *--------------------------* FLOW TRACE ANALYSIS LIST *--------------------------* Execution : Fri Oct 1 18:20:26 2004 Total CPU : 1:09'01"691 PROG.UNIT FREQUENCY EXCLUSIVE AVER.TIME MOPS MFLOPS V.OP AVER. VECTOR I-CACHE O-CACHE BANKCONF prodlink 1055803 1254.936( 30.3) 1.189 12945.6 5829.0 99.97 507.2 1254.300 0.1561 0.0530 520.8865 copylink 938136 791.739( 19.1) 0.844 1496.2 0.099.76 507.1 791.204 0.0466 0.0346 224.3939 dudxi 117317 655.447( 15.8) 5.587 4122.1 745.399.87 507.1 655.111 0.1700 0.0535 226.9930 grotat 117267 402.203( 9.7) 3.430 2573.5 0.0 99.90 507.1 400.673 0.3391 0.1071 73.5016 gprojct 117267 338.031( 8.2) 2.883 12490.8 5547.6 99.86 507.4 337.143 0.5163 0.1420 15.4681 sgfix 117267 160.532( 3.9) 1.369 614.4 204.5 99.85 507.1 159.665 0.6046 0.0935 73.9506                       略 init3 1 0.001( 0.0) 0.628 446.2 0.0 2.60 260.5 0.000 0.0000 0.0000 0.0000 cinit3 1 0.000( 0.0) 0.003 30.3 0.0 0.00 0.0 0.000 0.0000 0.0000 0.0000 ---------------------------------------------------------------------------------------------------------- total 3168865 4141.692(100.0) 1.307 6722.5 2567.4 99.91 507.0 4111.186 2.2417 0.7822 1311.3879

  14. 並列プログラムのコンパイル 並列キューの書き方 #!/usr/bin/csh #PBS -q P4A@cmc cd /xxx/xxxx mpirun -np 4 ./a.out MPIを使うとき、 On sx57 % mpif90 mpi-test.f On login02(cmcノード) % sxmpif90 mpi-test.f

  15. 並列プログラムのコンパイル 自動並列化を 使うとき % f90 –Pauto OpenMPを使うとき % f90 –Popenmp 並列キューの 書き方 #!/usr/bin/csh #PBS -q P4A@cmc setenv OMP_NUM_THREADS 4 cd /xxx/xxx ./a.out 並列キュー(cmcノードのみ) P4A, P4, P8, P16(同ノード内) MPI32、MPI64

  16. ハードディスク 使用できおもなハードディスク: MP(sx57) MP(cmc) hosted speed(sx57) speed(cmc) size quota /sx/rcnp/home /sx/rcnp/home sx57 high mid 1TB 5GB/user /sx/rcnp/work /sx/rcnp/work sx57 high mid 2TB none /sxshort/rcnp /sxshort/rcnp CMC mid high 8TB none /sx/rcnp/data ibm slow 3TB none /sx/rcnp/data2 fss slow 2TB none

  17. ハードディスク 現在の使用状況: sx57:/sx/rcnp/home 1.0T 330G 734G 31% /sx/rcnp/home sx5g0:/sxshort/cmc 8.3T 7.3T 1.0T 88% /sxshort/cmc sx5g0:/sxshort/ile 8.3T 7.3T 1.0T 88% /sxshort/ile sx5g0:/sxshort/rcnp 8.3T 7.3T 1.0T 88% /sxshort/rcnp sx54:/sx/cmc 1.0T 436G 588G 43% /sx/cmc sx56:/sx/ile/local 1.0T 150G 914G 15% /sx/ile/local sx56:/sx/ile/home 1.0T 150G 914G 15% /sx/ile/home sx56:/sx/ile/temp 2.1T 868G 1.2T 41% /sx/ile/temp sx57:/sx/rcnp/work 2.1T 2.1T 60G 98% /sx/rcnp/work ホームディレクトリ 2週間で削除 ワークディレクトリ

  18. 計算結果の一例(SX5による) 格子QCDシミュレーションによる有限温度QCD電場・磁場遮蔽質量の計算。 並列キューP16、P8、などを使い正味6ヶ月程の計算

  19. 要望1:コンパイラーについて • Fortran90 は、Fortran77より遅い。 • F90の自動並列化では、Fortran90のモジュールが並列化されない。自動並列化したとき、やけに実行ファイルが大きくなる。 • OpenMP(要素並列用インターフェース)でも、モジュールを含むとき並列化されない。(ひょっとしてOpenMPの問題?実行ファイルは大きくならない。) • コールしないサブルーティンもメモリーを必要とする?モジュールを含んでいるせい?

  20. 要望2:ハードディスクについて • ユーザー個人(自分)専用のHDをもてないか?お金は自分ではらうので(300GBあたり3万円程度)。 • SX5上で生成されたバイナリーファイルを、じかにlogin02(linux), senri上で読み込むことはできないか? もしくは、データ転送した後自分のパソコンで。 • RCNPとCMC間の転送速度やお互いのHDの参照。(大変だとは思いますが・・・。)

  21. 要望3:実行するとき • RCNPではインタラクティブにプログラム実行がOK(CMCでは駄目)。とても便利、しかしフロントエンドの挙動が遅くなるので、制限を付ける? • RCNPノードにおいてRLキューでも最大16Gバイトであり、上限を増やしたキューがほしい。これ以上のプログラムは要素並列化をしないといけない。 • P4なら60Gバイト • CMCでは50Gバイト(p1L)、これはRCNPユーザーは使用不可。 • MPIで並列化してもWall Clock time (戻ってくるまでの実時間)は早いとは限らない。良いのか悪いのか???

  22. 要望4:その他 • ヘルプデスクのFAQは、2001年度から何も更新されていない。また、RCNPからのヘルプデスクのリンクは切れている。 • Super-UXはとにかく使いにくい。RCNP側にもLinuxのフロントエンドが欲しい。 • いままでの細かく更新された内容(クォーターコマンド、バッファーサイズ(F_SETBU)などに関すること)を、どこかにまとめて欲しい。現状では、以前にメールで流れた情報を探すのに苦労する。また、新参者はそもそもわからない。(たとえば、CMCノードにある“osirase”コマンドは便利。) • 日本語を理解しない外国人ユーザーについては?

  23. 次期コンピュータとしては 200TFLOPS欲しい ⇒次のステップへの計算のため

More Related