1 / 24

グリッドデータファームによる 分散並列天文学データ解析

グリッドデータファームによる 分散並列天文学データ解析. 2005 年 9 月 9 日 産総研 山本直孝 Gfarm ワークショップ 2005. 概要. 観測的天文学の求めるもの 大量のデータを気にせず処理したい Gfarm( グリッドデータファーム ) 利用方法 解析ツールによる性能評価 実アプリケーションを用いた性能評価 まとめ. HST @STScI,NAOJ. 全アーカイブデータ解析. SDSS @Sloan. アーカイブ天文学. 観測的天文学. アーカイブ     天文学. 全天サーベイ. Comet Hale-Bopp.

rasia
Download Presentation

グリッドデータファームによる 分散並列天文学データ解析

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. グリッドデータファームによる分散並列天文学データ解析グリッドデータファームによる分散並列天文学データ解析 2005年9月9日 産総研 山本直孝 Gfarmワークショップ2005

  2. 概要 • 観測的天文学の求めるもの • 大量のデータを気にせず処理したい • Gfarm(グリッドデータファーム) • 利用方法 • 解析ツールによる性能評価 • 実アプリケーションを用いた性能評価 • まとめ Gfarm Workshop 2005

  3. HST @STScI,NAOJ 全アーカイブデータ解析 SDSS@Sloan アーカイブ天文学 観測的天文学 アーカイブ     天文学 全天サーベイ Gfarm Workshop 2005

  4. Comet Hale-Bopp Outer Solar System Region 観測的天文学 • 研究テーマ例: • 移動天体サーベイ • - 多色測光 研究テーマ例: - 形状、塵の分布解析 - 塵の運動解析 Gfarm Workshop 2005

  5. Minor Planet 2001 DN108 アーカイブ天文学の目的 • すべてのデータを対象に解析を行う • 新天体の発見 • 移動天体探索 • 超新星探索 • 最新カタログの作成 • 銀河カタログ Gfarm Workshop 2005

  6. 海王星軌道 EKBOサーベイ • 天体の座標による移動天体の検出 • 移動加算法による,移動天体の強調処理 EKBOの検出 Outer Solar System Region 海王星より遠くにある小天体サーベイ Gfarm Workshop 2005

  7. 天体検出 SExtractor E. Bertin and S. Arnouts (A&AS) 117 (1996) 汎用天体検出ツールの標準 すべての結果から 銀河カタログ作成    移動天体検出    などが可能 Gfarm Workshop 2005

  8. すばる望遠鏡 • 10枚の CCD で構成される • 10枚の FITS ファイルを出力する • FITS ファイル1枚約17MB すばる主焦点カメラ 観測装置 Gfarm Workshop 2005

  9. (ファイルの集合に対する) 並列分散処理 観測装置 File1 File2 ... FileN File1’ File2’ ... FileN’ FITS Files データ解析 解析データ(1) データが増加 解析データ(2) (すべてのデータを保存する) 大容量ファイルシステム 解析の流れ Gfarm Workshop 2005

  10. 一次処理全体の流れ • 各ステップで,新しいFITSファイルが生成される • オリジナルの8倍 Gfarm Workshop 2005

  11. AIST Super Cluster 計算ノード サービスノード fcmp129 fcmp130 fcmp131 fsvc003 fcmp131 fcmp255 実行環境 • ssh接続  サービスノード • fsvc003を通して外部とデータ転送 • ファイルシステムノード  計算ノード • ファイルが分散配置される F32, fp3 (20TB /gfarm) Gfarm Workshop 2005

  12. data4 catalog4 data3 catalog3 data2 catalog2 data1 catalog1 out1 fsvc003 out2 out3 計算ノード fcmp129 fcmp130 data1 サービスノード fcmp129 catalog1 fcmp130 fcmp131 fsvc003 fcmp131 fcmp255 fcmp131 fcmp131 data4 data2 catalog2 catalog4 data3 data1 catalog1 catalog3 fcmp255 実行環境 80GB ssh host tar cf – UB1 | tar xf - job1 job2 GFARM_FLAGS=r Gfarm Workshop 2005

  13. FITS00 gfarm:f.fits FITS01 並列処理の実現 .... FITS09 すばる主焦点カメラ • 10枚の CCD で構成される • 10枚の FITS ファイルを出力する • FITS ファイル1枚約17MB 並列実行用の構成 FITS ファイルの集合を Gfarm ファイルとする %ls -l -rw-r--r-- naotaka * 1007285760 Jul 1 10:56 c0.fits -rw-r--r-- naotaka * 1007285760 Jul 1 10:56 c1.fits -rw-r--r-- naotaka * 1007285760 Jul 1 10:56 c2.fits -rw-r--r-- naotaka * 1007285760 Jul 1 10:56 c3.fits -rw-r--r-- naotaka * 1007285760 Jul 1 10:56 c4.fits .... gfrun gfarm:~/bin/osmed gfarm:c0.fits gfarm:c0o.fits Gfarm Workshop 2005

  14. SAO Image ds9 FITS ファイルの標準ブラウザ C++ / 9万行 TCL/TK 使用 open ダイアログ /gfarm/naotaka/data/test.fits FITS Browserへの対応 Gfarm Workshop 2005

  15. AIST Gfarm Cluster I 性能評価 • スケーラビリティー • ファイルI/O • 複製の自動生成による効果 • 2度目の利用の効率化 • 起動コストの低減 • 連続実行のスクリプト Gfarm Workshop 2005

  16. 全体の実行時間に対するGfarm API の所要時間 Gfarm API / 実行時間 [sec] Gfarm API / 実行時間 [sec] 98.2MB/sec/node 98.6MB/sec/node 30 ノードの場合 20 ノードの場合 糊代の平均を 画像から引き算する 並列ファイルアクセス性能 • 読み込み17MB • 書き込み34MB • 16bit  32bit 変換 • ピクセルごとの引き算 Gfarm Workshop 2005

  17. Total I/O band width 5.9GB/sec 110MB/sec (1node) 4.0GB/sec ファイルアクセス性能 [MB/s] 2プロセス/ノード プロセス数 Total I/O バンド幅 30ノード60CPU を用いた測定 read 17MB FITS file write 34MB FITS file Gfarm Workshop 2005

  18. node 1 node 2 node 3 node 4 + other I/O ops データアクセス CPU DISK read open write 【1】データ共有アクセス 340MB / 3.1sec 110MB/s Gfarm Workshop 2005

  19. + on-demand replication + other I/O ops 複製生成 read open write 【2】オンデマンドレプリケーション node 1 node 2 340MB / 3.4sec 100MB/s node 3 node 4 export GFARM_FLAGS=r Gfarm Workshop 2005

  20. + other I/O ops データアクセス read open write 【3】ローカルアクセス node 1 340MB / 0.4sec 850MB/s node 2 node 3 node 4 Gfarm Workshop 2005

  21. 複製なし 複製あり FITS00 FITS00’ FITS01 FITS01’ 書き込み ..... .....’ FITS19’ FITS19 読み込み Flat Flat ノード ノード ..... Flat 複製による性能向上 画像の割り算の20並列実行における性能評価 • 読み込み34MBx2 • 書き込み34MB • ピクセルごとの割り算 Flat / = 110MB/s 850MB/s Gfarm Workshop 2005

  22. 連続実行による性能改善 • gfrun による遠隔並列実行 • ホストスケジューリングなどの起動コスト • 20ノードで1秒(全体実行3秒) • 連続実行スクリプトの作成 • 4回のgfrun を1つに集約 • 21秒から16秒へ短縮 Gfarm Workshop 2005

  23. まとめと今後の課題 • 30クラスタノード(60 CPUs)での性能評価 • 5.9GB/sec 読み込み, 4.0GB/sec 書き込み性能 • 複製による性能改善 • 耐故障性 • メタデータアクセス性能の限界 • 1プロセスで,4000x50回 open/close • ローカルファイルシステムではワークする Gfarm Workshop 2005

  24. 1 Telescopes Local Cluster Requests Gfarm file system Analysis 3 Process A Process B Data A Data B Virtual Observatories Staging 2 Data archives 仮想天文台との連携 • ファイル格納のボトルネック • データ提供元から観測データのダウンロード • トータルの実行性能が下がってしまう • データ提供元からGfarmへ格納する Gfarm Workshop 2005

More Related