1 / 38

Gfarm ファイルシステムの概要 datafarm.apgrid/

2005 年 9 月 9 日 Gfarm Workshop 2005 @ 秋葉原. Gfarm ファイルシステムの概要 http://datafarm.apgrid.org/. 建部修見 o.tatebe@aist.go.jp 産業技術総合研究所. Gfarm ファイルシステムとは?. 次世代ネットワーク共有ファイルシステム PC をネットワークに接続するだけで 運用中に容量の増大が可能 組織外の PC も追加可能 複製したファイルを異なるディスクに保持することで、 障害時にもデータにアクセス可能

lane
Download Presentation

Gfarm ファイルシステムの概要 datafarm.apgrid/

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 2005年9月9日 Gfarm Workshop 2005 @ 秋葉原 Gfarmファイルシステムの概要http://datafarm.apgrid.org/ 建部修見 o.tatebe@aist.go.jp 産業技術総合研究所

  2. Gfarmファイルシステムとは? • 次世代ネットワーク共有ファイルシステム • PCをネットワークに接続するだけで運用中に容量の増大が可能 • 組織外のPCも追加可能 • 複製したファイルを異なるディスクに保持することで、障害時にもデータにアクセス可能 • 同時にデータアクセスするプログラムの数に応じて、同時に利用する利用者の数に応じて、スケーラブルなI/O性能を実現 • 既存の設備が利用可能。高価な設備は不必要 • 既存のソフトウェアでアクセス可能 • 日本発のオープンソースソフトウェア 大容量 高信頼 高性能 簡単、低コスト

  3. Gfarmファイルシステム開発の経緯 • 2000年6月、電総研と高エネ研のGRIDミーティングがはじまり • 高エネルギー物理実験の大規模データ処理の要求 • 解決するためのGRID技術 • この後、電総研、高エネ研、東工大で共同研究スタート • 2001年2月、超大容量データ研究会@国立天文台で初外部講演 • 2001年3月、初研究レポート、GGF1、CERNでのデモンストレーション • 2002年11月、日米間ファイル複製実験で世界最高の741Mbpsを達成! • 2003年11月、SC03において「分散インフラストラクチャ賞」を受賞! • 2003年11月、Gfarm 1.0をオープンソフトウェアとして公開 • 2004年11月、Gfarm 1.0.4を公開。ファイル更新のサポート。既存アプリケーションからのアクセス。 • →グリッド・ミドルウェアからGfarmファイルシステムへ • 2005年9月、Gfarm 1.2を公開。より広範囲の既存アプリケーションからのアクセス。性能改善。よりロバストに。

  4. Gfarmファイルシステムの物理的な構成 • 一般的なPCを接続、ローカルディスクを束ねる • ユーザには、共有ファイルシステムとしてみえる • 複数のディスクに分散してデータを保持 Gfarmファイルシステム

  5. 利用例(1):組織内の共有ファイルシステム利用例(1):組織内の共有ファイルシステム • ファイルシステムの容量を運用中に増加 • ファイル複製の数を運用中に増やして、ホットスポットの回避と、信頼性の向上

  6. 利用例(2):複数支店間でのデータ共有 • ミラーリングを行い、それぞれの支店に保持されたデータをアクセス • データが近くにあるため高速なアクセス • 障害、災害時でも大丈夫 ミラーリング 支店AのPC群 支店BのPC群

  7. 利用例(3):遠隔のファイル格納サービス • ファイルの複製を地理的に離れた場所に保持することにより、高信頼なサービスを実現 データセンターA データセンターB

  8. 利用例(4):大規模データ処理 • 高性能共有ファイルシステムとして、複数のPCで分散並列処理 • 読込みはデータの分散保持により高速 • 書込みはローカルディスク優先で高速 Webサーバ群

  9. ネットワーク共有ファイルシステムの比較 • ネットワーク共有ファイルシステム 性能 • 高価な設備 • 高速アクセスは組織内のみ MB/sec SAN・クラスタ ファイルシステム 100 Gfarmファイルシステム • 既存の設備を利用、必要なだけ拡張化 • 組織外からも高速に安全にアクセス可能 NFS クライアント数 10 100 1,000 1,000,000 容量 100 GB 10 TB 10 PB 組織内 国内 世界規模

  10. Gfarmファイルシステム(1) • オープンソースで開発 • Gfarm 1.2を2005年9月8日にリリース(http://datafarm.apgrid.org/) • 読書きモードのサポート、既存アプリケーションのサポート • Knoppix HTC editionに同梱、Rocksにも10月には同梱、*BSDのports • 組織内だけでなく組織外からもファイルシステムを共有 • 既存アプリケーションからも利用可能 • sshd、GridFTPサーバ、sambaサーバ、httpd. . .により既存プロトコルもサポート メタデータサーバ アプリケーション *システムコールフックライブラリ、 あるいはGfarmFS-FUSEにより既存の アプリケーションを修正することなく Gfarmファイルシステムのアクセスが可能 gfmd slapd Gfarm I/Oライブラリ CPU CPU CPU CPU gfsd gfsd gfsd gfsd . . . 計算&ファイルシステムノード

  11. Gfarmファイルシステム(2) • libgfarm – Gfarm I/Oライブラリ • Gfarm API • gfmd, slapd –メタデータサーバ • 仮想ファイルシステム情報、ホスト情報、プロセス情報管理 • gfsd – I/Oサーバ • 遠隔ファイルアクセス アプリケーション メタデータサーバ ファイル、ホスト情報の取得など gfmd slapd Gfarm I/Oライブラリ 遠隔ファイルアクセスなど CPU CPU CPU CPU gfsd gfsd gfsd gfsd . . . ファイルシステムノード

  12. ソフトウェア構成 Gfarm対応 アプリケーション 既存アプリケーション 既存アプリ (Word, Excel, PowerPoint, WMP, …) FTP クライアント scp, sftp Web ブラウザ, クライアント Gfarmコマンド (gfrep, gfwhere, gfdf, gfhost, …) UNIXコマンド (ls, mv, cp, rm, …) NFS クライアント Windows クライアント nfsd ftpd sshd samba httpd Syscall hook, GfarmFS-FUSE Gfarm I/Oライブラリ (libgfarm) Gfarm file system

  13. gfrep ファイル複製作成 gfwhere 複製カタログ表示 gfls* ディレクトリの内容表示 gfstat ファイル情報の表示 gfrm*, gfrmdir*, gfmkdir* ファイル、ディレクトリ削除、作成 gfhost ノード情報表示、管理 gfdf ファイルシステムの空きブロック数の表示 gfsck, gfsplck ファイルシステムの検査と修復 主なGfarmコマンド

  14. Gfarm –構成例 http://datafarm.apgrid.org/

  15. httpd ftpd smbd メタデータサーバ ファイルシステムノード 比較的小規模な構成例 • メタデータサーバ 1台 • ファイルシステムノード 数台 • http, ftp, sambaサーバ 1~2台 これらのノードもGfarmファイルシステムをアクセス可能

  16. 大規模高密度な構成例 • データ処理重視 • 1Uサーバ、デュアルCPU(マルチコア) • ギガビットイーサネット • 4 x 500 GB HDD = 2TB (RAID0) • 1ラック、80TB(RAID0) • データ容量重視 • 3Uサーバ • ギガビットイーサネット • 16 x 500 GB HDD = 7TB (RAID6)+ システムHDD • 1ラック、91TB (RAID6) 産総研GfarmクラスタI

  17. Gfarm –性能評価 http://datafarm.apgrid.org/

  18. 並列文字列検索 • 25 Gbytesのテキストファイルの文字列検索 • Xeon 2.8GHz/512KB, 2GBメモリ NFS 340 秒 (逐次検索) Gfarm 15 秒 (16並列で検索) 22.6倍のスーパリニアスピードアップ! 計算 ノード 計算 ノード 計算 ノード 計算 ノード . . . NFS Gfarmファイルシステム *Gfarmファイルシステムは実際は 計算ノードのローカルディスクで構成

  19. GridFTPデータ転送性能 Client Client Client Client Client Client Client Client ftpd ftpd ローカルディスク対 GfarmFS (8ノード) GridFTPサーバを2ノードで 1 Gbpsのネットワークピーク性能を達成

  20. Gaussian 03による性能評価 • 量子化学計算パッケージ • 一度GfarmファイルシステムにインストールするとどこでもG03を起動可能 • 無修正でGfarmファイルシステムへのアクセスが可能 • Test415 (IO負荷の高いテストインプット) • 1時間54分33秒 (NFS) • 1時間0分51秒 (Gfarm) • 47ノードによる全666テストインプットの並列計算 • Write error! (NFS) • 激しいI/O負荷のため • 16時間6分58秒 (Gfarm) • 47ノードからのアクセスに対しスケーラブルなIO性能 • 最長はtest574で15時間42分10秒 計算 ノード NFS 対 GfarmFS 計算 ノード 計算 ノード 計算 ノード . . . NFS 対 GfarmFS *Gfarmファイルシステムは 実際は計算ノードのローカル ディスクで構成

  21. Gfarm version 1.2の新機能の紹介 http://datafarm.apgrid.org/

  22. 日本語(多言語)対応 • UTF-8のファイル名に対応 • SambaでWindowsからアクセスするためには必須(新規フォルダが作成できない) • LDAPサーバのスキーマの変更による

  23. Samba対応 • システムコールフック、GfarmFS-FUSEともに、激しいテストにより動作を確認 • システムコールフック利用の場合 http://datafarm.apgrid.org/software/html/ja/user/samba-hook.html • GfarmFS-FUSE利用の場合 http://datafarm.apgrid.org/software/html/ja/user/samba-gfamrfs.html • Samba自体は無修正、適切な設定ファイル(UTF-8など)を準備

  24. ユーザーズマニュアルの追加 • export-gfarm.html • いろいろなプロトコルによるGfarmファイルシステムへのアクセス方法のまとめ • samba-gfarmfs.html, samba-hook.html • Sambaを利用したWindowsからのアクセス方法 • nfs-gfarmfs.html • NFSによるGfarmへのアクセス方法

  25. FreeBSD, NetBSDのports、binary package • FreeBSD、NetBSDのサポート • ports、binary packageの提供 • README.hook 文書の更新

  26. 実行形式のファイルのunlink, copy • 異るアーキテクチャのバイナリが登録をcpで可能に • rmでは対応するアーキテクチャのバイナリだけ削除 • [archA]% cp ls /gfarm/bin • [archB]% cp ls /gfarm/bin • % gfwhere gfarm:/bin/ls • archA: host1 • archB: host2 • [archA]% rm /gfarm/bin • % gfwhere gfarm:/bin/ls • archB: host2

  27. ファイル複製の一貫性の保障 • [V1.1.1まで] • 更新中にファイル複製を作成すると一貫性が保障されない • close時にfilesize mismatchまたはchecksum errorとなる • →ロック機構の導入 • ファイル更新中のファイル複製作成を抑制(GFARM_ERR_TEXT_FILE_BUSY) • [副作用] ファイル更新中のアプリケーションが異常終了すると、そのファイルの複製が作成できない • 参照、更新は可能 • →一度cpなどでコピーすれば大丈夫

  28. 注意事項 • このロック機構はあくまでもファイル複製作成を抑制するためのもの • ロック中もファイルの参照、更新、消去は可能 • 更新を可能にした理由は次のitemによる • ただしオンデマンドファイル複製作成は失敗 • (失敗してもそのまま遠隔の複製を参照して続行すべき?) • ロック中にファイルの更新を行い、closeしてしまうとロックが外れてしまう。。。 • ロック中のプロセスが異常終了してロックが外れなくなるよりはましと判断(この場合はgfsck, gfsplck、あるいはcopy、delete&moveで対応することになる) • 複数のプロセスからロックなしに同じファイルに書込むのはいずれにしても競合状態

  29. 作成中のファイルを参照可に • [V1.1.1まで] • 作成したファイルは一度closeしないと他プロセスからアクセスできなかった • No fragment information • →一度作成しなくても、作成中に他のプロセスからアクセスが可能となった • ただし、closeするまではサイズは0と表示される

  30. メタデータサーバ(slapd)への再接続 • [V1.1.1まで] • 接続が切れても再接続をしなかった • LD_PRELOADでshellをあげる、GfarmFS-FUSEを利用するなど、長時間接続している場合、slapdがrestartすると利用できなくなった • →再接続を行うことにより、slapdが落ちていれば、GfarmFSにアクセスできなくなり、再びあがればアクセスできるようになる • 落ちている最中はlsは可能だが、いまのところls –lは不可

  31. 反応速度の高速化、スケーラビリティの向上 • gfarm_agentを利用時に、反応速度が向上 • slapdとの接続数を減らし、slapdの負荷を軽減 • 同時アクセスにおけるスケーラビリティが向上

  32. Gfarm設定ファイル関係の新機能 • Gfarm設定ファイルの指定 • GFARM_CONFIG_FILEにより指定を可能とした [Bugzilla-ja #38] • クライアントのアーキテクチャ指定 • 設定ファイルのclient_architectureで指定 • GFARM_ARCHITECTURE環境変数で指定 • メタデータベースにクライアントのアーキテクチャを登録しないでも、実行形式のファイルの参照、作成が可能になる • config-gfarm, config-gfsdの全アーキテクチャ対応

  33. Gfarmデモンストレーション http://datafarm.apgrid.org/

  34. デモンストレーションの設定 • つくば55ノード、大手町11ノードの計66ノードでGfarmファイルシステムを構成 • 16 TBytes Gfarmファイルシステム Gfarmクラスタ 8ノード Xクラスタ 47ノード Gfarmクラスタ 11ノード つくば 大手町

  35. デモンストレーション(1) • 基本操作 • cd, ls, cp, mv, cat, … • grep • Gfarmコマンド • 複製作成、複製カタログ、ノード、プロセス情報 • 遠隔(並列)プログラム実行 • gfrun prog args . . . • gfrun –N #procs prog args . . . • gfrun –G ファイル名 prog args . . .

  36. デモンストレーション(2) • Webブラウザによるアクセス • http://gfm12.apgrid.org:8080/ • http://gfm13.apgrid.org:8080/ • http://gfm14.apgrid.org:8080/ • WebコンテンツのDocumentRoot = /gfarm/www/html • GfarmファイルシステムにWebコンテンツをおき、上記の3サーバでファイルシステムを共有 • 各コンテンツは複製を三つもつ • マルチサーバで付加分散 • http://datafarm.apgrid.org/software/html/ja/user/export-gfarm.html • http://gfm12.apgrid.org:8080/software/html/ja/user/export-gfarm.html

  37. デモンストレーション(3) • Windowsによるアクセス • SambaをVMware (Linux)で立ち上げる • GfarmFS-FUSEでGfarmファイルシステムをマウント • インターネット経由なのでGSI認証を利用 • WindowsでSambaにアクセス(マウント) • http://datafarm.apgrid.org/software/html/ja/user/samba-hook.html • http://datafarm.apgrid.org/software/html/ja/user/samba-gfarmfs.html % grid-proxy-init % gfarmfs gfs –o allow_root

  38. デモンストレーション(4):並列検索 • ファイルをまとめて一つのGfarmファイルとして登録 • % gfreg file1 file2 file3 gfarm:files • Gfrun(遠隔ジョブ起動コマンド)でプログラムを実行 • % gfrun grep reg_exp gfarm:files • →file1, file2, file3を三ノード(三並列)で並列検索

More Related