東工大ＣＯＥグリッドＧｆａｒｍ活用事例

東工大ＣＯＥグリッドＧｆａｒｍ活用事例 佐藤　仁1)松岡　聡1),2) 1)東京工業大学 2)国立情報学研究所

はじめに • 自己紹介 • 所属 • 東京工業大学　数理・計算科学専攻　松岡研究室博士課程１年 • 東工大　COE（後述） RA (2005年７月から) • 研究内容 • グリッド・コンピューティング • 特にグリッド上での分散ファイルシステムに関する研究 • 日頃からGfarm を研究目的で利用！！今回は，東工大ＣＯＥグリッドGfarm活用事例について紹介

（関連する）東工大ＣＯＥ • 大規模知識資源の体系化と活用基盤構築(http://www.coe21.lkr.titech.ac.jp) • 目的 • 大規模知識資源の標準的な体系化，構造化と活用技術を含む知識の構築の実現 • 誰でも容易に知識資源を構築し、体系的に活用することが可能になり、既存学術の一層の発展と新しい学術の開拓が寄与 • 対象となる知識資源 • 話し言葉，自然言語，遠隔教育資源，古典文献，歴史文書，マルチメディア教材 • 研究内容 • 大規模知識資源の構築技術，検索技術，データマイニング技術，ネットワーク技術，並列計算技術

生命資源 Web知識資源辞書資源放送資源教育資源歴史資源活用基盤映像資源音声資源素材資源 Web資源言語資源統計・確率相互結合法グラフ体系化論理伝統的精密化メタデータオントロジーインフラストラクチャ（計算基盤）蓄積ネットワーク計算プロジェクトの取り組み音・映像検索 TV番組や個人で撮ったビデオから見たいシーンを検索します。確率的なパターン認識技術を用い、例えば野球番組では、80%以上の精度です。あすなろ (Eラーニング) PRESRI (論文検索) 外国人のための日本語マルチメディア学習支援システムとして、テキストのよみ、意味（５ヶ国語）、文構造が表示されるほか、海外からでも日本語の講義が理解できるよう開発しています。世界ではこれまでどういう研究がされてきたのか, そういう動向調査をする時に, 論文を「いもづる」式に検索できるシステムです. インターネット上にある日本語, 英語の論文が検索できます. 平家・源氏物語の解析話し言葉要約平安・室町時代には、日本語はどのように話されていたのでしょうか。「源氏物語」や「平家物語」などの古典文学を、コンピューターによって統計的に分析することによって、現代につながる日本語の姿を明らかにします。講演会のスピーチや、ミーティングでの会話などの「話し言葉」は、文字で表現された書き言葉とは異なる様々な特徴をもっています。話し言葉の解析を行い、スピーチの要約や会議の議事録を自動的に作成する研究を行っています。セマンティック・ウェブ Knowledge Store(知識資源サーバー) 現在のウェブ・ページは人間が読んで理解するように作られています。セマンティック・ウェブは、構造化された付加データ、用語の分類体系、自動推論を用いて、コンピュータがウェブ・ページの内容を自動的に関連付けられるようになることを目指す技術です。様々な知識の元となる情報を電子的に確実に格納して、使いやすいように提供するためのシステムです。知識の元となる情報、文章だけでなく、図面や写真や映像等、いろいろな形態を取っているので、それらを効率よく検索する機能を準備することが重要です。あいまい検索 “AのようなB”といったあいまいな表現、例えば「雲のような犬」を入力することで白くてふわふわした犬」の画像を索できるシステムの実現を目指しています。グリッド計算サーバーたくさんのPCを高速のネットワークで結合し、知識資源の体系化の研究に使用します。また、知識資源の高速な検索にも威力を発揮します。技術革新に伴い、社会で必要とされる人材は移り変わっていきます。一昔前にはソフトウェア危機が叫ばれ、多くの人がソフトウェア分野に入りました。現在はネットワーク技術者がもてはやされています。そして、皆さんが社会に出て活躍する頃に必要なのは、知識資源を取り扱う技術をもった知識資源研究者・技術者です。このような研究者・技術者になるためには、文系・理系の垣根を越えた幅広い知識をもち、かつ、知識の体系化や利用基盤の構築のために必要な、計算機科学の技術を身に付けることが必要です。我々の取り組みは始まったばかりで、困難な課題が山積みです。チャレンジ精神旺盛な若い人たちの力が是非とも必要です。一緒に新しい社会を創っていきましょう！

COEグリッド（PCクラスタ) • 利用目的 • 研究基盤として • 並列アプリケーション，検索技術，データマイニング技術 • 我々のねらい • アプリケーションの並列化，グリッド化 • アプリケーションを研究目的で使用させてもらう • ユーザ • コンピュータに詳しくない • コンピュータに詳しくてもアプリケーションの並列化に詳しくない

計算工学 C (予定) 数理・計算 C (予定) COEグリッドサテライト@中川研 33ノード（管理ノード2，計算ノード128) メインサイト@計算機センター 130ノード（管理ノード2，計算ノード128) ほとんどのユーザはこちらを利用東京工業大学　大岡山キャンパス (目黒区)

計算ノード128 Back-end Back-end 管理マシン　２台 Front-end A Front-end B Front-end C COEグリッドマシン（メインサイト）

ＣＯＥグリッド（サテライト） Back-end 管理マシン　1台計算ノード32

COEグリッド上のアプリケーション • MPI • 行列計算など • 商用アプリケーション • Grid Mathmatica • Matlab • etc. • Condor(http://cs.wisc.edu/condor) • ジョブスケジューリングシステムとして利用 • 音声認識関係，比喩関係のアプリ • etc. Gfarmが関連

COEグリッド上のGfarm • 構成 • Frontend B，Cに１つずつGfarmを構成 • Frontend毎にメタデータサーバ＋クライアント，I/Oノード • Version 1.1.1を利用 • ベンチマーク用と一般公開用（そのうち統合） • 総容量 • Frontend B: 約2TB • Frontend C: 約４TB • LDAP • OpenLDAP 2.1系の導入 • Redhat 9のデフォルトのバージョンは2.0系 • Gfarmでは性能上の理由により2.1系の利用を推奨

COEグリッド上のGfarm (cont’d) • バックアップ • 現状ではGfarmのメタデータだけをバックアップ • メタデータサーバで以下のようなコマンドをcron実行 • リストア • メタデータサーバ上で以下のような操作をすればよい（まだ，そのような状況に陥っていない） #ldapsearch –x –LLL –b dc=grid dc=jp >gfarm-backup.ldif #service slapd stop #mv /var/gfarm-ldap /var/gfarm-ldap.bak #mkdir /var/gfarm-ldap #slapadd –f slapd.conf –l gfarm-bakup.ldif #service slapd start

COEグリッドでのGfarmの利用例 • Gfarmを使うとうれしいソフトウェア • Condor • 音声認識関係，比喩関係アプリケーションのジョブスケジューリングで主に利用 • Hidden Markov Model Toolkit (HTK) • 音声認識関係アプリケーションで利用 • 隠れマルコフモデルを構築し，操作するためのポータブルなツールキット

Condor • Condor • 複数の計算機をプールとして管理し，プール内の適切な計算機に対しジョブスケジューリングを行う • 計算機の遊休時間を有効活用 • ハイスループットコンピューティングの実現 • 柔軟なスケジューリングが可能 • リモートシステムコールによる実行ホストへのデータの自動転送 • チェックポイント • プロセスマイグレーション • オーナーシップの保護

Condor (cont’d) • Universe • Condorの実行環境を定義 • Standard Universe • チェックポイント，リモートシステムコールのサポート • Condorの提供するライブラリをstatic linkする必要(condor_compile) • condor_compile cc main.o tools.o –o program • Vanilla Universe • condor_compileできないアプリケーションのための環境 • チェックポイントとリモートシステムの未サポート • データアクセスのために共有ファイルシステムを使用しなければならない→　Gfarmの利用 (NFSの代用）

Gfarm上でのCondorの動作 この部分をGfarmを利用 I/Oノードの分散化

Gfarm上でのCondorの動作(cont’d) • Condor側からGfarmファイルシステムへのアクセスを呼び出す • Gfarmファイルシステムへのアクセスを確認 • Gfarm Parallel I/O APIで直接記述されたプログラム • 既存のプログラムも無修正で利用可能 • Gfarm システムコールフックライブラリの導入 • GfarmのライブラリパスをCondor側に渡す必要 • Job Submitファイル中で、現在のシェル環境変数の設定を引き継ぐようgetenv=Trueと指定して対応

HTKによる音声認識アプリケーション • Hidden Markov Model Toolkit (HTK) • C言語から呼ぶことができるモジュールライブラリとツールの集合 • 音声認識の分析，Hidden Markov Modelの学習，テスト，結果の分析 • 音声モデルの構築 • 初期モデルから音声学習データに対してHTKを利用した計算を行うことにより別のモデルを生成

音声認識アプリケーションの動作 １．マスタで音声学習データを分割して，各ワーカへ配布２．初期モデルをワーカへなげ，音声学習データ，HTKを用いて計算３．新たなに生成したモデルをマスタになげる４．マスタでは，ワーカが生成したモデルをマージして，新たなモデルを生成

音声認識アプリケーションの動作 • 問題点 • モデルのギャザー，スキャターの際にファイルI/Oの集中が起こる • →　NFSではhung upなどが問題 • Gfarmの利用 • Ｉ／Ｏの分散化 • 音声学習データのモデルのギャザーも容易

COEグリッドでのGfarm利用の現状 • まだまだあまり使われてない • 啓蒙活動が足りてない • ユーザは並列アプリケーションに不慣れ • レクチャー（Gfarmの使用方法の講習）などが今後の課題 • 大規模データを用いるアプリケーションにとって有効 • アクティブに利用した場合にどうなのかはまだ不明 • より多くのアプリケーションで試す必要

東工大ＣＯＥグリッド Ｇｆａｒｍ活用事例