330 likes | 477 Views
2006 年 3 月 1 日 「核融合実験のデータ処理に関する次世代システム技術の検討」. XML ベースの研究管理システム RCM(R&D Chain Management) System. ☆ 変化の激しい研究業務をより速く、より正確に! ☆研究開発者により優しく、ノウハウの継承を楽に!. Web Server. 利用者端末. ローカルデータ. リモート端末. サービスブローカ. 解析結果. 解析サーバ. ファイルサーバ. データベースサーバ. シミュレータ. バックアップサーバ. 日本原子力研究開発機構 上島 豊. 発表の流れ.
E N D
2006年3月1日 「核融合実験のデータ処理に関する次世代システム技術の検討」2006年3月1日 「核融合実験のデータ処理に関する次世代システム技術の検討」 XMLベースの研究管理システムRCM(R&D Chain Management) System ☆変化の激しい研究業務をより速く、より正確に!☆研究開発者により優しく、ノウハウの継承を楽に! Web Server 利用者端末 ローカルデータ リモート端末 サービスブローカ 解析結果 解析サーバ ファイルサーバ データベースサーバ シミュレータ バックアップサーバ 日本原子力研究開発機構 上島 豊
発表の流れ 1)RCMシステム開発の動機 2)R&Dチェーンの問題点と改善策としてのRCM提案 3)RCMシステムの制御に関する特徴 4)RCMシステムのUIに関する特徴 5)RCMシステムのDBに関する特徴 6)RCMシステムの可視化に関する特徴 7)まとめとRCMシステムの展開
IT化が進み、研究において情報が溢れるようになり、個人での情報処理・管理能力も限界IT化が進み、研究において情報が溢れるようになり、個人での情報処理・管理能力も限界 開発動機 IT革命において、計測器やシミュレーションなどで発生する情報は、爆発的に増大した。=>高精細データ、多次元データ等 しかし、グループウェアや基幹ソフト(ERP,SCM)がある業務系・事務系に比べ研究業務は、ITシステム化が進んでいない。 研究業務は、従来個人の情報処理・管理能力により支えられてきたが、作業増大が限界に近く、創造的な研究に支障が発生。
研究者は、管理や人材育成面のプロではないため、ノウハウ伝承を行うことが難しい研究者は、管理や人材育成面のプロではないため、ノウハウ伝承を行うことが難しい 開発動機 研究分野は、業務系と異なり、非定型・非定常性が高く、個人能力に依って支えられている部分が多い。 また、研究者は、管理面や人材育成面のプロではないため、途中過程を把握や技術継承を行い人材育成を行うことが難しい。 競争力を高めるため研究過程のシステム化を進め、個人レベルの暗黙知からの脱却(技術継承可能な知)を図る必要性がある。
発表の流れ 1)RCMシステム開発の動機 2)R&Dチェーンの問題点と改善策としてのRCM提案 3)RCMシステムの制御に関する特徴 4)RCMSシステムのUIに関する特徴 5)RCMシステムのDBに関する特徴 6)RCMシステムの可視化に関する特徴 7)まとめとRCMシステムの展開
問題提起 ①観測 観測用PC 研究業務では、データ管理が個人任せで、情報共有や機密管理や品質保証が困難 現在の研究の基本的な流れは、手動部分も多い ②FTPでダウンロード ③ノートにメモ 観測日付 : 2003/12/10 ファイル名 : 03121001.spe レーザ種別 :ガラスレーザ 温度 :○○度 コメント :面白い画像 観測データ 計測・解析データを個人で管理するのは、危険がいっぱい ①パソコンが故障 ②メモが行方不明 ③解析パターンを思い出せない
問題提起 可視化・画像処理等の高度な処理により生成された派生データの再現性確保は、難題である 実験・シミュレーションによる2次元データ 断面グラフ生成 研究者・技術者の自由度のある 可視化・解析パラメータ ・表示範囲 ・コントラスト ・ノイズフィルタ ・ ・ ・ ・断面位置 ・断面角度 ・幅方向 積分区間 ・断面方向 移動平均量 ・ ・ ・
問題提起 研究業務では、非定型・非定常性により業務系のERP、SCMのようなシステム化が困難 研究業務で共通 実験・シミュレーションの計画立案 データのメモ データの利用状況記録 実験・シミュレーション データのバックアップ データの解析 可視化、統計解析、比較評価 インタラクティブなトライアル&エラーでの解析 解析履歴のメモ
提案 研究業務を統合的に支援するシステムは、どのような機能・技術が必要か! RCM (R&D Chain Management) System 必要とされる機能要件 ●非定型、非定常なR&Dチェーン変化への迅速な対応性 ●データの検索性とトレーサビリティの確保 ●各種データ間の派生関係把握 ●データの共有化、公開化および機密化 ●各種機能サーバの分散化による高い拡張性、耐障害性 ●古いR&Dチェーンやソフトウェアの取り込み 採用すべき技術 ●効率的使用と使いやすさを兼ねるためCLI、GUIの双方を装備 ●RDB様の固定的データベース設計でない、フレキシブルなデータベース ●R&Dチェーン変化を記述できるワークフロー機能 ●さまざまなレベルで設定できる情報閲覧・更新権限管理機能 ●クライアントによらないWebサービスを基盤としたシステム
提案 XML技術を利用し、変化の激しいR&Dチェーンに追従できるRCMシステムを提唱 0階層 様々な層でのXMLによるデータ送信 利用者PC Internet、LAN等 1階層 (DMZに配備) Webサーバ 画面表示 XMLユーザインタフェース S/W 2階層 サーバ定義 ワークフロー定義 サービスブローカ XML分散サーバ制御 S/W SOAPSSH,SCP 分析PC 計測装置 可視化サーバ 3階層 (サービスサーバ) DBデータ構造 可視化定義 DBサーバ ファイルサーバ シミュレータ XMLデータベース S/W
提案 データ simulation入力 ③解析元データ獲得 ①要求 Experiment environment angle = 45° Exposure time=10s Simulation input Set = 2 Mesh size= 2048:2048 Web Server 利用者端末 外部格納データ ④転送 コントロールサーバ メモ等の任意データを追加登録 ⑥保存 ②参照 記録 ⑤解析 解析結果 データベースサーバ Simulation input Set = 2 Meshu size= 2048:2048 解析サーバ ⑦バックアップ ファイルサーバ バックアップサーバ 原研の実験支援DB・シミュレーションポータル、阪大医学部の細胞シミュレーション等の導入実績
発表の流れ 1)RCMシステム開発の動機 2)R&Dチェーンの問題点と改善策としてのRCM提案 3)RCMシステムの制御に関する特徴 4)RCMSシステムのUIに関する特徴 5)RCMシステムのDBに関する特徴 6)RCMシステムの可視化に関する特徴 7)まとめとRCMシステムの展開
RCM-制御 様々な階層の定義やタスクフローは、XMLで記述されており、メンテナンス性、移植性が高い XMLによる各種定義例 ワークフロー定義 <toFile>bigFile.log</toFile> <next result="success">999</next> <next result="error">999</next> </FileTransfer> <End no="999"> <status>wait</status> <next>end</next> </End> </WorkFlow> <?xml version="1.0" encoding="EUC-JP"?> <WorkFlow> <name>FileTransfer WorkFlow</name> <status>wait</status> <Start no="0"> <status>wait</status> <next>1</next> </Start> <FileTransfer no="1"> <status>wait</status> <fromServerType>AprServer</fromServerType> <fromServerName>aprdb1</fromServerName> <fromDirectory></fromDirectory> <fromFile>ControlServer.log</fromFile> <toServerType>FileServer</toServerType> <toServerName>sscmpp</toServerName> <toDirectory></toDirectory> サーバ定義 <?xml version="1.0" encoding="EUC-JP"?> <ControlServer> <httpType>http</httpType> <name>MssPC</name> <host>localhost</host> <port>80</port> <target>ControlServer/Entry.jws</target> </ControlServer>
RCM-制御 ヒューマンエラーによるデータ書換、サーバ障害によるデータ消失を防ぐ機構が容易に実装可能 Web Server コントロールサーバ 参照 ファイル探査 ファイル無しの応答 ファイル転送 データベースサーバ リストア命令 ファイルサーバ バックアップサーバ データの格納場所を意識させない擬似階層ストレージ ・データをバックアップサーババックアップしておき、検索時にファイルサーバに 該当するファイルが存在しなければ、自動的にリストアし、検索結果を返す。 リストア実施
発表の流れ 1)RCMシステム開発の動機 2)R&Dチェーンの問題点と改善策としてのRCM提案 3)RCMシステムの制御に関する特徴 4)RCMSシステムのUIに関する特徴 5)RCMシステムのDBに関する特徴 6)RCMシステムの可視化に関する特徴 7)まとめとRCMシステムの展開
RCM-UI 制御ロジックフリーなGUIによる利用者に使いやすいインタフェースを構築することができる。
RCM-UI 各種実行作業をXMLテンプレートして登録しておき、CLIの拡張性、簡便性を確保(GUIも勿論) XMLやユーザルールの確認 テンプレートをロードし、編集して実行 テンプレート自身をユーザが登録できる
RCM-UI XMLリーフの数値・文字列による再階層化表示機能により、自明でないデータ間相関を探査できる 再階層化指示 ・ノード名で分類 ・fileの後にexp, shot所属を付加 明らかになった データ相関 ・targetにfile情報はない ・diagにfile情報があるのは 偶数番号shotのみである ・laser1は、入力間違えかも!
発表の流れ 1)RCMシステム開発の動機 2)R&Dチェーンの問題点と改善策としてのRCM提案 3)RCMシステムの制御に関する特徴 4)RCMSシステムのUIに関する特徴 5)RCMシステムのDBに関する特徴 6)RCMシステムの可視化に関する特徴 7)まとめとRCMシステムの展開
XML技術によるフリーフォーマットな実験管理は、実験途中での項目や階層構造の追加を可能としたXML技術によるフリーフォーマットな実験管理は、実験途中での項目や階層構造の追加を可能とした RCM-DB 一般的な研究を意識した自由なDB設計(XML型DB) 1)XMLの構造は任意に構築でき、時々刻々と変化する個々の実験データ及び 実験環境条件、その解析結果新しい項目を追加、管理できる。 2)検索においてもXMLのあらゆる階層で検索ができ、データ構造に縛られない 検索が可能。 1 2 3 11 12 13 6 7 4 5 14 16 17 15 9 10 8 19 20 18
過去の情報を含め研究グループ間での情報共有と自分の成果保護を考慮している過去の情報を含め研究グループ間での情報共有と自分の成果保護を考慮している RCM-DB 情報共有および過去の研究との比較を重視したDBシステム ・DB入力項目(XMLタグ)の動的追加(必要な情報をタグ付で追加可能) ・実験・計測環境データ部分は、並列化をデータベースで可能 ・Postgres8.0機能を使った任意時刻へのロールバック機能 ・一般公開、プロジェクト内公開、非公開の3レベルの情報公開レベル DB性能:Xeon 3GHz使用メモリ 1GB 1実験=60data(平均50MB)と仮定し、 1画像= 5XMLレコード(平均100B)と想定した、 検索hit数 格納実験数
開発した並列DBは、データ格納時にXMLデータを均等に分配する=>検索の分散並列化開発した並列DBは、データ格納時にXMLデータを均等に分配する=>検索の分散並列化 RCM-DB プロジェクト、研究シリーズ、ユーザ管理、 データマージ等はDBmanagerが行う round robin data group insert DBmanager 実験9 実験 2,5,8 実験 3,6 実験 1,4,7 parallel search 実験番号が1,3,6 master slave1 slave2 slaveDBの追加に伴うデータ再分配 実験 4,8 実験 2,6 実験 3,7 実験 1,5 master slave1 slave2 slave3
発表の流れ 1)RCMシステム開発の動機 2)R&Dチェーンの問題点と改善策としてのRCM提案 3)RCMシステムの制御に関する特徴 4)RCMSシステムのUIに関する特徴 5)RCMシステムのDBに関する特徴 6)RCMシステムの可視化に関する特徴 7)まとめとRCMシステムの展開
DBと連携した可視化・解析により再現性保障と可視化スキームのノウハウ蓄積ができる(1)DBと連携した可視化・解析により再現性保障と可視化スキームのノウハウ蓄積ができる(1) RCM-Viz ・RAWデータ保存時自動解析( RAWデータをDB登録時に自動解析を行う) ・自動可視化 ・自動断面抽出 ・自動サムネール作成とデータリンク
DBと連携した可視化・解析により再現性保障と可視化スキームのノウハウ蓄積ができる(2)DBと連携した可視化・解析により再現性保障と可視化スキームのノウハウ蓄積ができる(2) RCM-Viz XML可視化スクリプト <runtime_name>ランタイム名</runtime_name> <data_set name="データ名" type ="データ型"> <view_set name="ビュー名"> <preset> <パラメータキーワード>設定値</パラメータキーワード> </preset> <read> <パラメータキーワード>設定値</パラメータキーワード> </read> <transform> <パラメータキーワード>設定値</パラメータキーワード> </transform> <view> <パラメータキーワード>設定値</パラメータキーワード> </view> <output> <パラメータキーワード>設定値</パラメータキーワード> </output> </view_set> </data_set> ・インタラクティブ再解析機能(対話的に再解析でき、最終解析パラメータをDB化) 可視化・解析データ検索画面 XML可視化パラメータ表示画面 インタラクティブ可視化 インタラクティブ可視化画面 可視化画像保存時 にDB登録
DBと連携した可視化・解析により再現性保障と可視化スキームのノウハウ蓄積ができる(3)DBと連携した可視化・解析により再現性保障と可視化スキームのノウハウ蓄積ができる(3) RCM-Viz XML可視化スクリプト <runtime_name>ランタイム名</runtime_name> <data_set name="データ名" type ="データ型"> <view_set name="ビュー名"> <preset> <パラメータキーワード>設定値</パラメータキーワード> </preset> <read> <パラメータキーワード>設定値</パラメータキーワード> </read> <transform> <パラメータキーワード>設定値</パラメータキーワード> </transform> <view> <パラメータキーワード>設定値</パラメータキーワード> </view> <output> <パラメータキーワード>設定値</パラメータキーワード> </output> </view_set> </data_set> 複数のデータを指定し、 同じ可視化パラメータで 同時一斉可視化 ・バッチ再解析(DB化された解析パラメータを使って、他の複数データを再解析) 可視化・解析データ検索画面 XML可視化パラメータ表示画面 可視化画像保存時 にDB登録 バッチ可視化
発表の流れ 1)RCMシステム開発の動機 2)R&Dチェーンの問題点と改善策としてのRCM提案 3)RCMシステムの制御に関する特徴 4)RCMSシステムのUIに関する特徴 5)RCMシステムのDBに関する特徴 6)RCMシステムの可視化に関する特徴 7)まとめとRCMシステムの展開
まとめ 業務系のSCMに対応するRCM(R&DChain Management)は、R&Dの改善に有効! *研究業務は、新技術開発や技術継承のために、よりIT化、 統合システム化が進む必要があるのではないか? *日本の研究開発競争力を高めるため、変化が激しく、個人 の暗黙知に依存しているR&Dチェーンをトータルに支援するRCM(R&DChain Management)システムを開発、テスト導入。 *変化の激しい研究開発をより速く、より正確に!*研究開発者により優しく、ノウハウの継承を楽に!*研究の進展管理等のマネジメント面でも大きく役立つ!
RCM応用 RCMシステムのログDBを利用することで研究の進展度、データ参照率、改竄可能性を確認! RCMシステムのログは、XML形式でデータベース化され、誰が(Who)、いつ(When)、何を(What)、どこで(Where)、どのように(How)したかが検索、トレースできる。 ・進展度報告が妥当かどうかの確認。・毎回定型的な作業を手動で行っていないかどうか?=>効率化・参照・検索されないデータはどの程度あるか?・データが途中で置き換わっていないか?
RCM応用 どのクラスか? 同じクラス 結合重みベクトル分布 結合重みベクトル 異なるクラス 入力ベクトル RCMシステムのトレーサビリティ機能を利用することで使用者の暗黙知を顕在化! 学習ベクトル量子化法 (Learning Vector Quantization : LVQ) 分類したいデータの複数の特性指標をひとつのベクトルデータと考える。 様々なデータはその多次元ベクトル空間に分布していることになる。 すでに分類されているデータセットを用いて分類を正しくできるように多次元ベクトル空間を結合重みVectorを使い、分割( Quantization)を学習(Learning)する。 学習ステップ数
RCM応用 間違ったデータペーア(偽Subtractデータ)を96%の再現率(数え落しの少なさ)で判定! データペア:バックグラウンド:SHOTデータなどのデータ対 研究者が間違ったデータペアを登録しようとした場合、警告を発せられる。
RCM応用 自動分類は、実験の物理的な特性にまで有効である可能性がある HHG:210Seeded:107X:129total:446 HHG実験のデータの分類は95%以上の確率で分離 FarField:119 Focus:327 total:446 Focus-FarFiledであるかないかも非常に高確率で分離
RCM応用 実験・シミュレーションによる2次元データ 断面グラフ生成 研究者・技術者の自由度のある 可視化・解析パラメータ ・表示範囲 ・コントラスト ・ノイズフィルタ ・ ・ ・ ・断面位置 ・断面角度 ・幅方向 積分区間 ・断面方向 移動平均量 ・ ・ ・ 2次元画像から特徴的な断面を生成するためのガイドにも、LVQが有効(精度75%)である ●可視化パラメータのみからイメージの特徴を表す適切な断面かどうか を75%の精度で予測できる。 乱数か何かで可視化パラメータをたくさん発生し(可視化は不要)、2つ程度の可視化パラメータ候補を見つけ出せば、ほぼ確実に得たい断面像を自動生成できることになる。