430 likes | 503 Views
Two-phase search 法 : 動的生化学ネットワークモデルの偏りのない効率的なパラメータ探索. 前田和勲 1 、倉田博之 2. 1 九州工業大学大学院情報工学府 博士後期課程 2 九州工業大学大学院情報工学研究院 . 序論. コンピュータシミュレーション は複雑な生命システム ( 生化学ネットワーク ) の動的な特性を理解するための重要なツールである. システムの動的な挙動は ネットワーク構造 と 速度パラメータ によって決まる. ネットワーク構造はデータベースから入手可能であるが、速度パラメータの値に関する情報は入手が困難である.
E N D
Two-phase search法: 動的生化学ネットワークモデルの偏りのない効率的なパラメータ探索 前田和勲1、倉田博之2 1九州工業大学大学院情報工学府 博士後期課程 2九州工業大学大学院情報工学研究院
序論 コンピュータシミュレーションは複雑な生命システム(生化学ネットワーク)の動的な特性を理解するための重要なツールである システムの動的な挙動はネットワーク構造と速度パラメータによって決まる ネットワーク構造はデータベースから入手可能であるが、速度パラメータの値に関する情報は入手が困難である 未知の速度パラメータを推定する 実験データとシミュレーションのズレを最小化する速度パラメータを求める (最適化問題)
序論 推定された(1つの)速度パラメータセットを用いてシミュレーションやシステム解析が行われる • 速度パラメータは環境によって変化する • 実験データは必ず誤差を含む • 1つの挙動を生み出す速度パラメータセットが1つとは限らない 特定の速度パラメータセットに依存しており、システムのローカルな特性しか反映されていないのでは? 実験データを再現しうる多様な速度パラメータセットを求め、それらを用いて共通の結論を導く
序論 実験データを再現しうる多様な速度パラメータセットを探し出すにはどうすれば良いか? 探索が狭い領域で集中的に行われてはいけない ランダム探索 一様乱数による探索 →探索に偏りはないが、探索効率が悪い 遺伝的アルゴリズム 生物の進化を模倣した発見的最適化手法 探索範囲を狭めていき、有望な領域を集中的に探索 →探索効率は良いが、探索に偏りがある 効率的で偏りのない探索手法を開発する
Two-phase search法 ランダム探索(RS)と遺伝的アルゴリズム(GA)を組み合わせた探索手法 Pが解となる条件 First Phase AE: Allowable Error RSによって解候補を探し出す 解候補 Second Phase 解が存在する領域 GAによって解候補の近傍を集中的に探索し、解を得る 効率的で偏りのない探索を実現する
TPS法のコントロールパラメータ • AEC: Pが解候補となる閾値 (AEC<AE) • RIG: Second phaseのGAを行う範囲 AEC: Allowable Error for a Coarse solution RIG: Region of Initial population for a search by GAs Pが解候補となる条件 (First phase終了条件) Pが解となる条件 (Second phase終了条件) Second phaseでは解候補を中心とした各辺の長さがRIGのn次元超立方体の中でGAを行う
検証 • TPS法は効率的で偏りのない探索を行えるのか? • TPS法の探索はコントロールパラメータ(AECとRIG)の設定によってどのように変化するのか? • TPS法は実際のパラメータ推定でも効率的で偏りのない探索を行えるのか? →実験1: ベンチマーク関数への適用 →実験2: 大腸菌熱ショック応答モデルへの適用
実験1: ベンチマーク関数への適用 • TPS法を用いて、下表の各ベンチマーク関数の10000個の解(f(P)<AEを満たすP)を探索した • 対照としてRSとSGA(Search by GAs)でも探索を行った
ランドスケープ 解が存在する領域 Sphere Rosenbrock Rastrigin Schwefel
ANFMベンチマーク関数 ANFM: Autogenous negative feedback model 生化学モデルに基づいたベンチマーク関数 下式で表される、タンパク質が自身の合成を抑制する反応を考える y: タンパク質濃度 k: 合成速度定数 K: 結合定数 定常状態でのタンパク質濃度ysは ys=1となるときのk,Kを求めることを考えると 本研究ではf(k,K)<0.0001を満たすk,Kを解とした 探索範囲は(k,K)=(2,1)×10±2
探索性能の評価方法 探索効率の評価 EVA:目標とする数の解を得るまでに必要な評価回数 解分布の評価 CRV: 解の重心 SDV: 各速度パラメータの標準偏差 散布図 ヒストグラム CRV: Centroid Vector SDV: Standard Deviation Vector TPS法は効率的で偏りのない探索を目指すので、RSよりも少ない評価回数でRSと同じ解分布を得られると期待される ただし、Mは解の数、またi番目の解ベクトルをPsiとして TPS法のEVAはRSよりも小さくなると期待される TPS法のCRV、SDV、散布図、ヒストグラムはRSに近いことが期待される psi,jはi番目の解のj番目の速度パラメータ
結果: Rosenbrock関数 (RAEC=1.03, RRIG=0.8) RS SGA TPS
結果: Rosenbrock関数 RS(○),SGA(□),TPS(△)
結果: ANFM (RAEC=106, RRIG=2×10-3) RS SGA TPS
結果: ANFM RS(○),SGA(□),TPS(△)
結果 TPS法はRSと同等の解分布とRSより優れた探索効率を達成した
コントロールパラメータの探索効率への影響 TPS法のコントロールパラメータ AEC: Pが解候補となる閾値 RIG: Second phaseのGAを行う範囲 • AECが小さい時、EVAはRSに近い • AECとRIGが大きい時、EVAはSGAに近い • AECが大きくRIGが小さい時、EVAは大きい EVA:目標数の解を得るまでに必要な評価回数 ANFM
コントロールパラメータの解分布への影響 CRV: 解の重心 SDV: 各速度パラメータの標準偏差
AECが小さい時、TPS法はRSに近い AECとRIGが大きい時、TPS法はSGAに近い AECが大きくRIGが小さい時、RSともSGAとも異なる コントロールパラメータの影響 RSと同じ解分布を得られて、かつ探索効率が最も良い 最適なコントロールパラメータ値 • ANFMはAECを大きくしてもRSと同じ解分布を得ることができる • ANFMはAECを大きくとれるのでEVAを小さくすることができる
ランドスケープ 生化学モデルに基づいた問題は一般のベンチマークとは異なるランドスケープを持つ Sphere Rosenbrock TPS法は生化学モデルに基づいた問題で特に効果を発揮する Rastrigin ANFM
実験2: 大腸菌熱ショック応答モデルへ適用 • 熱ショックはタンパク質を変性させて機能を損なわせる • 大腸菌は熱ショック時に熱ショックタンパク質(hsps)を発現させ、変性タンパク質を正常な構造に戻す 大腸菌熱ショック応答の制御の中心はσ32である
評価関数 • 変性タンパク質濃度に対して正常タンパク質濃度が十分に高い • σ32濃度は熱ショック開始時にピークに達し、熱ショック前より高い濃度の定常状態に落ち着く ただし、penalty1,penalty2<0のときpenalty1=penalty2=0 TPS法を用いて1000個の解を得るまで探索を行った (AE=0.02)
結果: EVA, CRV, SDV AEC=1 (RAEC=50) RIG=4 (RRIG=0.5) RS(○),SGA(□),TPS(△)
結果: 解分布 RS(○),SGA(□),TPS(△)
結果: 解分布 RS(○),SGA(□),TPS(△) TPS法はRSよりも優れた探索効率でRSに近い解分布を達成した
結論 • 生化学ネットワークのパラメータ推定において、目的の挙動を再現する多様な速度パラメータセットを探索するために、TPS法を開発した • TPS法は偏りなく効率的な探索を実現できた • 2つのコントロールパラメータが探索の性能に与える影響について明らかにした • 大腸菌熱ショック応答モデルのパラメータ推定問題でも有効性を示した
謝辞 基盤研究(B) ご清聴ありがとうございました
・効率的に解を見つけ出せる ・探索空間の広い範囲から解を見つけ出すことには向いていない ・広い範囲から偏りなく解を見つけ出すことができる ・探索効率は悪い E + S E:S E + P
結果: Rastrigin関数 (RAEC=1.01, RRIG=0.8) RS SGA TPS
結果: Rastrigin関数 (RAEC=1.01, RRIG=0.8) RS(○),SGA(□),TPS(△)
結果: Sphere関数 RS(○),SGA(□),TPS(△)
結果: Schwefel関数 RS(○),SGA(□),TPS(△)
ベンチマーク 探索実行条件 SGA&2nd phase in SGA: UNDX+MGG, 最大世代数100,母集団サイズ10,MGGの子の数10 HSR 探索実行条件 SGA: UNDX+MGG, 最大世代数100,母集団サイズ10,MGGの子の数10 2nd phase in TPS: : UNDX+MGG, 最大世代数20,母集団サイズ10,MGGの子の数10