先端研究論文紹介ゼミ

先端研究論文紹介ゼミ 2010/11/12 B4　福光　宣文「A model for learning to segment temporal sequences, utilizing a mixture of RNN experts together with adaptive variance」 RNNと適応変化エキスパートの混合を利用した、セグメント時系列の学習モデル

目次 • Abstract • Introduction • Model • Numerical simulation • Discussion • Conclusion

Abstract • 再帰型ニューラルネットワークのエキスパートモデルの混合による新しい学習方法の提案（モデルは動的にエキスパートを切り替えることで希望の系列を発生させる） • 尤度関数を変更するメカニズムによりマルコフ連鎖の切り替えを学ぶ

Introduction　１ １８９０年半ば以来行われてきた多くの研究にもかかわず、複雑な長期の配列パターンでのスケーリングは不可能と考えられてきた。 • 長期の場合誤差逆伝搬法による有効な誤差信号を伝搬できないため

Introduction　２ 新しい学習システムの提案 RNNとエキスパートモジュールの混合型モデル • シーケンスが多くのモジュールを増やすことで安定性の低下なしで再使用できるブロックに分割されることを許可 • 勾配降下アルゴリズムに基づく最大尤推定法の使用

Introduction３ シミュレーションの流れ • モジュールへのブロックの配分のための結合荷重がモジュールごとの相違パラメータを適応的に変化していることを示す。 • 確立的に複数のパターンを結合することで作られるデータから一組のプリミティブを抽出するための学習により問題に対する適応力を示す。 • 一般化能力に基づいて従来法と比較する • 実ロボットでのモーターの遷移をゲート制御ネットワークと組み合わせて適応する。

Model１ ここで定義されるモデルは、再帰型ニューラルネットワーク（RNN）とエキスパートモデルの混合以下はその更新式

Model２ • Nはモジュールの数、eは0<e<1をみたす時定数 • XnとYnは、入力と出力ベクトル • Uni 、Cni,、Yniはそれぞれiにおける文脈ノードの内部ポテンシャル、文脈ノードの値、出力値 • 行列Wと、ベクトルvはモジュールパラメータです。

Model３learning method • 学習方法はRNNとエキスパートの混合の確立分布に基づいて定められる • （６）式：既知事実において定義される出力の確立密度関数 • （７）式：平均平方エラーを最小にする

Model４ • （１０）式：ベクトルnがN次元ブラウン運動によって決定されることをあらわす • （１１）、（１２）式：勾配降下法によりトレーニングを行う提案法と従来法の違い正規分布の最適化された変化を使用（１５）式：モジュールiの学習速度はσiによる

Model５

Numerical simulation１3-1Learning 提案法と従来法の比較９本のリサジュカーブの変化しているマルコフ連鎖によって発生する二次元シーケンスを学習する

Numerical simulation２結果１（誤差） • 開ループ（a）と閉ループ（b）の２つのパターンで実験を行った • いずれの場合も提案法（最適化）のほうが従来型（定数）よりもいい結果が得られたことがわかる

Numerical simulation３ • Fig. 4. The number of elements in Q for each learning step. Fig. 3. The parameter under adaptive optimization. • Σの最適化による値の収束 • Qの値の推移 • 誤差が大きいときは増加し誤差が小さくなるにつれ収束する

Numerical simulation４

Numerical simulation５結果２（出力データ）

Numerical simulation６3-2Generalization 10万回の学習ステップ後の誤差と｜Q｜の値（Qは系列Yを発生させるために使用するモジュールの数）

Numerical simulation７3-3Practical application 提案方法の実用的な学習人型ロボットによる実験立方体が置かれた作業台の前にロボットをセット。ロボットがいくつかの動作から希望の動作の組み合わせを自主的に発生させる。タスク（１）、（２）物体を上下に移動（３）、（４）物体を左右に移動（５）、（６）物体を前後に移動　　計６つ

Numerical simulation６ ロボットの各振る舞いはホームポジションから開始しホームポジションで終了するトレーニングデータは上図のように３種の振る舞いからなる

Numerical simulation７ Fig. 10. Mean square error for closed-loop dynamics for learning of humanoid robot tasks. (a) Learning for expert modules. (b) Learning for a gating network to generate gn in computation of closed-loop dynamics.

Numerical simulation８

Discussion • 観測可能なデータにおいて、提案された学習方法は非決定論的なスイッチングを用いデータを分割させることができることを示した。 • マルコフ連鎖によって動的に機能を変えるシステムを示した。

Conclusion • この研究においてRNNとエキスパートの混成の学習システムを提案した。 • 提案されたシステムによる連続した流れのトレーニングモデルを基関数に分割できることを示した。（従来法では不可） • 一般化能力も従来法よりも優れていることを証明した。 • 実ロボットにおける実験により、その動作を確認した。以上から提案法が現実的な問題の適応できているが証明された

ご清聴ありがとうございました。

先端研究論文紹介ゼミ

先端研究論文紹介ゼミ

Presentation Transcript