270 likes | 382 Views
先端研究論文紹介ゼミ. M1 石川智昭. 論文紹介. 「 Development of hierarchical structures for actions and motor imagery: a constructivist view from synthetic neuro -robotics study 」 (2009) Ryunosuke Nishimoto ・ Jun Tani 動作と行動イメージのための階層構造の開発 :合成神経ロボット研究からの構成主義観点. 目次. Abstruct Introduction Model
E N D
先端研究論文紹介ゼミ M1 石川智昭
論文紹介 • 「Development of hierarchical structures for actions and motor imagery: a constructivist view from synthetic neuro-robotics study」 (2009)RyunosukeNishimoto・ Jun Tani • 動作と行動イメージのための階層構造の開発 :合成神経ロボット研究からの構成主義観点
目次 • Abstruct • Introduction • Model • Setup of humanoid robot experiments • Results • Discussion • Summary
Ⅰ.Abstract • 目標指向行動の発達学習に神経ロボット実験を示す。 • 反復教師訓練プロセスによって、一連の目標指向行動を達成する視感覚(visuo-proprioceptive:VP)の流れを予測するように訓練された。 • 実験の結果、機能的な階層構造は行動プリミティブが初期段階に発生し、目標を達成するシーケンスが後の段階を通して現れることを示した。 • 操作可能な内部表現が感覚運動の相互作用を通して現れるという主張はPiagetの構成主義観点と一致。
Ⅱ.Introduction • 複数の目標指向行動を一つのニューラルネットワークモデルに埋め込む分散表現を利用する、いわゆる感覚順モデルというニューラルネットワークモデルを提案。 • 感覚順モデルは連続時間リカレントニューラルネットワークモデル(CTRNN)の順方向ダイナミクスによって指定された目標に基づく視感覚(VP)状態の次の感覚を予測する。 • 感覚順モデルの原型の学習能力を調整するために、複数の時間スケールの活性化ダイナミクスでニューロングループからなる動的ニューラルネットワークモデルを提案。
Introduction • 意味のある機能的な階層がグループの間で時間スケールの違いを利用することで現れると示された。 • このモデルで示される分散表現潜在的な階層型の自己組織の特徴は、明確な局所モジュールと明白な操作を装う従来の局所表現観点と対をなす。
Ⅲ.Model • Multiple Timescales RNN(MTRNN)と呼ばれる感覚順モデルの考えを実装する方法について • モデルは単純な視覚システムによるヒューマノイドロボットが教示者の監督下にある物を操作する、複数の目標指向タスクを学習することを前提とする。 • 各タスクの目標軌道は使用されるネットワークモデルにいくつかのニューロンの初期状態を設定することで、実験者によってロボットに提供される。 General
General システムへの入力 腕の関節のエンコーダ値 (正規化された8次元ベクトル) カメラヘッドの角度 (2次元ベクトル) 出力 現在の と に基づいて、次の時間ステップにおける 固有感覚の予測 視覚の予測
General • MTRNNでモデル化されるシステムの主なコンポーネントはVP状態の現在の入力を受け、次のステップ状態における予測を出力する。 • 各ニューロンユニットの活性化は時定数τを使った、以下の微分方程式で定められる。 時定数τはほとんどのユニット活性化ダイナミクスのタイムスケールを決定し、値が大きくなるとダイナミクスは低速になる。 は、時間ステップtにおけるi番目のニューロンユニットごとの膜電位 は、j番目ユニットからi番目ユニットまでのシナプス荷重 は、j番目ユニットの活性化
General • ネットワークは、入出力及び非入出力ユニットで構成され、後者をコンテクストユニットと呼ぶ。 • コンテクストユニットは時定数の値に基づいて、 時定数の値が小さい高速コンテクストユニット 時定数の値が大きい低速コンテクストユニット という、2つのグループに分けられた。
Training • 教師信号を得るために、実験者は目標行動の軌道に沿ってロボットの両腕を導く。 • ロボットハンドが軌道に沿って導かれているときに感じたVPシーケンスが記録され、教師シーケンスとして用いられる。 • 学習の目的は教師シーケンスとモデルの出力の間の誤差を最小にする結合荷重の最適値を見つけること。 • すべてのシーケンスに共通する結合荷重と各シーケンスの低速コンテクストユニットの初期状態の適応のために通時的誤差逆伝播(BPTT)法を使用する。
Action generation in physical environment and motor image • 訓練課程で、ネットワークは次時間ステップにおけるVP入力を予測するために学習する。 • 感覚状態の予測はロボットコントローラーに目標関節角度を提供する。 • 次ステップへの入力としてVP予測のフィードバックを用いることで、実際の行動を生じることなく、自律的にVP軌道を生成できる。 • 閉ループ生成のプロセスは行動の思考シミュレーションの観点から、運動イメージに対応することができる。
Ⅳ.Setup of humanoid robot experiments • 小型ヒューマノイドロボットは実環境と身体の相互作用の役割で使用された。 • 作業台はロボットの正面に設置、そこに置かれた立方体を操作の目標対象として用いた。 • ロボットタスクは3つの異なるタスク行動を生成するために学習すること。
Setup of humanoid robot experiments • すべてのタスク行動はホームポジションから始まり、同じ位置に戻ることで終了。
Setup of humanoid robot experiments • 3つの指導セッションでロボットにタスク行動を教える。 • 第1セッションでは、ネットワークがまだ効果的でないので、ロボットガイダンスはモータ制御ゲインを0にセットすることで、ロボットの動きを抑制することで実行される。 • 第2、3セッションでは、指導は制御ゲインを通常の動作値の20%に設定し、ロボットの活発な動きを可能にすることで対話的に実行される。 • ネットワークは各セッションで得られた教示シーケンスデータを用いてオフラインで訓練される。
学習関連パラメータ • 閉ループ比率CLr 1.0のとき完全な閉ループ(先読み予測) 0.0のとき完全な開ループ(1ステップ予測)を意味する。 • と はTPM(topology preserving map)の自己組織化のために変更される別のパラメータ。
Setup of humanoid robot experiments • 3つのセッションの指導の後、タスク3は空中で物を回転させる新しい行動プリミティブを導入するように修正される。 • セッション4では、訓練パラメータは以前の学習内容と新しいものの間の干渉を最小にするために緩和されている。
Ⅵ.Discussion Summary of the robot experiments • 発達過程はいくつかの段階に分類可能。 初期段階では、実際の生成における行動プリミティブの大部分が早くてタスクは完了していない。 2段階目では、シーケンスはまだ完了していないが、大部分の行動プリミティブは実際に発生する。 3段階目では、すべてのタスクがプリミティブの正しい順序で正しく生成される。 • 下位レベルであるプリミティブレベルが早くに組織化されるのは当然であり、高位レベルのシーケンスレベルは下位レベルの生成に基づいて後で行われる。
Correspondences to psychology of development and learning • Piagetの理論を構成する2つの中心的な概念 同化:対象の既存スキームが物との構造的な結合を確立するために利用されるプロセス 適応:物との別の構造的な結合を確立するためのスキームを調整する適応可能なプロセス • 実験を見ると、Piagetの理論の方式は高速コンテクストネットワークに埋め込まれる一組の行動プリミティブに対応できるかもしれないと理解される。
Correspondences to psychology of development and learning • セッション4で、新しい行動を導入した場合はあらかじめ獲得したプリミティブが新しい行動プリミティブがさらに自己組織されている間、新しいタスクで利用されるために、同化と適応が発生すると解釈できる。 • 6つの行動プリミティブが発達指導の最後において実際の行動と運動イメージを生成するために組織的に操作されたという事実は、特定の動作表現が長期的な自己組織化プロセスを介して現れると解釈できる。
Correspondences to psychology of development and learning • 階層的にゲート制御されたCTRNNを使って同様の実験を行っているが、現在の方式に比べてパラメータの調整が困難。 • MTRNNはニューロンダイナミクスが推測的な分節メカニズムを導入することなく、連続空間と時間領域で感覚運動フローの並びと相互作用できるように設計された。 • 従来の感覚順モデルと異なり、有限の目標指向経路のみ学ぶので、組み合わせ爆発の問題は起きない。
Robotics synthetic approach • 計算論的神経科学のアプローチは、詳細なニューロンメカニズムが行動データに多くの注意を払うことなく、神経接続性と細胞発火特性の神経科学データに基づく解剖学的に関連した神経回路モデルを作ることで検討され逆方向へ行く。 • 人間の発達と学習が全体的な視点で見られるならば、ロボット実験はそのような視点を実行するために素晴らしいプラットフォームを提供することができる。
Ⅶ.Summary • ロボットは、予測行動を生成する際に、低速コンテクストダイナミクスと高速コンテクストダイナミクスの共存によって特徴付けられたMTRNNモデルで実行された。 • 複数の目標指向行動のためのロボットの反復指導を通して、特定の構造的発達過程が発生した。 • 行動プリミティブは初期に高速コンテクストパートで自己組織化され、それらのシーケンスは後で低速コンテクストパートに現れた。 • ロボット統合実験の結果は構成主義のPiagetの考えとかなり類似していると述べている。