強化学習

強化学習 RT

強化学習とは… きっかけAに対して行動Bをおこすごほうびをあたえる上記を繰り返しすることで、きっかけAに対し行動Bを起こしやすくなる

強化学習の枠組み 強化信号（報酬）ｒ行動ａ状態S 環境環境学習者学習者は強化信号（報酬）がよりたくさんもらえるように行動を最適化していく

Monkey and Banana Problem • Initial Situation: at(monkey,a) at(bananas,b) at(box,C) height(monkey,low) height(banana,high) height(box,low) !grasp(monkey,bananas) path(a,b) path(b,a) path(a,c) path(c,a) path(b,c) path(c,b) • Final Situation: has(monkey,bananas). • Four Actions • GO monkey from location x to location yIF at(monkey,x) path(x,y) • ADD go(monkey,y) at(monkey,y) • DELETE at(monkey,x) • GRASP monkey bananasIF at(monkey,x) at(bananas,x) height(monkey,y) height(bananas,y) ADD grasp(monkey,bananas) has(monkey,bananas) • CLIMB monkey on top of boxIF at(monkey,x) at(box,x) height(monkey,low) height(box,low) ADD climb(monkey,box) height(monkey,high) • DELETE height(monkey,low) • PUSH monkey box from location x to location yIF at(monkey,x) at(box,x) height(monkey,low) height(box,low) path(x,y) • ADD push(monkey,box,y) at(monkey,y) at(box,y) • DELETE at(monkey,x) at(box,x)

Monkey and Banana Problem • Initial Situation: at(monkey,a) at(bananas,b) at(box,c) height(monkey,low) height(banana,high) height(box,low) !grasp(monkey,bananas) path(a,b) path(b,a) path(a,c) path(c,a) path(b,c) path(c,b) • Final Situation: has(monkey,bananas)

Four Actions • GO monkey from location x to location y IF at(monkey,x) path(x,y) ADD go(monkey,y) at(monkey,y) DELETE at(monkey,x) • GRASP monkey bananas IF at(monkey,x) at(bananas,x) height(monkey,y) height(bananas,y) ADD grasp(monkey,bananas) has(monkey,bananas) • CLIMB monkey on top of box IF at(monkey,x) at(box,x) height(monkey,low) height(box,low) ADD climb(monkey,box) height(monkey,high) DELETE height(monkey,low) • PUSH monkey box from location x to location y IF at(monkey,x) at(box,x) height(monkey,low) height(box,low) path(x,y) ADD push(monkey,box,y) at(monkey,y) at(box,y) DELETE at(monkey,x) at(box,x)

強化学習の枠組み（その２） エージェント観測入力状態の同定状態環境ルール集合ルールルール候補の選択強化ルール候補行為の実行行為選択学習器報酬

補足 • 環境認識の際、十分な情報を認識できる１．が十分でないと、同じ状態のものを違う状態と誤認し、学習してしまう、エイリアシンと呼ばれる問題生じる

マルコフ決定過程 1 報酬 0.8 b 0.2 S1 S2 S3 a 0.4 0.6 c 遷移確率行為状態遷移図であらわす報酬、状態、行為を示す状態遷移確率は現在の状態のみに依存する状態遷移確率は時間的に変動しない

行動決定 行為 b d a 状態S c e 状態ｓは政策πに従って将来得られるだろう報酬を割り引いた割引期待報酬によって評価される行動a V(s,π)= r(s, π(s))+ γ∑P(s,π(s),s´)V(s´,π) 各状態から行為を選ぶことを政策（Policy ）という環境 Vを最大にする政策πを最適政策という

ただ、マルコフ決定過程があらかじめ、 完全に記述できるとは限らない。多くの場合、状態空間や取りえる行動は既知だが、遷移確率は未知 Q学習

Q学習 • 遷移確率がわからなくても、　　　学習可能 • 評価値としてQ値を用いる • 実際の試行探索過程を通して　　学習 • 状態と行為をペアとして考える

現在の状況をｓとする 状態がｓ´になる選択したルールのQ値の変更 Q学習法のながれ Q値の初期化政策に従い行動決定 Q値の最大ルールの選択

Q値の更新式 Q(s,a) (1－α) Q(s,a) + α (ｒ(s,a)＋γmaxQ(s´,a´)) a´ αは学習率（0≦α≦1）ｒ(s,a)は報酬 γは割引率（0≦γ≦1）

やってみようQ学習 S １２３４５６７８９１０ G Q(1,down) Q(2,down) Q(1,right) Q(8,right) Q(7,right) Q(9,right) Q(6,right) 0 + 0.5（0　＋　0.1 × 0.5 - 0） 0 + 0.5（0　＋　0.1 × 0 - 0） 0 + 0.5（1　＋　0.1 × 0 - 0） 0 + 0.5（0　＋　0.1 × 0 - 0） 0 + 0.5（0　＋　0.1 × 0 - 0） 0 + 0.5（0　＋　0.1 × 0 - 0） 0 + 0.5（0　＋　0.1 × 0 - 0） Q(9,right) 0.5 + 0.5（1　＋　0.1 × 0 – 0.5） Q(s,a) Q(s,a) + α（ｒ　＋　γmaxQ(s´,a´) – Q(s,a)） a´ 行動はup,down,left,right r = 1か0 α = 0.5 γ = 0.1

参考文献 • 「インテリジェントシステム」　　福田敏男編著 • 「人工知能の基礎」　　　　　　　馬場口登、山田誠二　共著 • 「強化学習」　　　　　　　　　　　三上貞旁、皆川雅章　共訳

強化学習

強化学習

Presentation Transcript