# 強化学習 - PowerPoint PPT Presentation

1 / 16

## Related searches for 強化学習

I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.

- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

#### Presentation Transcript

RT

きっかけAに対して行動Bをおこす

ごほうびをあたえる

よりたくさんもらえるように行動を最適化していく

### Monkey and Banana Problem

• Initial Situation: at(monkey,a) at(bananas,b) at(box,C) height(monkey,low) height(banana,high) height(box,low) !grasp(monkey,bananas) path(a,b) path(b,a) path(a,c) path(c,a) path(b,c) path(c,b)

• Final Situation: has(monkey,bananas).

• Four Actions

• GO monkey from location x to location yIF at(monkey,x) path(x,y)

• ADD go(monkey,y) at(monkey,y)

• DELETE at(monkey,x)

• GRASP monkey bananasIF at(monkey,x) at(bananas,x) height(monkey,y) height(bananas,y) ADD grasp(monkey,bananas) has(monkey,bananas)

• CLIMB monkey on top of boxIF at(monkey,x) at(box,x) height(monkey,low) height(box,low) ADD climb(monkey,box) height(monkey,high)

• DELETE height(monkey,low)

• PUSH monkey box from location x to location yIF at(monkey,x) at(box,x) height(monkey,low) height(box,low) path(x,y)

• ADD push(monkey,box,y) at(monkey,y) at(box,y)

• DELETE at(monkey,x) at(box,x)

### Monkey and Banana Problem

• Initial Situation:

at(monkey,a) at(bananas,b) at(box,c)

height(monkey,low) height(banana,high) height(box,low)

!grasp(monkey,bananas)

path(a,b) path(b,a) path(a,c)

path(c,a) path(b,c) path(c,b)

• Final Situation:

has(monkey,bananas)

### Four Actions

• GO monkey from location x to location yIF at(monkey,x) path(x,y)

DELETE at(monkey,x)

• GRASP monkey bananasIF at(monkey,x) at(bananas,x)

height(monkey,y) height(bananas,y)

• CLIMB monkey on top of boxIF at(monkey,x) at(box,x)

height(monkey,low) height(box,low)

DELETE height(monkey,low)

• PUSH monkey box from location x to location yIF at(monkey,x) at(box,x)

height(monkey,low) height(box,low) path(x,y)

ADD push(monkey,box,y) at(monkey,y) at(box,y)

DELETE at(monkey,x) at(box,x)

エージェント

ルール集合

ルール

ルール候補の選択

ルール候補

• 環境認識の際、十分な情報を認識できる

１．が十分でないと、同じ状態のものを

エイリアシンと呼ばれる問題生じる

マルコフ決定過程

1

0.8

b

0.2

S1

S2

S3

a

0.4

0.6

c

b

d

a

c

e

を割り引いた割引期待報酬によって評価される

V(s,π)= r(s, π(s))+ γ∑P(s,π(s),s´)V(s´,π)

Vを最大にする政策πを最適政策という

ただ、マルコフ決定過程があらかじめ、

Q学習

Q学習

• 遷移確率がわからなくても、　　　学習可能

• 評価値としてQ値を用いる

• 実際の試行探索過程を通して　　学習

• 状態と行為をペアとして考える

Q学習法のながれ

Q値の初期化

Q値の最大ルールの選択

Q値の更新式

Q(s,a)

(1－α) Q(s,a) + α (ｒ(s,a)＋γmaxQ(s´,a´))

αは学習率（0≦α≦1）

ｒ(s,a)は報酬

γは割引率（0≦γ≦1）

やってみようQ学習

S

１０

G

Q(1,down)

Q(2,down)

Q(1,right)

Q(8,right)

Q(7,right)

Q(9,right)

Q(6,right)

0 + 0.5（0　＋　0.1 × 0.5 - 0）

0 + 0.5（0　＋　0.1 × 0 - 0）

0 + 0.5（1　＋　0.1 × 0 - 0）

0 + 0.5（0　＋　0.1 × 0 - 0）

0 + 0.5（0　＋　0.1 × 0 - 0）

0 + 0.5（0　＋　0.1 × 0 - 0）

0 + 0.5（0　＋　0.1 × 0 - 0）

Q(9,right)

0.5 + 0.5（1　＋　0.1 × 0 – 0.5）

Q(s,a)

Q(s,a) + α（ｒ　＋　γmaxQ(s´,a´) – Q(s,a)）

r = 1か0 α = 0.5 γ = 0.1

• 「インテリジェントシステム」　　福田敏男編著

• 「人工知能の基礎」　　　　　　　馬場口登、山田誠二　共著

• 「強化学習」　　　　　　　　　　　三上貞旁、皆川雅章　共訳