1 / 23

輪講用資料 6/14

輪講用資料 6/14. B4 森貴之. 前回まで. ロジスティクスの 数理 久保 幹雄 第3章 経済発注量の数理 の続き 2のべき乗方策 容量を考慮した複数品目モデル 生産を考慮したモデル 価格を考慮した経済発注量モデル 第5章 在庫の数理 新聞売り子問題 基在庫方策(多段階モデル). 今回の内容. 第5章 在庫の数理 続き 動的 計画 (DP). 動的計画 (DP) とは. 動的システムに 対する最適化手法の一つ 意思決定 が段階ごとになされる 段階 は離散化された時間軸を表すことに用いられる. 離散 時間動的システム.

nonnie
Download Presentation

輪講用資料 6/14

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 輪講用資料6/14 B4 森貴之

  2. 前回まで • ロジスティクスの数理 • 久保幹雄 • 第3章 経済発注量の数理 の続き • 2のべき乗方策 • 容量を考慮した複数品目モデル • 生産を考慮したモデル • 価格を考慮した経済発注量モデル • 第5章 在庫の数理 • 新聞売り子問題 • 基在庫方策(多段階モデル)

  3. 今回の内容 • 第5章 在庫の数理 続き • 動的計画(DP)

  4. 動的計画(DP)とは • 動的システムに対する最適化手法の一つ • 意思決定が段階ごとになされる • 段階は離散化された時間軸を表すことに用いられる

  5. 離散時間動的システム • Descrete time dynamic system • : 離散的な時刻, • : 期におけるシステムの状態, • : 期における意思決定変数, • は期の状態で決まるから選ばれる • : 期におけるランダム性,

  6. 離散時間動的システム • 費用は下式 • : 期における費用 • : 最終回における費用(確定値) • : 方策(Policy) • が許容(admissible)である ⇔

  7. 離散時間動的システム • 許容方策を与えると、によっての確率分布が定まり、T期の総費用の期待値が一意に定まる。 • DPの目的はと許容方策の集合が与えられたとき、なるをみつけること • : 最適値や最適目的関数という

  8. DPアルゴリズム • 最適性の原理(principle of optimality) • ある期において状態が起こる確率を正と仮定し、期から最終期までの費用の期待値を最小にするDP問題を考える • この時、の期以降の部分からなる方策が最適 • ある期のから始めて、最終期までで運用した時の総費用の期待値をとする。(到達費用関数)

  9. DPアルゴリズム • の時、は自明 • の時、は、その期に発生する費用との和を最小化するを選択すればよい • 以降の順にを計算する

  10. 確定的DP問題 • ランダム性をふくまない • (とりうるシステムの状態)は有限と仮定 • 期ごとに意思決定するのと最初にすべて意思決定する方策に差がない • 状態変化はからまでの有向枝 • 期の費用は有向枝に付随する費用 • ダミー点0,n+1を追加

  11. システムイメージ図 http://msirocoder.blog35.fc2.com/ から引用

  12. 確定的DP問題 • : t期に状態がからに移動する意思決定をした時の費用 • : T期においてでいるときの費用 = • 初期条件からスタートするアルゴリズムを後退型DPアルゴリズムという • 前進型も存在する

  13. 無限期間DP問題 • Infinite horizon • とする • は初期状態割引率での費用 • 将来の費用を現在価値に割り引く必要がある

  14. Markov連鎖の応用 • 状態が有限の時に用いることができる • Markov決定問題と呼ばれる • 有向グラフを用いる • : 推移確率(transition probability) • の時に可能なコントロールの集合が • : でコントロールを行いに推移した時の費用 • : でを行った時の期待費用

  15. Markov連鎖の応用 • 初期状態を与えた時のは • 上式を最小にする許容方策を(最適方策)と書く • 無限期間DP問題では期に依存しない定常方策を求めることが多い(と書く)

  16. 確率的最短経路問題 • : 状態の集合で有限。各々の状態にはの番号を付ける • での時のに推移する確率  より (有限を仮定) • 終端状態を0で表し、を仮定 • 目的は最小の期待費用で終端状態に到達すること

  17. 確率的最短経路問題 • 期の移動後に終端状態に達する確率が0より大きくなる有限な正数の存在を仮定 • すると以下が成立 • 再帰方程式の収束性 • 期待費用は発散しない • : 再帰方程式 • 最適値に対するベルマン方程式 • 最適値は以下の方程式を満たす • この方程式はベルマン方程式と呼ばれる

  18. 確率的最短経路問題 • 前頁存在の仮定の下で初期状態と定常方策を与えた確率的最短経路問題に対し、以下が成立 • 定常方策に対するベルマン方程式 • に対するは以下の方程式の唯一解である • 定常方策の収束性 • 定常方策はを収束させる • が最適である⇔がBellman’s eqにおける最小値を達成している

  19. 価値反復法(value iteration method) • 再帰方程式から最適値を算出するアルゴリズム • 初期条件の下で以下の反復を行う • 無限の反復が必要に…

  20. 方策反復法(policy iteration method) • 第反復における方策をと書く • 初期条件:およびを任意の許容な定常方策から出発し、すべてのに対してとなるまで以下の2stepsをくりかえす。 • 方策評価ステップ • 方策改善ステップ

  21. 方策反復法 • 方策評価ステップ • を未知変数とした以下の線型方程式系を解き、その解をとする • 方策改善ステップ • 上で得たを元に、反復目の方策を以下の式から求める 方策反復法の有限収束性も前述の存在仮定から証明できる

  22. 方策反復法 • 線型方程式を解くにはガウスの消去法などの標準的アルゴリズムを用いる • しかし、状態の数が大きいときには以下の反復法が用いられる • を初期条件とし、に対して を計算する。適当なに対するを方程式系の解の近似として用いる

  23. 次週までの予定 • 基在庫方策への動的計画の応用 • 次週までに終わりそう • マルコフ過程をもっと詳しく…?

More Related