Policy Improvement for POMDPs using gradient ascent

Policy Improvement for POMDPs using gradient ascent Gaurav Marwah

Introduction • POMDP stands for partially observable markov decision processes. • Framework for planning under uncertainty in actions and observations. • Optimal planning requires storing entire event history. • Existing approaches: Policy iteration, value iteration, gradient ascent, sampling etc.

Approach • Policy as a probabilistic finite state controller. • Probabilities: • Node transition probability • Action probability • The probabilities will be adjusted using gradient ascent to maximize value function. • Similarity to back propagation method.

Policy Improvement for POMDPs using gradient ascent

Policy Improvement for POMDPs using gradient ascent

Presentation Transcript

USING TECHNOLOGY FOR IMPROVEMENT

Policies for POMDPs

RL for Large State Spaces: Policy Gradient

Ascent

Using Data for Continuous Improvement

POMDPs

Modeling Speech using POMDPs

Learning and Planning for POMDPs

Using Data for Program Improvement

USING RTI FOR DISTRICT IMPROVEMENT

Approximate POMDPs using Point-based Value Iteration

Policy Gradient in Continuous Time

Networked Distributed POMDPs: DCOP-Inspired Distributed POMDPs

Solving POMDPs Using Quadratically Constrained Linear Programs

Decision-making on Robots Using POMDPs

RL for Large State Spaces: Policy Gradient

RL for Large State Spaces: Policy Gradient

Using data for program improvement

POMDPs