Optimal Policies for MDPs: Difference between revisions

Latest revision as of 10:11, 28 April 2023

Description

In an MDP, a policy is a choice of what action to choose at each state An Optimal Policy is a policy where you are always choosing the action that maximizes the “return”/”utility” of the current state. The problem here is to find such an optimal policy from a given MDP.

Parameters

$n$: number of states

Table of Algorithms

Name	Year	Time	Space	Approximation Factor	Model	Reference
Bellman Value Iteration (VI)	1957	$O({2}^n)$	$O(n)$	Exact	Deterministic	Time
Howard Policy Iteration (PI)	1960	$O(n^{3})$	$O(n)$	Exact	Deterministic	Time
Puterman Modified Policy Iteration (MPI)	1974	$O(n^{3})$	$O(n)$	Exact	Deterministic

@@ Line 6: / Line 6: @@
 == Parameters ==
-No parameters found.
+$n$: number of states
 == Table of Algorithms ==
@@ Line 27: / Line 27: @@
 [[File:Optimal Policies for MDPs - Time.png|1000px]]
-== Space Complexity Graph ==
-[[File:Optimal Policies for MDPs - Space.png|1000px]]
-== Time-Space Tradeoff ==
-[[File:Optimal Policies for MDPs - Pareto Frontier.png|1000px]]

Optimal Policies for MDPs: Difference between revisions

Latest revision as of 10:11, 28 April 2023

Contents

Description

Parameters

Table of Algorithms

Time Complexity Graph

Navigation menu

Optimal Policies for MDPs: Difference between revisions

Latest revision as of 10:11, 28 April 2023

Description

Parameters

Table of Algorithms

Time Complexity Graph

Navigation menu

Search