Howard Policy Iteration (PI) (Optimal Policies for MDPs Optimal Policies for MDPs)

From Algorithm Wiki

Revision as of 11:53, 15 February 2023 by Admin (talk | contribs) (Created page with "== Time Complexity == $O(n^{3})$ == Space Complexity == $O(n)$ words (Only needs to store values (V) and policy (pi), both size O(n)) == Description == == Approximate? == Exact == Randomized? == No, deterministic == Model of Computation == Word/Real RAM == Year == 1960 == Reference == http://web.mit.edu/dimitrib/www/dpchapter.pdf")

(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

Jump to navigation Jump to search

Time Complexity

$O(n^{3})$

Space Complexity

$O(n)$ words

(Only needs to store values (V) and policy (pi), both size O(n))

Description

Approximate?

Exact

Randomized?

No, deterministic

Model of Computation

Word/Real RAM

Year

1960

Reference

http://web.mit.edu/dimitrib/www/dpchapter.pdf

Retrieved from "https://algorithm-wiki.csail.mit.edu/w/index.php?title=Howard_Policy_Iteration_(PI)_(Optimal_Policies_for_MDPs_Optimal_Policies_for_MDPs)&oldid=44950"