Bellman Value Iteration (VI) (Optimal Policies for MDPs Optimal Policies for MDPs)

From Algorithm Wiki

Jump to navigation Jump to search

Time Complexity

$O({2}^n)$

Space Complexity

$O(n)$ words

(Only needs to store values (V) and policy (pi), both size O(n))

Description

Approximate?

Exact

Randomized?

No, deterministic

Model of Computation

Word/Real RAM

Year

1957

Reference

https://www.jstor.org/stable/24900506

Retrieved from "https://algorithm-wiki.csail.mit.edu/w/index.php?title=Bellman_Value_Iteration_(VI)_(Optimal_Policies_for_MDPs_Optimal_Policies_for_MDPs)&oldid=44949"