0
1.策略迭代包括策略评估和策略改进,并且反复迭代这两项直到策略收敛。 2.价值迭代包括找到最优价值函数提取一个策略。两者没有重复,因为一旦值函数最佳,则其中的策略也为最佳(即收敛)。 3.寻找最优值函数也可以看作是策略改进和截短的策略评估(仅在对所有状态进行一次扫描之后,不考虑收敛而重新分配v_(s))*的组合。 4.除了最大操作(突出显示)以外,策略评估和找到最优值函数的算法其实差不必多 5政策改进和政策提取的关键步骤也是一样的,但是前者涉及稳定性检查。
以我的经验来看,策略迭代比值迭代快,因为策略比值函数收敛更快。
收藏