价值迭代和策略迭代有什么区别？ - 问答

1.策略迭代包括策略评估和策略改进，并且反复迭代这两项直到策略收敛。 2.价值迭代包括找到最优价值函数提取一个策略。两者没有重复，因为一旦值函数最佳，则其中的策略也为最佳（即收敛）。 3.寻找最优值函数也可以看作是策略改进和截短的策略评估（仅在对所有状态进行一次扫描之后，不考虑收敛而重新分配v_（s））*的组合。 4.除了最大操作（突出显示）以外，策略评估和找到最优值函数的算法其实差不必多 5政策改进和政策提取的关键步骤也是一样的，但是前者涉及稳定性检查。

以我的经验来看，策略迭代比值迭代快，因为策略比值函数收敛更快。

2021-01-22 17:54 更新

玩手机的豆浆 • 691

理工酷

首页

圈子

资源下载

邀请回答

推荐问题

推荐资源

加入组织

理工酷

首页

圈子

资源下载

站外资源

问答

网址导航

邀请回答 换一组

推荐问题

推荐资源

加入组织

邀请回答