文章浏览阅读1.5k次,点赞2次,收藏6次。文章目录Dyna-Q算法1.理论部分2.代码实践Dyna-Q算法1.理论部分Dyna-Q 算法是一个经典的基于模型的强化学习算法。Dyna-Q 使用一种叫做 Q-planning 的方法来基于模型生成一些模拟数据,然后用模......
admin
文章浏览阅读1.4k次,点赞3次,收藏10次。前面几章已经讲了model-based (如:动态规划)和model-free (蒙特卡洛、时序差分)方法。这两种方法的区别在于计算价值函数的时候是否已知模型(这里指状态转移概率)。虽然这两种强化学......
admin
友情链接申请要求: 不违法不降权 权重相当 请联系QQ:737597453