- 链接地址:https://blog.csdn.net/qq_47997583/article/details/124440131
- 链接标题:动手学强化学习第六章(Dyna-Q算法)_dyna算法-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:511
文章浏览阅读1.5k次,点赞2次,收藏6次。文章目录Dyna-Q算法1.理论部分2.代码实践Dyna-Q算法1.理论部分Dyna-Q 算法是一个经典的基于模型的强化学习算法。Dyna-Q 使用一种叫做 Q-planning 的方法来基于模型生成一些模拟数据,然后用模拟数据和真实数据一起改进策略。Q-planning 每次选取一个曾经访问过的状态,采取一个曾经在该状态下执行过的动作,通过模型得到转移后的状态以及奖励,并根据这个模拟数据,用 Q-learning 的更新方式来更新动作价值函数。我的理解是与Q-learning相比就是将过去的交_dyna算法
版权声明:本文发布于特牛网址导航 内容均来源于互联网 如有侵权联系删除
标签:dyna算法