特牛网址导航

动手学强化学习第六章(Dyna-Q算法)_dyna算法-CSDN博客

网友收藏
文章浏览阅读1.5k次,点赞2次,收藏6次。文章目录Dyna-Q算法1.理论部分2.代码实践Dyna-Q算法1.理论部分Dyna-Q 算法是一个经典的基于模型的强化学习算法。Dyna-Q 使用一种叫做 Q-planning 的方法来基于模型生成一些模拟数据,然后用模拟数据和真实数据一起改进策略。Q-planning 每次选取一个曾经访问过的状态,采取一个曾经在该状态下执行过的动作,通过模型得到转移后的状态以及奖励,并根据这个模拟数据,用 Q-learning 的更新方式来更新动作价值函数。我的理解是与Q-learning相比就是将过去的交_dyna算法
标签:dyna算法