动手学强化学习第六章（Dyna-Q算法）_dyna算法-CSDN博客

网友收藏2024-01-25 00:54

链接地址：https://blog.csdn.net/qq_47997583/article/details/124440131
链接标题：动手学强化学习第六章（Dyna-Q算法）_dyna算法-CSDN博客
所属网站：blog.csdn.net
被收藏次数：511

文章浏览阅读1.5k次，点赞2次，收藏6次。文章目录Dyna-Q算法1.理论部分2.代码实践Dyna-Q算法1.理论部分Dyna-Q 算法是一个经典的基于模型的强化学习算法。Dyna-Q 使用一种叫做 Q-planning 的方法来基于模型生成一些模拟数据，然后用模拟数据和真实数据一起改进策略。Q-planning 每次选取一个曾经访问过的状态，采取一个曾经在该状态下执行过的动作，通过模型得到转移后的状态以及奖励，并根据这个模拟数据，用 Q-learning 的更新方式来更新动作价值函数。我的理解是与Q-learning相比就是将过去的交_dyna算法

本文地址：https://tebull.com/detail/570246.html

标签：dyna算法