强化学习导论 | 第七章 n步时序差分算法_n步时序差分预测-CSDN博客

网友收藏2024-01-25 00:50

链接地址：https://blog.csdn.net/ting0922/article/details/104967963
链接标题：强化学习导论 | 第七章 n步时序差分算法_n步时序差分预测-CSDN博客
所属网站：blog.csdn.net
被收藏次数：3440

文章浏览阅读2.1k次。前面讲到了MC(蒙特卡洛方法)和TD(0)算法。MC方式是根据采样到的经验轨迹实际得到的奖励来更新轨迹中出现的状态的价值，即在每个轨迹结束之后更新。TD(0)方法中某个状态的价值是根据从当前状态走一步的即时奖励和后续状态的估计价值相加得来的，即在执行一个动作之后就更新价值。那么，能否将MC和TD(0)结合呢？基于这个想法，就产生了n步时序差分算法。即在某个状态的价值等于在当前状态下走n步得到的奖..._n步时序差分预测

本文地址：https://tebull.com/detail/570144.html

标签：n步时序差分预测