- 链接地址:https://blog.csdn.net/ting0922/article/details/104967963
- 链接标题:强化学习导论 | 第七章 n步时序差分算法_n步时序差分预测-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:3440
文章浏览阅读2.1k次。前面讲到了MC(蒙特卡洛方法)和TD(0)算法。MC方式是根据采样到的经验轨迹实际得到的奖励来更新轨迹中出现的状态的价值,即在每个轨迹结束之后更新。TD(0)方法中某个状态的价值是根据从当前状态走一步的即时奖励和后续状态的估计价值相加得来的,即在执行一个动作之后就更新价值。那么,能否将MC和TD(0)结合呢?基于这个想法,就产生了n步时序差分算法。即在某个状态的价值等于在当前状态下走n步得到的奖..._n步时序差分预测
版权声明:本文发布于特牛网址导航 内容均来源于互联网 如有侵权联系删除
标签:n步时序差分预测