强化学习导论 | 第七章 n步时序差分算法_n步时序差分预测-CSDN博客文章浏览阅读2.1k次。前面讲到了MC(蒙特卡洛方法)和TD(0)算法。MC方式是根据采样到的经验轨迹实际得到的奖励来更新轨迹中出现的状态的价值,即在每个轨迹结束之后更新。TD(0)方法中某个状态的价值是根据从当前状态走一步的...... admin2024-01-25