特牛生活网

强化学习第四章和第五章_强化学习第二版 课后题第五章答案-CSDN博客

网友收藏
文章浏览阅读381次。强化学习第四章和第五章Policy Gradient策略梯度一场游戏episode(回合) 或者 trial(试验)total rewardretun 回报Trajectory状态和行为的集合gradient ascent梯度下降法Discounted Return(折扣回报)..._强化学习第二版 课后题第五章答案