特牛网址导航

深度强化学习系列: “奖励函数”的设计和设置(reward shaping)-CSDN博客

网友收藏
文章浏览阅读5.6w次,点赞93次,收藏370次。概述前面已经讲了好几篇关于强化学习的概述、算法(DPG->DDPG),也包括对环境OpenAI gym的安装,baseline算法的运行和填坑,虽然讲了这么多,算法也能够正常运行还取得不错的效果,但是一直以来忽略了一个非常重要的话题,那就是强化学习的《奖励函数》的设置。1、 Gym-Pendulum-v0例子分析奖励函数为什么要讲强化学习的概述呢?也许在我们以前运行的算法中我们并..._奖励函数
标签:奖励函数