- 链接地址:https://blog.csdn.net/weixin_43236007/article/details/89292596
- 链接标题:强化学习&基础1.4 | reward奖励_强化学习 reward 上下限-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:8507
文章浏览阅读7.4k次,点赞2次,收藏7次。智能体的目标是最大化期望累计奖励我们把在时间t的回报定义为Gt,在t时间的时候智能体会选择动作At来使期望Gt最大化。通常智能体无法完全肯定地预测未来的奖励怎么样,他必须依赖于预测和估算我们可以给公式乘上折扣率,来表示对未来回报的关注度,当gama靠近0表示只关注与眼前的利益,当gamma靠近1表示对未来的回报和当前回报一样地注重。这在连续性任务中是十分重要滴,因为没有停止点,折扣率防止..._强化学习 reward 上下限
版权声明:本文发布于特牛网址导航 内容均来源于互联网 如有侵权联系删除