- 链接地址:https://guotong1988.blog.csdn.net/article/details/124903374
- 链接标题:Reinforce算法 通俗讲解。梯度不可导 是什么_强化学习 不可导-CSDN博客
- 所属网站:guotong1988.blog.csdn.net
- 被收藏次数:846
文章浏览阅读431次。梯度不可导的情况出现:一般为强化学习中select_action这步,比如从输出的action_prob里比如argmax出一个action,argmax这步是 梯度不可导 的(对比 可导的猫狗分类任务),这时要训练有select_action这步的网络的方法就是reinforce算法,即每个action的监督label是用这个action的reward来出loss的,即loss = 0.0for reward, log_prob in zip(reward_memory, log_prob_memo_强化学习 不可导
版权声明:本文发布于特牛网址导航 内容均来源于互联网 如有侵权联系删除
标签:强化学习 不可导