Reinforce算法通俗讲解。梯度不可导是什么_强化学习不可导-CSDN博客

网友收藏2024-01-25 09:16

链接地址：https://guotong1988.blog.csdn.net/article/details/124903374
链接标题：Reinforce算法通俗讲解。梯度不可导是什么_强化学习不可导-CSDN博客
所属网站：guotong1988.blog.csdn.net
被收藏次数：846

文章浏览阅读431次。梯度不可导的情况出现：一般为强化学习中select_action这步，比如从输出的action_prob里比如argmax出一个action，argmax这步是梯度不可导的（对比可导的猫狗分类任务），这时要训练有select_action这步的网络的方法就是reinforce算法，即每个action的监督label是用这个action的reward来出loss的，即loss = 0.0for reward, log_prob in zip(reward_memory, log_prob_memo_强化学习不可导

本文地址：https://tebull.com/detail/584384.html

标签：强化学习不可导

Reinforce算法 通俗讲解。梯度不可导 是什么_强化学习 不可导-CSDN博客

Reinforce算法通俗讲解。梯度不可导是什么_强化学习不可导-CSDN博客