特牛网址导航

Reinforce算法 通俗讲解。梯度不可导 是什么_强化学习 不可导-CSDN博客

网友收藏
文章浏览阅读431次。梯度不可导的情况出现:一般为强化学习中select_action这步,比如从输出的action_prob里比如argmax出一个action,argmax这步是 梯度不可导 的(对比 可导的猫狗分类任务),这时要训练有select_action这步的网络的方法就是reinforce算法,即每个action的监督label是用这个action的reward来出loss的,即loss = 0.0for reward, log_prob in zip(reward_memory, log_prob_memo_强化学习 不可导