- 链接地址:https://blog.csdn.net/qq_41773233/article/details/118343790
- 链接标题:强化学习之图解SAC算法_sac算法网络更新流程-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:6572
文章浏览阅读1.6w次,点赞47次,收藏248次。强化学习之图解SAC算法1. 网络结构2. 产生experience的过程3. Q Critic网络的更新流程4. V Critic网络的更新流程5. Actor网络的更新流程柔性动作-评价(Soft Actor-Critic,SAC)算法的网络结构有5个。SAC算法解决的问题是离散动作空间和连续动作空间的强化学习问题,是off-policy的强化学习算法(关于on-policy和off-policy的讨论可见:强化学习之图解PPO算法和TD3算法)。SAC的论文有两篇,一篇是《Soft Actor-C_sac算法网络更新流程
版权声明:本文发布于特牛网址导航 内容均来源于互联网 如有侵权联系删除
标签:sac算法网络更新流程