强化学习之图解SAC算法_sac算法网络更新流程-CSDN博客

网友收藏2024-09-22 16:02

链接地址：https://blog.csdn.net/qq_41773233/article/details/118343790
链接标题：强化学习之图解SAC算法_sac算法网络更新流程-CSDN博客
所属网站：blog.csdn.net
被收藏次数：6572

文章浏览阅读1.6w次，点赞47次，收藏248次。强化学习之图解SAC算法1. 网络结构2. 产生experience的过程3. Q Critic网络的更新流程4. V Critic网络的更新流程5. Actor网络的更新流程柔性动作-评价（Soft Actor-Critic，SAC）算法的网络结构有5个。SAC算法解决的问题是离散动作空间和连续动作空间的强化学习问题，是off-policy的强化学习算法（关于on-policy和off-policy的讨论可见：强化学习之图解PPO算法和TD3算法）。SAC的论文有两篇，一篇是《Soft Actor-C_sac算法网络更新流程

本文地址：https://tebull.com/detail/4482019.html

标签：sac算法网络更新流程