- 链接地址:https://blog.csdn.net/weixin_42769131/article/details/120275831
- 链接标题:算法学习(二十)——GAE_gae算法-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:5812
文章浏览阅读3.9k次,点赞3次,收藏24次。全称是generalized advantage estimator,几乎所有最先进的policy gradient算法实现里面都使用了该技术,适合高维状态,一般都是PPO+GAE。该算法主要改进在于对A的估计。优势函数可以写成如下:一步的优势函数进一步展开为:其中V 的值都是估计的,因此A的估计存在偏差。优势函数的2步估计及无穷步估计分别为:可以看到,随着步数的增加,V的比重逐渐减少,所以不准确的影响也在逐渐减少。GAE的方法是改进对优势函数的估计,将偏差控制..._gae算法
版权声明:本文发布于特牛网址导航 内容均来源于互联网 如有侵权联系删除
标签:gae算法