- 链接地址:https://blog.csdn.net/u013695457/article/details/89109881
- 链接标题:[归纳]强化学习导论 - 第六章:时间差分学习-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:573
文章浏览阅读1k次,点赞4次,收藏6次。文章目录本章内容概要TD PredictionAdvantages of TD Prediction MethodsOptimality of TD(0)Sarsa: On-policy TD ControlQ-learning: Off-policy TD ControlExpected SarsaMaximization Bias and Double Learning参考文献本章内容概要..._时间差分学习
版权声明:本文发布于特牛网址导航 内容均来源于互联网 如有侵权联系删除
标签:时间差分学习