[归纳]强化学习导论 - 第六章：时间差分学习-CSDN博客

网友收藏2024-01-25 00:54

链接地址：https://blog.csdn.net/u013695457/article/details/89109881
链接标题：[归纳]强化学习导论 - 第六章：时间差分学习-CSDN博客
所属网站：blog.csdn.net
被收藏次数：573

文章浏览阅读1k次，点赞4次，收藏6次。文章目录本章内容概要TD PredictionAdvantages of TD Prediction MethodsOptimality of TD(0)Sarsa: On-policy TD ControlQ-learning: Off-policy TD ControlExpected SarsaMaximization Bias and Double Learning参考文献本章内容概要..._时间差分学习

本文地址：https://tebull.com/detail/570255.html

标签：时间差分学习

上一篇：gcy go-CSDN博客！

下一篇：第六章函数逼近-强化学习理论学习与代码实现（强化学习导论第二版）_函数逼近与展开第二版-CSDN博客

友情链接申请要求：不违法不降权权重相当请联系QQ：737597453