强化学习第七章-CSDN博客

网友收藏2023-10-10 04:05

链接地址：https://blog.csdn.net/weixin_30872789/article/details/101883251
链接标题：强化学习第七章-CSDN博客
所属网站：blog.csdn.net
被收藏次数：7939

1、策略迭代、价值迭代、泛化迭代的前提条件：智能体知道环境的状态转移概率，即是基于模型的问题2、蒙特卡洛方法采样：随机采样估计期望值，通过样本序列逼近真实的期望值。成立原因：大数定理。3、探索和利用，探索指的是不拘于当前的表现，选择不同于当前策略的行动；利用是持续使用当前的最优策略，尽可能的获得更多的回报。4、蒙特卡洛方法的缺点：估计值的方差大。估计值方差大则均值收敛需要..._强化学习第七章

本文地址：https://tebull.com/detail/6029.html

标签：强化学习第七章