特牛网址导航

强化学习第七章-CSDN博客

网友收藏
1、策略迭代、价值迭代、泛化迭代的前提条件:智能体知道环境的状态转移概率,即是基于模型的问题2、蒙特卡洛方法采样:随机采样估计期望值,通过样本序列逼近真实的期望值。 成立原因:大数定理。3、探索和利用,探索指的是不拘于当前的表现,选择不同于当前策略的行动;利用是持续使用当前的最优策略,尽可能的获得更多的回报。4、蒙特卡洛方法的缺点:估计值的方差大。估计值方差大则均值收敛需要..._强化学习第七章