特牛网址导航

强化学习 第7章_one step 问题-CSDN博客

网友收藏
文章浏览阅读597次。第七章n-step引导在本章中,我们统一了蒙特卡罗(MC)方法和前两章中介绍的one-step临时(TD)方法。 MC方法和one-step TD方法都不是最好的。在本章中,我们将介绍n-step TD方法,这个方法概括了两种方法,以便可以根据需要平滑地从一种方法转换到另一种方法,以满足特定任务的需求。n-step方法在一端采用MC方法,在另一端采用one-step TD方法。最好的方法通常..._one step 问题
标签:one step 问题