特牛生活网

第十六章 强化学习_单步强化学习-CSDN博客

网友收藏
文章浏览阅读644次。1.分析强化学习与监督学习的联系与差别。机器要做的是通过在环境中不断地尝试而学得一个"策略" (policy) π\piπ,根据这个策略,在状态xxx下就能得知要执行的动作α=π(x)\alpha=\pi(x)α=π(x), 例如看到瓜苗状态是缺水时,能返回动作"浇水". 策略有两种表示方法:一种是将策略表示为函数π:X↦A\pi:X \mapsto Aπ:X↦A, 确定性策略常用这种表示;另一种是概率表示π:X×A↦R\pi:X\times A\mapsto\mathbb{R}π:X×A↦R随机性策略_单步强化学习