- 链接地址:https://blog.csdn.net/tiezhongyu2010/article/details/106973579
- 链接标题:第十六章 强化学习_单步强化学习-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:1284
文章浏览阅读644次。1.分析强化学习与监督学习的联系与差别。机器要做的是通过在环境中不断地尝试而学得一个"策略" (policy) π\piπ,根据这个策略,在状态xxx下就能得知要执行的动作α=π(x)\alpha=\pi(x)α=π(x), 例如看到瓜苗状态是缺水时,能返回动作"浇水". 策略有两种表示方法:一种是将策略表示为函数π:X↦A\pi:X \mapsto Aπ:X↦A, 确定性策略常用这种表示;另一种是概率表示π:X×A↦R\pi:X\times A\mapsto\mathbb{R}π:X×A↦R随机性策略_单步强化学习
版权声明:本文发布于特牛生活网 内容均来源于互联网 如有侵权联系删除
标签:单步强化学习