第十六章强化学习_单步强化学习-CSDN博客

网友收藏2024-01-25 00:50

链接地址：https://blog.csdn.net/tiezhongyu2010/article/details/106973579
链接标题：第十六章强化学习_单步强化学习-CSDN博客
所属网站：blog.csdn.net
被收藏次数：1284

文章浏览阅读644次。1.分析强化学习与监督学习的联系与差别。机器要做的是通过在环境中不断地尝试而学得一个"策略" (policy) π\piπ，根据这个策略，在状态xxx下就能得知要执行的动作α=π(x)\alpha=\pi(x)α=π(x)，例如看到瓜苗状态是缺水时，能返回动作"浇水". 策略有两种表示方法:一种是将策略表示为函数π:X↦A\pi:X \mapsto Aπ:X↦A，确定性策略常用这种表示;另一种是概率表示π:X×A↦R\pi:X\times A\mapsto\mathbb{R}π:X×A↦R随机性策略_单步强化学习

本文地址：https://tebull.com/detail/570150.html

标签：单步强化学习

第十六章 强化学习_单步强化学习-CSDN博客

第十六章强化学习_单步强化学习-CSDN博客