- 链接地址:https://blog.csdn.net/m0_48941999/article/details/121314440
- 链接标题:强化学习第7章——基于策略的强化学习-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:8899
文章浏览阅读2.9k次。七、基于策略的强化学习近似价值函数:是在某一特定的策略下采取最大行为价值的动作,在使用贪心寻找最优价值时同时得到最优策略只能解决状态空间连续问题,不能解决行为空间连续的问题(行为空间是离散的)而且采用价值函数确定动作在每个状态采取的行为是确定的,当由于个体在观测环境时的局限性,可能会导致类似的环境应该采用不同的动作(这种情况下的最优策略是随机策略,每次采取的行为可能不一样),而近似价值函数确定性的动作确定就会有缺陷。(如石头剪刀布游戏)所以在基于策略的RL中采用,策略函数:πθ(s,a)=P[a∣_基于策略的强化学习
版权声明:本文发布于特牛网址导航 内容均来源于互联网 如有侵权联系删除
标签:基于策略的强化学习