强化学习第7章——基于策略的强化学习-CSDN博客文章浏览阅读2.9k次。七、基于策略的强化学习近似价值函数:是在某一特定的策略下采取最大行为价值的动作,在使用贪心寻找最优价值时同时得到最优策略只能解决状态空间连续问题,不能解决行为空间连续的问题(行为空...... admin2024-01-25