基于值函数的强化学习

Q: Q值初始值对于强化学习的影响有哪些?

A: 见(Sutton, C2.6 乐观初始值),对于平稳问题,让初始Q更高可以奖励探索。

results matching ""

    No results matching ""