基于值函数的强化学习

Q: Q值初始值对于强化学习的影响有哪些？

A: 见(Sutton, C2.6 乐观初始值)，对于平稳问题，让初始Q更高可以奖励探索。

results matching ""

No results matching ""