Q-Learning

Q: 为什么Q-Learning不用重要性采样?

首先,

vπ(s)=Eπ[GtSt=s]v_\pi(s)=\mathbb E_\pi[G_t|S_t=s]

qπ(s,a)=Eπ[GtSt=s,At=a]q_\pi(s,a)=\mathbb E_\pi[G_t|S_t=s, A_t=a]

注意到Q-learning要学习的是Q(s,a)=sP(ss,a)(R(s)+γmaxaQ(s,a))Q(s,a)=\sum\limits_{s'}P(s'|s,a)\left(R(s')+\gamma \max\limits_{a}Q(s',a)\right)

qπ(s,a)q_\pi(s,a)不同,此处sP(ss,a)s'\sim P(s'|s,a),求期望过程中动作aa不是随机变量,而是给定的值,因此不涉及重要性采样。

results matching ""

    No results matching ""