<벨만 기대 방정식>
0단계: 재귀적 표현
- $v_{\pi}(s_{t})=\mathbb{E}_{\pi}[r_{t+1}+\gamma v_{\pi}(s_{t+1})]$
- $q_{\pi}(s_{t},a_{t})=\mathbb{E}_{\pi}[r_{t+1}+\gamma q_{\pi}(s_{t+1},a_{t+1})]$
1단계: $v_{\pi}$와 $q_{\pi}$를 서로를 이용해 표현
- $v_{\pi}(s) = \sum_{a\in A}\pi(a|s)q_{\pi}(s,a)$ $\Leftrightarrow s의 밸류 = \sum_{}(s에서 a를 실행할 확률) * (s에서 a를 실행하는 것의 밸류)$
- $q_{\pi}(s,a)=r_{s}^{a}+\gamma \sum_{s'\in S}P_{ss'}^{a}v_{\pi}(s')$ $\Leftrightarrow s에서 a를 실행하는 것의 밸류 = 즉시 얻는 보상 + \gamma * \sum_{}{(s에서 a를 실행하면 s'에 도착할 확률)*(s'의 밸류)}$
2단계: 1단계의 식들을 서로 연합하여 산출함, $r_{s}^{a}, P_{ss'}^{a}$를 알고 있다면 "MDP를 안다"고 표현하고 다음과 같은 식을 이용가능
- $v_{\pi}(s) = \sum_{a\in A}\pi(a|s)\left\{r_{s}^{a}+\gamma \sum_{s'\in S}P_{ss'}^{a}v_{\pi}(s')\right\}$
- $q_{\pi}(s,a)=r_{s}^{a}+\gamma \sum_{s'\in S}P_{ss'}^{a}\sum_{a'\in A}\pi(a'|s')q_{\pi}(s',a')$
<벨만 최적 방정식>
1단계:
- $v_{*}(\pi)= max_{a} \mathbb{E}[r_{t+1}+\gamma v_{*}(s_{t+1})]$
- $q_{*}(s_{t},a_{t})=\mathbb{E}[r_{t+1}+\gamma max_{a'}q_{*}(s_{t+1},a')]$
2단계:
- $v_{*}(\pi)= max_{a} q_{*}(s,a)$
- $q_{*}(s,a)=r_{s}^{a}+\gamma \sum_{s'\in S}^{}P_{ss'}^{a}v_{*}(s')$
3단계:
- $v_{*}(\pi)=max_{a} \left[r_{s}^{a}+\gamma \sum_{s'\in S}^{}P_{ss'}^{a}v_{*}(s')\right]$
- $q_{*}(s,a)=r_{s}^{a}+\gamma \sum_{s'\in S}^{}P_{ss'}^{a}\ max_{a} q_{*}(s,a)$
<References>
바닥부터 배우는 강화학습
'datascience > RL' 카테고리의 다른 글
강화학습(Reinforced Learning) Monte Carlo 학습 구현 (0) | 2021.05.18 |
---|---|
마르코프 결정 프로세스(Markov Decision Process) (0) | 2021.04.23 |