datascience/RL

벨만 방정식(Bellman Equation)

patrck_jjh 2021. 6. 7. 06:50

<벨만 기대 방정식>

 

0단계: 재귀적 표현

  • $v_{\pi}(s_{t})=\mathbb{E}_{\pi}[r_{t+1}+\gamma v_{\pi}(s_{t+1})]$
  • $q_{\pi}(s_{t},a_{t})=\mathbb{E}_{\pi}[r_{t+1}+\gamma q_{\pi}(s_{t+1},a_{t+1})]$

 

 

1단계: $v_{\pi}$와 $q_{\pi}$를 서로를 이용해 표현

  • $v_{\pi}(s) = \sum_{a\in A}\pi(a|s)q_{\pi}(s,a)$                                                                           $\Leftrightarrow  s의 밸류 = \sum_{}(s에서 a를 실행할 확률) * (s에서 a를 실행하는 것의 밸류)$
  • $q_{\pi}(s,a)=r_{s}^{a}+\gamma \sum_{s'\in S}P_{ss'}^{a}v_{\pi}(s')$ $\Leftrightarrow  s에서 a를 실행하는 것의 밸류 = 즉시 얻는 보상 + \gamma * \sum_{}{(s에서 a를 실행하면 s'에 도착할 확률)*(s'의 밸류)}$

 

 

2단계: 1단계의 식들을 서로 연합하여 산출함, $r_{s}^{a}, P_{ss'}^{a}$를 알고 있다면 "MDP를 안다"고 표현하고 다음과 같은 식을 이용가능

  • $v_{\pi}(s) = \sum_{a\in A}\pi(a|s)\left\{r_{s}^{a}+\gamma \sum_{s'\in S}P_{ss'}^{a}v_{\pi}(s')\right\}$
  • $q_{\pi}(s,a)=r_{s}^{a}+\gamma \sum_{s'\in S}P_{ss'}^{a}\sum_{a'\in A}\pi(a'|s')q_{\pi}(s',a')$

 

 

 

<벨만 최적 방정식>

 

1단계:

  • $v_{*}(\pi)= max_{a} \mathbb{E}[r_{t+1}+\gamma v_{*}(s_{t+1})]$
  • $q_{*}(s_{t},a_{t})=\mathbb{E}[r_{t+1}+\gamma max_{a'}q_{*}(s_{t+1},a')]$

 

 

2단계:

  • $v_{*}(\pi)= max_{a} q_{*}(s,a)$
  • $q_{*}(s,a)=r_{s}^{a}+\gamma \sum_{s'\in S}^{}P_{ss'}^{a}v_{*}(s')$

 

 

3단계:

  • $v_{*}(\pi)=max_{a} \left[r_{s}^{a}+\gamma \sum_{s'\in S}^{}P_{ss'}^{a}v_{*}(s')\right]$
  • $q_{*}(s,a)=r_{s}^{a}+\gamma \sum_{s'\in S}^{}P_{ss'}^{a}\ max_{a} q_{*}(s,a)$

 

 

 

 

 

 

<References>

바닥부터 배우는 강화학습