강화학습(RL)에서 순차적 의사결정 문제 방법론에 대해 설명하는 마르코프 결정 프로세스의 기본 개념들을 정리해보고자 한다.
■마르코프 프로세스(MP)
$$MP\equiv(S,P)$$
■전이확률 : 상태s에서 다음 상태s'에 도착할 확률
$$P_{ss'}$$
■마르코프 성질: 미래는 오로지 현재에 의해 결정된다
$$\mathbb{P}[s_{t+1}|s_{t}]=\mathbb{P}[s_{t+1}|s_{1},s_{2},...,s_{t}]$$
■마르코프 리워드 프로세스(MRP) : MP에 보상 개념 추가
R: 보상함수, G:리턴, γ: 감쇠 인자
$$MRP\equiv(S,P,R,\gamma)$$
$$R=\mathbb{E}[R_{t}|S_{t}=s]$$
$$G_{t}=R_{t+1}+\gamma R_{t+2}+\gamma^{2}R_{t+3}+...$$
■마르코프 결정 프로세스(MDP): MRP에 의사결정(decision)개념 추가
$$MDP\equiv(S,A,P,R,\gamma)$$
■전이 확률 행렬: a(액션)에 따른 전이 확률(s -> s')
$$P^{a}_{ss'}=\mathbb{P}[S_{t+1}=s'|S_{t}=s,A_{t}=a]$$
■정책 함수: 상태 s에서 액션 a를 선택할 확률
$$\pi(a|s)=\mathbb{P}[A_{t}=a|S_{t}=s]$$
■상태 가치 함수: s부터 끝까지 π를 따라서 움직일 때 얻는 리턴의 기댓값
$$\nu_{\pi}(s)=\mathbb{E}[G_{t}|S_{t}=s]$$
■액션 가치 함수: 각 상태에서의 액션의 가치를 평가
$$q_{\pi}(s,a)=\mathfrak{\mathbb{E}}[G_{t}|S_{t}=s,A_{t}=a]$$
■Prediction: 정책$(\pi)$이 주어졌을 때 각 상태의 가치를 평가
■Control: 최적 정책$(\pi_{*})$을 찾는 문제
<feedback>
수식들을 별도의 사이트(mathurl.com/)에서 코드로 입력해봤는데 꽤나 유용한 것 같다.
(+ 코드를 별도의 문서파일에 복사 한 후 다시 글쓰는 창에 복사를 하면 일반적인 글로 수식을 입력할 수 있다.)
<reference>
바닥부터 배우는 강화학습
'datascience > RL' 카테고리의 다른 글
벨만 방정식(Bellman Equation) (0) | 2021.06.07 |
---|---|
강화학습(Reinforced Learning) Monte Carlo 학습 구현 (0) | 2021.05.18 |