마르코프 결정 프로세스(Markov Decision Process)
강화학습(RL)에서 순차적 의사결정 문제 방법론에 대해 설명하는 마르코프 결정 프로세스의 기본 개념들을 정리해보고자 한다. ■마르코프 프로세스(MP) $$MP\equiv(S,P)$$ ■전이확률 : 상태s에서 다음 상태s'에 도착할 확률 $$P_{ss'}$$ ■마르코프 성질: 미래는 오로지 현재에 의해 결정된다 $$\mathbb{P}[s_{t+1}|s_{t}]=\mathbb{P}[s_{t+1}|s_{1},s_{2},...,s_{t}]$$ ■마르코프 리워드 프로세스(MRP) : MP에 보상 개념 추가 R: 보상함수, G:리턴, γ: 감쇠 인자 $$MRP\equiv(S,P,R,\gamma)$$ $$R=\mathbb{E}[R_{t}|S_{t}=s]$$ $$G_{t}=R_{t+1}+\gamma R_{t+2}+\g..