datascience/RL

마르코프 결정 프로세스(Markov Decision Process)

patrck_jjh 2021. 4. 23. 22:25

 강화학습(RL)에서 순차적 의사결정 문제 방법론에 대해 설명하는 마르코프 결정 프로세스의 기본 개념들을 정리해보고자 한다.

 

 

 

강화 학습 개요도

 

 

 


 

 

■마르코프 프로세스(MP)

$$MP\equiv(S,P)$$

 

 

전이확률 : 상태s에서 다음 상태s'에 도착할 확률

$$P_{ss'}$$ 

 

마르코프 성질: 미래는 오로지 현재에 의해 결정된다

$$\mathbb{P}[s_{t+1}|s_{t}]=\mathbb{P}[s_{t+1}|s_{1},s_{2},...,s_{t}]$$

 


 

마르코프 리워드 프로세스(MRP) : MP에 보상 개념 추가

R: 보상함수, G:리턴,  γ: 감쇠 인자

$$MRP\equiv(S,P,R,\gamma)$$

$$R=\mathbb{E}[R_{t}|S_{t}=s]$$

$$G_{t}=R_{t+1}+\gamma R_{t+2}+\gamma^{2}R_{t+3}+...$$

 

 

마르코프 결정 프로세스(MDP): MRP에 의사결정(decision)개념 추가

$$MDP\equiv(S,A,P,R,\gamma)$$

 

 

전이 확률 행렬: a(액션)에 따른 전이 확률(s -> s')

$$P^{a}_{ss'}=\mathbb{P}[S_{t+1}=s'|S_{t}=s,A_{t}=a]$$

 

 

정책 함수: 상태 s에서 액션 a를 선택할 확률

$$\pi(a|s)=\mathbb{P}[A_{t}=a|S_{t}=s]$$

 

 

상태 가치 함수: s부터 끝까지 π를 따라서 움직일 때 얻는 리턴의 기댓값

$$\nu_{\pi}(s)=\mathbb{E}[G_{t}|S_{t}=s]$$

 

 

액션 가치 함수: 각 상태에서의 액션의 가치를 평가

$$q_{\pi}(s,a)=\mathfrak{\mathbb{E}}[G_{t}|S_{t}=s,A_{t}=a]$$

 


 

Prediction: 정책$(\pi)$이 주어졌을 때 각 상태의 가치를 평가

 

 

Control: 최적 정책$(\pi_{*})$을 찾는 문제

 

 

 

 

 

 

<feedback>

수식들을 별도의 사이트(mathurl.com/)에서 코드로 입력해봤는데 꽤나 유용한 것 같다.

(+ 코드를 별도의 문서파일에 복사 한 후 다시 글쓰는 창에 복사를 하면 일반적인 글로 수식을 입력할 수 있다.)

 

 

<reference>

바닥부터 배우는 강화학습

 

 

 

 

'datascience > RL' 카테고리의 다른 글

벨만 방정식(Bellman Equation)  (0) 2021.06.07
강화학습(Reinforced Learning) Monte Carlo 학습 구현  (0) 2021.05.18