마르코프 결정 프로세스(Markov Decision Process)

datascience/RL

patrck_jjh 2021. 4. 23. 22:25

강화학습(RL)에서 순차적 의사결정 문제 방법론에 대해 설명하는 마르코프 결정 프로세스의 기본 개념들을 정리해보고자 한다.

■마르코프 프로세스(MP)

$$MP\equiv(S,P)$$

■전이확률 : 상태s에서 다음 상태s'에 도착할 확률

$$P_{ss'}$$

■마르코프 성질: 미래는 오로지 현재에 의해 결정된다

$$\mathbb{P}[s_{t+1}|s_{t}]=\mathbb{P}[s_{t+1}|s_{1},s_{2},...,s_{t}]$$

■마르코프 리워드 프로세스(MRP) : MP에 보상 개념 추가

R: 보상함수, G:리턴, γ: 감쇠 인자

$$MRP\equiv(S,P,R,\gamma)$$

$$R=\mathbb{E}[R_{t}|S_{t}=s]$$

$$G_{t}=R_{t+1}+\gamma R_{t+2}+\gamma^{2}R_{t+3}+...$$

■마르코프 결정 프로세스(MDP): MRP에 의사결정(decision)개념 추가

$$MDP\equiv(S,A,P,R,\gamma)$$

■전이 확률 행렬: a(액션)에 따른 전이 확률(s -> s')

$$P^{a}_{ss'}=\mathbb{P}[S_{t+1}=s'|S_{t}=s,A_{t}=a]$$

■정책 함수: 상태 s에서 액션 a를 선택할 확률

$$\pi(a|s)=\mathbb{P}[A_{t}=a|S_{t}=s]$$

■상태 가치 함수: s부터 끝까지 π를 따라서 움직일 때 얻는 리턴의 기댓값

$$\nu_{\pi}(s)=\mathbb{E}[G_{t}|S_{t}=s]$$

■액션 가치 함수: 각 상태에서의 액션의 가치를 평가

$$q_{\pi}(s,a)=\mathfrak{\mathbb{E}}[G_{t}|S_{t}=s,A_{t}=a]$$

■Prediction: 정책$(\pi)$이 주어졌을 때 각 상태의 가치를 평가

■Control: 최적 정책$(\pi_{*})$을 찾는 문제

수식들을 별도의 사이트(mathurl.com/)에서 코드로 입력해봤는데 꽤나 유용한 것 같다.

(+ 코드를 별도의 문서파일에 복사 한 후 다시 글쓰는 창에 복사를 하면 일반적인 글로 수식을 입력할 수 있다.)

바닥부터 배우는 강화학습

벨만 방정식(Bellman Equation) (0)	2021.06.07
강화학습(Reinforced Learning) Monte Carlo 학습 구현 (0)	2021.05.18

programmers, find(), backtrader, 금융사API, 백준, 경제#금융#데이터분석#프로그래밍, Python, SQLAchemy, 방문 길이, 가상환경, SQL, 주가데이터, Git#Gtihub#Git Code, yfinance#주식데이터#파이썬, 구현, 정보처리기사 실기 #자격증 #개발자 자격증, 알고리즘, CHR(), Sorted, mysql,

패트릭의 개발노트