0. Abstract
VAE에 영감을 받아서 latent variable을 RNN hidden state의 input으로 포함한다.
VRNN은 highly structured sequential data에서 관측되는 variability를 모델링할 수 있다.
그렇기에 latent variable이 RNN dynamics에서 굉장히 중요한 역할을 한다.
CE estimation에 관심이 있다.
가장 노테이션이 깔끔하다 생각된 버클리 CS294에 대한 요약이다.
이번 장에선 이전 장의 policy gradient에 value function을 도입하고 actor-critic으로 이어나간다.
가장 노테이션이 깔끔하다 생각된 버클리 CS294에 대한 요약이다.
목표 : optimal policy 함수의 parameter $\theta^{\star}=\arg \max _{\theta} E_{\tau \sim p_{\theta}(\tau)}\left[\sum_{t} r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)\right]$을 찾기
Model-free policy evaluation(control)은 다음의 상황에서 유용하다.
이전 장에선, (policy search, policy iteration, value iteration)으로 policy evaluation과 control을 하였다.
이들은 암묵적으로 모델(reward probability& transition probability)에 대하여 안다고 가정하였다.
하지만 environment에 대한 model(dynamics)을 모르는 경우, model-free algorithm이 필요하다.
CS234의 Markov Decision Process에 대한 강의 요약