0%

0. Abstract

VAE에 영감을 받아서 latent variable을 RNN hidden state의 input으로 포함한다.

VRNN은 highly structured sequential data에서 관측되는 variability를 모델링할 수 있다.

그렇기에 latent variable이 RNN dynamics에서 굉장히 중요한 역할을 한다.

Read more »

0. Abstract

CE estimation에 관심이 있다.

  1. CE of $\mathbf X \subset \mathbf V$ on $\mathbf Y \subset \mathbf{V \setminus X}$ 이 identifiable 한 지에 대한 그래프적 필요충분조건
  2. Identifiable할 때 이를 구하는 algorithm
  3. 이게 연속적 do-calculus의 적용임을 보이겠다.
  4. Tian & Pearl 2002은 이의 특수 케이스임을 보이겠다.
  5. 모든 CE가 identifiable한 semi-Markovian model들에 대한 characterization을 제공한다.
Read more »

0. Abstract

Standard policy gradient method는 sample마다 한번의 gradient update를 하고 버린다.

PPO는

  1. minibatch를 갖고서 여러번의 update를 한다.
  2. TRPO의 일부 장점들을 가져온다.
  3. TRPO보다 더 간단하고 더 나은 sample-complexity를 갖는다.
Read more »

0. Abstract

Monotonic improvement가 보장된 policy gradient 알고리즘을 설명하겠다.

비록 이론적 결과에 대한 approximation을 하게 되지만 여전히 monotonic improvement를 주는 경향이 있다.

Read more »

가장 노테이션이 깔끔하다 생각된 버클리 CS294에 대한 요약이다.

이번 장에선 이전 장의 policy gradient에 value function을 도입하고 actor-critic으로 이어나간다.

Read more »

가장 노테이션이 깔끔하다 생각된 버클리 CS294에 대한 요약이다.

목표 : optimal policy 함수의 parameter $\theta^{\star}=\arg \max _{\theta} E_{\tau \sim p_{\theta}(\tau)}\left[\sum_{t} r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)\right]$을 찾기

Read more »

Model-free policy evaluation(control)은 다음의 상황에서 유용하다.

  1. MDP 모델이 안알려졌지만, MDP로부터 trajectory sampling이 되는 경우
  2. MDP 모델은 알려졌으나, value function 계산이 infeasible한 경우
Read more »

이전 장에선, (policy search, policy iteration, value iteration)으로 policy evaluation과 control을 하였다.

이들은 암묵적으로 모델(reward probability& transition probability)에 대하여 안다고 가정하였다.

하지만 environment에 대한 model(dynamics)을 모르는 경우, model-free algorithm이 필요하다.

Read more »