0. Abstract
Monotonic improvement가 보장된 policy gradient 알고리즘을 설명하겠다.
비록 이론적 결과에 대한 approximation을 하게 되지만 여전히 monotonic improvement를 주는 경향이 있다.
1. Introduction
이론적 결과로 특정한 surrogate objective function을 최적화한다면 policy improvement가 보장됨을 보이겠다. (Algorithm 1)
그 다음, 실용성을 위해 이에 대한 근사인 TRPO를 소개하도록 하겠다.
TRPO에 2가지 버전 single-path와 vine이 있는데 후자는 simulation에서만 가능하다.
실험적으로, TRPO가 Atari, swimming, walking 등에서 complex policy를 학습할 수 있음을 보이겠다.
2. Preliminaries
Infinite-horizon discounted Markov decision process (MDP)
is a finite set of states is a finite set of actions is the transition probability distribution is the reward function is the distribution of the initial state is the discount factor
Let
is a stochastic policy is the expected discounted reward is the state-action value function is the state value function is the advantage function
Kakede & Langford (2002)에 대한 요약
where
- 직감적으로,
에 대한 evaluation을 를 가지고 할 수 있다는 것이다. - 만약 모든 state
에 대해서, 일 경우 policy improvement가 보장된다.
하지만, 실제로는
그 때, trajectory sample은 old policy
그 경우엔
이를 대처하기 위해 local approximation을 도입한다.
이는 굉장히 좋은 근사이다.
결론은, 작은 step만큼 policy update할 경우
하지만 충분히 작은 step에 대한 애매모호함이 있기에 이들은 conservative policy iteration을 도입하였다.
- Let
- Let
- Then,
where
하지만 이 lower bound는 mixture policy에서 적용되기 때문에 일반적이지 못하다.
3. Monotonic Improvement Guarantee for General Stochastic Policies
Let
Theorem 1
Let
위의 정리에 기반하여 monotonic increasing policy iteration algorithm을 제안한다.

이 알고리즘은
그 상황에서 monotonically improving sequence of policies가 생성된다.
Let
Since
TRPO는 알고리즘 1에 대한 근사이다.
Large update를 robust하게 허용하기 위해 페널티 텀
4. Optimization of Parameterized Policies
이론적인 알고리즘 1은
이번 장과 다음 장에서 finite sample과 parameter로 구현되는 practical algorithm을 도출하겠다.
Let
Then,
페널티 텀을 집어 넣는 방식의 경우 step size가 정말 작을 수도 있다.
Robust한 방식으로 large step을 취하기 위해서, trust region constraint를 채택하자.
를 허용된 step size라고 해석하면 된다.
Approximation (sampling 기반)으로 constraint를 확인하기 위해 average KLD로 바꾸자.
실험적으로 이러한 constraint의 변경은 큰 성능차이를 불러일으키지 않음을 확인하였다.
5. Sample-Based Estimation of the Objective and Constraint
4장에서 정의한 objective function과 constraint function을
approximation하는 방법을 소개한다.
; ;
위의 세가지 사실들은 1. normalize; 2.
텀은 에 독립적임; 3. policy 에서 뽑은 샘플로 MC approximation을 하기 위해 importance samling 도입한 것이다.
위의 세가지 사실을 활용하면 optimization 식을 다르게 표현할 수 있다.
이제 objective function과 constraint function을 estimate하는 두가지 방법을 소개하겠다.
5.1 Single path
Individualized trajectories sampling에 기반한 방식이다.
이는 policy gradient estimation에서 일반적으로 사용된다.
- Sample
- Simulate one trajectory
- MC approximation
5.2 Vine
- Sample
- Simulate multiple trajectories
- Choose
states along these trajectories; , called rollout set - For each state
in the rollout set, sample actions; s.t.- continuous action을 다룰 땐,
이 좋고 - discrete action을 다룰 땐,
가 좋다. (exploration 측면에서)
- …
모르겠다.
Vine은 single path method보다 분산이 낮아서 좋다.
하지만 simulation 밖에서는 안되는 방법이다.
6. Practical Algorithm
이해하려면 appendix 정리에 대한 증명을 봐야하는데 할 게 많아서 엄두가 안나서 여기까지 하고 PPO 논문을 읽겠다 ㅎㅎ;;