0. Abstract
강화학습에서 policy learning을 하는 동안, exp vs exp dillema에 빠지게 된다.
- empirically choose the best action
- explore the environment to find more profitable actions
MABP는 이 딜레마의 가장 간단한 예시이다.
Regret이 이 딜레마에서 인기있는 measure인데 optimal log regret을 찾는 알고리즘을 제안한다.