Finite-time analysis of the multi-armed bandit problem

Posted on 2021-08-26 In Reinforcement Disqus:

0. Abstract

강화학습에서 policy learning을 하는 동안, exp vs exp dillema에 빠지게 된다.

MABP는 이 딜레마의 가장 간단한 예시이다.

Regret이 이 딜레마에서 인기있는 measure인데 optimal log regret을 찾는 알고리즘을 제안한다.

Posted on 2021-08-18 In Causality , Transportability Disqus:

특정 환경에서의 experiment로 학습된 결과를 다른 환경으로 transfer하는 문제를 다룬다.

Target domain에서의 effect가 source domain에서의 실험들로 추론될 수 있는 지를 결정하는 procedure를 유도한다.

Observational transportability에 대해서도 다룬다.

Posted on 2021-08-01 In Meta-learning Disqus:

Meta-learning(ML)은 agent가 이전의 episode를 기반으로 새로운 task에서 빠르게 적응하도록 한다.

Hierarchical Bayesian Model은 task들 간의 공유되는 parameter의 분포를 추론하는 문제로 ML을 formalize하는 이론적 framework를 제공한다.

우리는 MAML을 probabilistic inference in HBM으로 formalize한다.

기존의 HBM을 활용한 ML 방법들과 달리, MAML은 task-specific parameter의 posterior inference를 GD로 대체하기에 복잡한 함수로의 적용이 가능하다.

MAML을 HBM으로 받아들이면,

Posted on 2021-07-21 In Causality , Reinforcement Disqus:

Intelligent agent는 (무엇을 볼(see) 수 있는 지, 어떤 action을 할(do) 수 있는 지) 에 기반해, policy optimization을 하게 된다.

대부분의 policy는 $see \times do \rightarrow \mathcal [0,1]$의 함수로 parameterized 될 수 있고 이 논문에선 이를 mixed policy라고 부르겠다.

이 논문에선 mixed policy의 특징을 조사한다.

그 다음에,

Causal characterization은 standard approach를 따르는 agent가 매력이 떨어지고 optimal performance에 도달하지 못한다는 결론을 내린다.

Posted on 2021-07-05 In Latent Variable Model Disqus:

High dimensional time series(HDTS)에서 unsupervised learning은 많은 연구에서 관심을 끌고 있다.

특히 HDTS에서 segmentation을 하는 것은 행동 패턴에 대한 이해에 도움이 될 수 있다.

Posted on 2021-07-05 Edited on 2021-11-15 In Causality , Reinforcement Disqus:

DTR은 decision rule들의 sequence이고 환자의 이전 치료와 covariate history에 기반해 어떻게 치료할 지를 명시한다.

DTR은 만성(chronic) 질환 관리에 효과적이고, 개인화된 의사결정에 핵심적이다.

이 논문에선, observational data도 활용 가능할 때, optimal DTR을 찾는 online RL 문제를 다룬다.

이전 history를 사용하지 않고서 online setting에서 near-optimal DTR에 도달하는 adaptive algorithm을 개발했다.
Confounded observational data로부터 유의미한 regret의 upper/lower bound를 도출한다.
이들을 엮어서 confounded observational data도 활용하여 optimal DTR을 학습하는 RL algorithm을 개발했다.