0%

0. Abstract

강화학습에서 policy learning을 하는 동안, exp vs exp dillema에 빠지게 된다.

  • empirically choose the best action
  • explore the environment to find more profitable actions

MABP는 이 딜레마의 가장 간단한 예시이다.

Regret이 이 딜레마에서 인기있는 measure인데 optimal log regret을 찾는 알고리즘을 제안한다.

Read more »

0. Abstract

Meta-learning(ML)은 agent가 이전의 episode를 기반으로 새로운 task에서 빠르게 적응하도록 한다.

Hierarchical Bayesian Model은 task들 간의 공유되는 parameter의 분포를 추론하는 문제로 ML을 formalize하는 이론적 framework를 제공한다.

우리는 MAML을 probabilistic inference in HBM으로 formalize한다.

기존의 HBM을 활용한 ML 방법들과 달리, MAML은 task-specific parameter의 posterior inference를 GD로 대체하기에 복잡한 함수로의 적용이 가능하다.

MAML을 HBM으로 받아들이면,

  1. ML의 작동원리를 이해할 수 있고
  2. Efficient inference의 기회를 제공한다.
Read more »

0. Abstract

Intelligent agent는 (무엇을 볼(see) 수 있는 지, 어떤 action을 할(do) 수 있는 지) 에 기반해, policy optimization을 하게 된다.

대부분의 policy는 $see \times do \rightarrow \mathcal [0,1]$의 함수로 parameterized 될 수 있고 이 논문에선 이를 mixed policy라고 부르겠다.

이 논문에선 mixed policy의 특징을 조사한다.

그 다음에,

  1. 불필요한 action들을 identify하는 graphical criterion을 도입하여 non-redundancy을 이끌어 낸 다음에
  2. Optimal policy의 충분조건을 도출한다.

Causal characterization은 standard approach를 따르는 agent가 매력이 떨어지고 optimal performance에 도달하지 못한다는 결론을 내린다.

Read more »

0. Abstract

DTR은 decision rule들의 sequence이고 환자의 이전 치료와 covariate history에 기반해 어떻게 치료할 지를 명시한다.

DTR은 만성(chronic) 질환 관리에 효과적이고, 개인화된 의사결정에 핵심적이다.

이 논문에선, observational data도 활용 가능할 때, optimal DTR을 찾는 online RL 문제를 다룬다.

  • 이전 history를 사용하지 않고서 online setting에서 near-optimal DTR에 도달하는 adaptive algorithm을 개발했다.
  • Confounded observational data로부터 유의미한 regret의 upper/lower bound를 도출한다.
  • 이들을 엮어서 confounded observational data도 활용하여 optimal DTR을 학습하는 RL algorithm을 개발했다.
Read more »

0. Abstract

이 논문은 non experimental data로 부터, action과 policy의 effect를 estimate한다.

이 논문은 다음을 제공한다.

  • causal effect(CE) identifiability(I)의 sufficient criterion
  • I일 때, 이에 대한 compuation procedure

General Identification Condition for Causal Effects

On the Testable Implications of Causal Models with Hidden Variables

이 둘을 읽고 보면 좋다.

Read more »

0. Abstract

Decision maker는 어떤 action을 취했을 때 일어날 법한 것을 estimate해야한다.

예를 들어, 환자를 치료하지 않기로 결정하면 그들은 어느 정도의 확률로 죽을까? 를 고민하게 된다.

이 경우에 practitioner들은 supervised learning algorithm으로 outcome을 예측하는 predictive model을 보통 학습한다.

하지만, 이러한 방식은 unreliable하고 가끔은 위험할 수도 있다.

Read more »

0. Abstract

Causal model의 유효성은 model이 데이터의 형성 분포에 constraint를 줄 때 검증될 수 있다.

Hidden variable이 존재하면 causal model은 두 가지 종류의 constraint를 줄 수 있다.

  1. Conditional Independence
  2. Functional constraint

이 논문은 functional constraint를 찾는 체계적인 방법을 제공하여, 다음의 task를 수행할 수 있다.

  • test causal model from data
  • infer the causal model from data
Read more »