0. Abstract
이 논문은 Deep RL로 CO문제를 푸는 framework를 제안한다.
본 블로그는 자연어에 대해선 큰 관심이 없지만 attention 메커니즘이 여기저기 쓰이길래 읽었다.
NMT는 최근 제안된 기계번역 approach이다.
NMT에 제안된 모델은 RNN 기반의 encoder-decoder 구조를 갖는다.
이 논문에선
이 방법으로 영어-프랑스어 번역에서 SOTA를 도달했다.
수학적으로 들어가면 끝도 없을 것 같아서 엄밀성은 없음을 미리 고지
학습이 왜 되는 지에 대해서 느끼는 게 목적
자세히 읽으면 보완할 예정
SCM은 mechanism과 exogeneous sources of random variation을 나타낸다.
NN은 universal approximability의 특징을 갖는다.
아마 SCM의 함수를 NN으로 대체하여 학습할 수 있다는 생각을 해봤을 수 있다.
이 논문에선
예를 들어, 단순한 임의의 complex and expressive NN은 observational data만 갖고서 interventional effect를 예측할 수 없다.
이 결과를 갖고서,
NCM이라는 새로운 model class로 causal identification and estimation task에 집중한다.
이 논문은 Bayesian model for causal inference의 identifiability를 확인하는 방법을 소개한다.
비록 do-calculus는 causeal graph가 주어졌을 때 sound&complete 하지만, 많은 실용적인 가정들이 표현될 수 없다.
Simulation-based identifiability test를 소개하겠다.
이는 causal assumption을 SCM상의 함수들의 prior로 나타낸다.
SBI가 asymptotically sound&complete임을 증명하고 practical finite sample bound를 제공하겠다.
Empirical하게 SBI가 graph-based identification과 일치하는 것을 보이겠다.
PGM의 발전은 richer model with neural architectures with scalable bayesian inference로 가속화되고 있다.
그러나 causal relationship을 capture 하는 데는 한계가 있다.
예를 들어, 특정 유전 요인이 특정 질병에 어떤 영향을 줄 지에 대한 질문이 있다.
이 논문에선, 2가지 어려움에 집중한다.
이를 위해 causality와 modern probabilistic modeling의 아이디어를 결합한다.
IPMs는 data를 modeling하는 flexible class이다.
이는 observation을 simulate할 수 있는 process이다.
GAN 처럼 likelihood를 몰라도 된다.
이 논문에선 HIMs와 DIMs를 도입한다.
DNN을 사용하여 HBM with implicit density를 정의한다.
IPM을 쓰는 경우 일반적으로 accurate & scalable inference는 어렵다.
우리는 model의 implicity도 허용하면서 A&S posterior inference도 혀용한다.
Undiscounted RL in MDP에서, total regret w.r.t. optimal policy를 고려한다.
MDP의 transition structure를 설명하기 위해서 특정 state까지 도달하는데 걸리는 step을 의미하는 diameter $D$를 도입한다.
임의의 MDP w/ $D$, $\mathcal S$, $\mathcal A$에 대해, total regret $\tilde{O}(D S \sqrt{A T})$을 만족하는 RL algorithm을 제시한다.
읽은 이유는 near optimal DTR의 증명을 이해하기 위해서이다.
아직 다 읽진 못했지만 나머지는 곧 읽을 것이다.