0%

0. Abstract

Input Sequence의 길이에 따라 output dictionary의 사이즈가 바뀌는 경우, 해결하기 어렵다.

우리의 모델은 neural attention 메커니즘을 활용해 푼다.

이는 attention후에 섞는 대신에, 멤버들을 고르는 pointer로 사용한다.

Read more »

0. Abstract

본 블로그는 자연어에 대해선 큰 관심이 없지만 attention 메커니즘이 여기저기 쓰이길래 읽었다.

NMT는 최근 제안된 기계번역 approach이다.

NMT에 제안된 모델은 RNN 기반의 encoder-decoder 구조를 갖는다.

  • encoder : source sentence ==> (fixed length) encoded vector
  • decoder : encoded vector ==> translation

이 논문에선

  • fixed-length vector사용이 성능 저하의 원인으로 생각하여,
  • target word를 예측하는데 필요한 soruce sentence의 일부분들을 자동으로 찾는 것을 제안한다.

이 방법으로 영어-프랑스어 번역에서 SOTA를 도달했다.

Read more »

0. Abstract

SCM은 mechanism과 exogeneous sources of random variation을 나타낸다.

NN은 universal approximability의 특징을 갖는다.

아마 SCM의 함수를 NN으로 대체하여 학습할 수 있다는 생각을 해봤을 수 있다.

이 논문에선

  • expressivity와 learnability의 개념을 구분지어서 안되는 것을 보인다.
  • 무엇이 데이터로부터 학습될 수 있는 지에 대한 causal hierarchy theorem(CHT)이 neural causal model(NCM)에 적용될 수 있음을 보인다.

예를 들어, 단순한 임의의 complex and expressive NN은 observational data만 갖고서 interventional effect를 예측할 수 없다.

이 결과를 갖고서,

  • NCM이라는 특수한 종류의 SCM을 도입하고
  • causal inference를 수행하기 위해 필요한 structural constraints를 위한 inductive bias를 formalize한다.

NCM이라는 새로운 model class로 causal identification and estimation task에 집중한다.

Read more »

0. Abstract

이 논문은 Bayesian model for causal inference의 identifiability를 확인하는 방법을 소개한다.

비록 do-calculus는 causeal graph가 주어졌을 때 sound&complete 하지만, 많은 실용적인 가정들이 표현될 수 없다.

  • instrumental variable design
  • regression discontinuity design
  • within-subjects design

Simulation-based identifiability test를 소개하겠다.

이는 causal assumption을 SCM상의 함수들의 prior로 나타낸다.

SBI가 asymptotically sound&complete임을 증명하고 practical finite sample bound를 제공하겠다.

Empirical하게 SBI가 graph-based identification과 일치하는 것을 보이겠다.

Read more »

PGM의 발전은 richer model with neural architectures with scalable bayesian inference로 가속화되고 있다.

그러나 causal relationship을 capture 하는 데는 한계가 있다.

예를 들어, 특정 유전 요인이 특정 질병에 어떤 영향을 줄 지에 대한 질문이 있다.

이 논문에선, 2가지 어려움에 집중한다.

  1. 어떻게 richer causal model을 세울 수 있을까?
  2. 어떻게 latent confounder로 adjust 할 수 있을까?

이를 위해 causality와 modern probabilistic modeling의 아이디어를 결합한다.

Read more »

0. Abstract

IPMs는 data를 modeling하는 flexible class이다.

이는 observation을 simulate할 수 있는 process이다.

GAN 처럼 likelihood를 몰라도 된다.


이 논문에선 HIMs와 DIMs를 도입한다.

DNN을 사용하여 HBM with implicit density를 정의한다.

IPM을 쓰는 경우 일반적으로 accurate & scalable inference는 어렵다.

우리는 model의 implicity도 허용하면서 A&S posterior inference도 혀용한다.

Read more »

0. Abstract

Undiscounted RL in MDP에서, total regret w.r.t. optimal policy를 고려한다.

MDP의 transition structure를 설명하기 위해서 특정 state까지 도달하는데 걸리는 step을 의미하는 diameter $D$를 도입한다.

임의의 MDP w/ $D$, $\mathcal S$, $\mathcal A$에 대해, total regret $\tilde{O}(D S \sqrt{A T})$을 만족하는 RL algorithm을 제시한다.

읽은 이유는 near optimal DTR의 증명을 이해하기 위해서이다.
아직 다 읽진 못했지만 나머지는 곧 읽을 것이다.

Read more »