[Paper Reading] [KR only] Are Transformers universal approximators of sequence-to-sequence functions?
๐
Main References
- Chulhee Yun, Srinadh Bhojanapalli, Ankit Singh Rawat, Sashank Reddi, and Sanjiv Kumar. Are Transformers universal approximators of sequence-to-sequence functions? ICLR 2020.
Abstract
- Transformer encoder๋ โpermutation equivariantโํ ์ฑ์ง์ ๊ฐ๋ ์ฐ์์ธ โsequence-to-sequenceโ ํจ์(with compact support)์ ๋ํ universal approximator์์ ๋ณด์ธ๋ค.
- Transformer encoder์๋ค learnableํ positional encodings๋ฅผ ๊ฐ์ด ์ฐ๋ฉด ์์์(permutation equivariantํ์ง ์์๋) ์ฐ์์ธ โsequence-to-sequenceโ ํจ์(with compact domain)๋ฅผ universally approximateํจ์ ๋ณด์ธ๋ค.
- Contextual mapping์ด๋ผ๋ ๊ฒ์ ์์์ ์ผ๋ก ์ ์ํ์ผ๋ฉฐ, Transformer Encoder์ multi-head self-attention layer๋ค์ด ์ ๋ ฅ sequence์ ๋ํ contextual mapping์ ์ ๊ณ์ฐํจ์ ๋ณด์ธ๋ค.
- (์คํ๋ ์งํํ์์ผ๋ ์ฌ๊ธฐ์๋ ์๋ต)
Keywords & Definitions
1. Sequence-to-sequence Function
$\mathbb{R}^{d\times n}$์์ $\mathbb{R}^{d\times n}$๋ก ๊ฐ๋ ํจ์๋ฅผ sequence-to-sequence function์ด๋ผ๊ณ ๋งํ๋ค. ์ ํํ๋ ์ ์์ญ๋ ์น์ญ๋ ๋ชจ๋ subset of $\mathbb{R}^{d\times n}$์ธ ํจ์๋ฅผ ๋งํ๋ค. ($\mathbb{R}^{d\times n}$: the set of all $d\times n$ real matrices)
์ด๋ $d$์ $n$์ ๊ฐ๊ฐ, Transformer ๋ ผ๋ฌธ์์ ์ธ๊ธํ๋ embedding ์ฐจ์๊ณผ ์ ๋ ฅ sequence ๊ธธ์ด๋ก ๋น์ ๋๋ค. ๊ธฐ์กด Transformer ๋ ผ๋ฌธ์์๋ ๊ฑฐ์ ๊ฐ์ ํ๊ธฐ๋ฅผ ์ฌ์ฉํ๋ค($d_{\text{model}} = d$). ํ ๊ฐ์ง ์ฐจ์ด๊ฐ ์๋ค๋ฉด, Transformer ๋ ผ๋ฌธ์์๋ $n\times d$ ํ๋ ฌ์ ์ฐ๋ ๋ฐ๋ฉด, ์ด ๋ ผ๋ฌธ์์๋ ๊ทธ ๋ฐ๋($d\times n$ ํ๋ ฌ)๋ฅผ ์ด์ฉํ๊ธฐ ๋๋ฌธ์, ํ๋ ฌ์ ๊ฐ ์ด(column)์ด ํ input word embedding(ํน์ token)์ผ๋ก ๋น์ ๋๋ค. ์๊ทธ๋๋ ์ด ๋ ผ๋ฌธ์์ ๊ณ์ํด์ $d\times n$ ํ๋ ฌ $X$๋ฅผ input sequence๋ผ๊ณ ์นญํ๋ค.
Sequence-to-sequence ํจ์์ ์ฐ์์ฑ ์ ์
Sequence-to-sequence function์ด ํ๋ ฌ์ ๋ฐ์ ํ๋ ฌ์ ๋ด๋ฑ๋ ํจ์์ด๋ค ๋ณด๋ ์ฐ์์ฑ๋ ์ ์ ์๋์ด์ผ ํ๋ค. ๋ ผ๋ฌธ์์๋ $\mathbb{R}^{d\times n}$์ entry-wise $\ell^p$ norm($|\cdot|_p$)๊ณผ ๊ทธ์ ๋ํ norm topology๋ฅผ ์ฃผ๊ณ ๊ทธ ์์์ ์ฐ์์ฑ์ ์ ์ํ๋ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค. ์ด๋ $p$์ ๊ฐ์ $1\le p<\infty$.
ํจ์ ๊ฐ์ ๊ฑฐ๋ฆฌ(function metric)
ํจ์๋ผ๋ฆฌ ์ผ๋ง๋ ๊ฐ๊น์ด ์ง๋ฅผ ๋ํ๋ด๊ธฐ ์ํด function ์ฌ์ด์ distance๋ฅผ ์ ์ํ๋ค. ์ฆ sequence-to-sequence function space์ metric $d_p$์ ์ฐ์๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
(Usualํ $L^p$ function norm์ ์ด์ฉํด์, ๋ ผ๋ฌธ์ ์๋ ํ๊ธฐ์ ์กฐ๊ธ ๋ค๋ฅด๊ฒ ์ ์ด๋ณด์๋ค.)
- Note: ๋ ผ๋ฌธ์์๋ ์ธ์ ๋ compact domain, compact support๋ฅผ ๊ฐ์ ํ๊ธฐ ๋๋ฌธ์, $N_p(f)$๊ฐ ๋ฌดํ๋๋ก ๋ฐ์ฐํ ๊ฑฑ์ ์ ํ์ง ์์๋ ๋ ๊ฒ ๊ฐ๋ค.
2. Permutation Equivariant
Permutation matrix๋
Permutation matrix๋ ๊ฐ ํ๊ณผ ๊ฐ ์ด๋ง๋ค 1์ด ๋ฑ ํ๋์ฉ ์๋ ์ ์ฌ๊ฐํ๋ ฌ์ด๋ค. ์ด๋ค ํ๋ ฌ $A\in \mathbb{R}^{m\times n}$์ Permutation matrix $P$๋ฅผ ๊ณฑํ๋ฉด $A$์ ํ ๋๋ ์ด์ ์์๋ฅผ ๋ค์ฃฝ๋ฐ์ฃฝ ์์ด ๋์ ๊ฒ๊ณผ ๊ฐ๋ค. ์ข ๋ ์ ํํ๋, (1) $P\in \mathbb{R}^{n\times n}$์ด๋ผ๋ฉด $AP$๋ $A$์ ์ด๋ค์ ์์๋ฅผ ์์ด๋์ ํ๋ ฌ์ด ๋๊ณ , (2) $P\in \mathbb{R}^{m\times m}$์ด๋ผ๋ฉด $PA$๋ $A$์ ํ๋ค์ ์์๋ฅผ ์์ด๋์ ํ๋ ฌ์ด ๋๋ค. ์๋ฅผ ๋ค์๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
\[\begin{pmatrix} 1&2&3 \\ 4&5&6 \\ 7&8&9\end{pmatrix}\begin{pmatrix} 0&1&0 \\ 0&0&1 \\ 1&0&0\end{pmatrix} = \begin{pmatrix} 3&1&2 \\ 6&4&5 \\ 9&7&8\end{pmatrix}\]์ฐธ๊ณ ๋ก ์ด๋ฌํ permutation matrix๋ ์ธ์ ๋ orthogonalํ๋ค: $P^TP=PP^T=I$. (P๊ฐ ํ/์ด์ ์์๋ฅผ ์ด๋ป๊ฒ ์๋์ง ์๊ฐํด๋ณด์.)
์์์ $X\in \mathbb{R}^{m\times n}$์ ์์์ permutation matrix $P\in \mathbb{R}^{n\times n}$์ ๋ํด์, Sequence-to-sequence function์ธ $f$๊ฐ $f(XP)=f(X)P$๋ฅผ ๋ง์กฑํ๋ฉด ์ด๋ฌํ ํจ์๊ฐ permutation equivariantํ๋ค๊ณ ๋งํ๋ค.
Sequence์ ์์๋ฅผ ๋ค์๋ ์ผ์ ํจ์์ ๋์ ํ๊ธฐ ์ ์ ํ๋ ํ์ ํ๋ ๋ฌ๋ผ์ง์ง ์๋ ํจ์๋ฅผ ๋งํ๋ค๊ณ ๋ณด๋ฉด ๋๋ค.
์ฐธ๊ณ ๋ก ๋ ผ๋ฌธ์์๋ ๊ฐ๊ฐ์ transformer (encoder) block์ด permutation equivariantํ sequence-to-sequence function์์ ์ฆ๋ช ํ๋ค. (Claim 1)
3. Universal Approximation
๋ฅ๋ฌ๋ ์ด๋ก ์ ์ถ๋ฐ์ ์ด๋ผ๊ณ ํ ๋งํ ์ ๋ฆฌ๋ก, Neural network์ expressive power์ ๋ํด ์๋ ค์ฃผ๋ ์ ๋ฆฌ์ธ โuniversal approximation theoremโ์ด ์๋ค. ์ด๊ฒ์ ๋ด์ฉ์ ์์ฝํ์๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
Hidden layer๊ฐ 1๊ฐ ์๋ neural network๋ง ๊ฐ์ง๊ณ ๋ ์๋ฌด๋ฐ ์ฐ์ํจ์(with compact support)๋ฅผ ์์์ (์์ฃผ ์์) ์ค์ฐจ๋ก ๊ทผ์ฌํ ์ ์๋ค. (๋จ! network์ width์๋ ์ ํ์ด ์์ผ๋ฉฐ, ์ค๊ฐ์ ์๋ activation function์ ๋คํญํจ์๊ฐ ์๋.)
์ด์ฒ๋ผ, Universal Approximator๋ โ์์์ ์ ํ๋๋ก ์์ฒญ ๋ง์ ํจ์๋ค์ ๊ทผ์ฌํ ์ ์โ๋ ๋ชจ๋ธ์ ๋๊ณ ํ๋ ๋ง์ด๋ค. ์ดํ๋ก๋ universal approximation์ ๋ํ ๋ค๋ฐฉ๋ฉด์ ์ฐ๊ตฌ๊ฐ ์ด๋ฃจ์ด์ก๋๋ฐ, ์ด๋ ์ฌ๊ธฐ์ ์๊ฐํ๋ ๋ ผ๋ฌธ์ section 1.2 related works & notation์ ์ ์๊ฐ๋์ด ์๋ค.
4. Contextual Mapping
๋ ผ๋ฌธ์ ๋ฐ๋ฅด๋ฉด, Transformer๊ฐ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ์ด์ ๊ฐ ๋ณดํต โcontextual mappingโ์ ์ ๊ณ์ฐํ๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ํ๊ฐ๋๋ค๊ณ ํ๋ค. ์ฆ, ๊ฐ๊ฐ์ ๋ฌธ๋งฅ์ ์๋ก ์ ๊ตฌ๋ถํ๋ ๋ฅ๋ ฅ์ด ํ์ํ๋ค๊ณ ๋ณด๋ ๊ฒ์ด๋ค.
๋ ผ๋ฌธ์์๋ Trasformer์ ์ด๋ฐ์ ๋ฐ universal approximation ๋ฅ๋ ฅ์ ์ฆ๋ช ํ๋ ค ํ๋๋ฐ, ๊ทธ ๊ณผ์ ์ค์ โ(multi-head) self-attention layers๊ฐ contextual mapping์ ์ ๊ณ์ฐํ๋คโ๋ ๊ฒ์ ์ฆ๋ช ํ๋ ๊ฒ ์ ๋ง ์ค์ํ ์ค๊ฐ ๊ณผ์ ์ด๋ผ๊ณ ํ๋ค. ์ด๋ฅผ ์ํด ๋ ผ๋ฌธ์์๋ contextual mapping์ ๊ฐ๋ ์ ์์ ์์์ ์ผ๋ก ์ ์ํด๋ฒ๋ฆฐ ๋ค์ ์ด๋ฅผ ์ฆ๋ช ์ ์ด์ฉํ๋ค. ๋ ผ๋ฌธ์์ ์ฃผ์ด์ง ์ ์๋ ๋ค์๊ณผ ๊ฐ๋ค.
์ฆ contextual mapping์ ๊ธธ์ด $n$์ธ input sequence๋ฅผ ๋ฐ์ $n$๊ฐ์ ๊ฐ (ํน์ $n$์ฐจ์ ์ด๋ฒกํฐ)๋ฅผ ๋ด๋๋ ํจ์๋ก ์ ์๋๋ค. ์ด๋ ํ ๋ฌธ์ฅ(sequence) ์์ ๋จ์ด๋ค์ ์๋ก ๋ค๋ฅธ ์ญํ ์ ํ๋ฏ๋ก ๊ฐ๊ฐ ๋ค๋ฅธ context๊ฐ(contextual mapping์ entry)์ด ๋งค๊ฒจ์ง๋ค(1๋ฒ ์กฐ๊ฑด). ๊ฒ๋ค๊ฐ, ๊ฐ์ ๋จ์ด๋ผ๋ ๋ค๋ฅธ ๋ฌธ์ฅ์์๋ ๋ค๋ฅธ ์๋ฏธ๋ก ํด์๋๋ค๋ ์๋ฏธ์์, ์๋ก ๋ค๋ฅธ ๋ input sequence(L, Lโ)์ ๋ํ contextual mapping์ ์๋ ๋ชจ๋ (์ด 2n๊ฐ์) entry๋ค์ ์ ๋ถ ๋ค๋ฅด๊ฒ ๋งค๊ฒจ์ง๋ค(2๋ฒ ์กฐ๊ฑด).
์งํฉ $\mathbb{L}$์ด ์ ํ์งํฉ์ผ๋ก ์ค์ ๋ ์ด์ ๋ (๋ด ์๊ฐ์๋)
Vocabulary์ ํฌ๊ธฐ๋ ์ ํํ๊ณ sequence ๊ธธ์ด๋ ์ ํํ๋ฏ๋ก ๋ง๋ค ์ ์๋ input sequence์ ๊ฐ์๋ ์ ํํ๋ค. Sequence๋ค์ ์งํฉ๊ณผ ๋์๋๋ ์งํฉ์ด $\mathbb{L}$๊ณผ ๋น์ทํ ๊ฒ์ด๋ผ๋ฉด, $\mathbb{L}$์ ์ ํ์งํฉ์ด๋ผ๊ณ ๋์๋ ๊ด์ฐฎ์ ๊ฒ์ด๋ค. (์ด ์กฐ๊ฑด์ด ํ์์ธ์ง๋ ์ฆ๋ช ์ ๋ ๋ค์ฌ๋ค๋ด์ผ..)
Main Text
1. Universal Approximator์์ ๋ณด์ด๊ธฐ ํ๋ ์ด์
- ๋๋ฌด ๋ง์ ๋ณด์ด๋ Parameter sharing. Self-attention layer์ feed-forward layer ๋ชจ๋, token๋ผ๋ฆฌ ๊ณต์ ํ๋ parameter์ ์๊ฐ ๋งค์ฐ ๋ง๋ค.
- ๋๋ฌด ์ ์ด ๋ณด์ด๋ token-wise interaction. Self-attention layer์ ํน์ฑ์ pairwise dot-product๋ก๋ง token ์ฌ์ด์ interaction์ ์ก์๋ธ๋ค.
(๋์งธ ์ด์ ๋ ๊ทธ๋ด ๋งํ๋ค๊ณ ๋ณด์ด๋๋ฐ, ์ฒซ์งธ ์ด์ ๋ ์์ง ์ ์ดํดํ์ง ๋ชปํ๋ค.)
๋ ผ๋ฌธ์์๋ ์์ ๋ ์ด์ ๋ก ์ธํด transformer encoder ์์ฒด๊ฐ ๋ํ๋ผ ์ ์๋ sequence-to-sequence ํจ์์ ์ข ๋ฅ์ ์ ํ์ด ์๋ค๊ณ ๋ณด๋ฉฐ, ์ด๋ฅผ trainableํ positional encoding์ผ๋ก ํด๊ฒฐํ๋ค.
โ ์ผ๋ฐ์ ์ผ๋ก, Parameter sharing์ด ๋ง์์๋ก universal approximator๊ฐ ๋๊ธฐ ์ด๋ ค์ด ์ด์ ๋ ๋ฌด์์ผ๊น?
2. ๋ ผ๋ฌธ์์ ๋ณธ Transformer
์๋๋ ๋ ผ๋ฌธ์์ ์ฌ์ฉํ transformer block์ ๋ํ ์์ด๋ค.
์ ์๋ ค์ ธ ์๋ฏ, transformer encoder block์ multi-head self-attention layer(โAttnโ)์ token-wise feed-forward layer(โFFโ)๋ผ๋ ๋ (sub-)layer๋ก ๋๋๋ค.
2.1. ๊ธฐ์กด Transformer ๋ ผ๋ฌธ๊ณผ์ ๊ณตํต์
- ์์์์ ํ์ธํ ์ ์๋ฏ residual connection์ ๊ทธ๋๋ก ์ด๋ ค๋์๋ค.
2.2. ๊ธฐ์กด Transformer ๋ ผ๋ฌธ๊ณผ์ ์ฐจ์ด์
- ํด์์ ๊ฐ๋จํ ํ๊ธฐ ์ํด layer normalization์ ๋บ๋ค๊ณ ํ๋ค.
- Self-attention layer ์์ ๋ณด๋ฉด ๊ธฐ์กด ๋ ผ๋ฌธ์์๋ ๋ณผ ์ ์๋ ์๊ทธ๋ง($\sum$) ๊ธฐํธ๊ฐ ๋ณด์ธ๋ค. ์๋ transformer ๋ ผ๋ฌธ์์๋ attention head๋ค์ concatenateํ๋๋ฐ, ์ด๋ฌํ concatenation์ ์์์ ์ผ๋ก๋ ์ ๋ ๊ฒ ํํํ ์ ์๋ค๊ณ ํ๋ค. ์ฆ ์๋ฏธ๊ฐ ๋ค๋ฅธ ์์ด ์๋๋ค.
- Self-attention layer์ ์๋ฌธ์ ์๊ทธ๋ง ํจ์($\sigma(\cdot)$)๋ (column-wise) softmax๋ฅผ ๊ฐ๋ฆฌํจ๋ค. ๊ทธ๋ฐ๋ฐ ๊ธฐ์กด ๋ ผ๋ฌธ์์๋ scaled dot-product attention์ ์ฌ์ฉํ๋ ๋ฐ๋ฉด ์ฌ๊ธฐ์๋ ๊ทธ๋ฅ dot-product attention์ ์ฐ๋ ๊ฒ์ฒ๋ผ ๋ณด์ธ๋ค. ์ฌ์ค $\boldsymbol{W}_K$๋ $\boldsymbol{W}_Q$๊ฐ์ parameter๋ค์ด ๊ทธ scaling factor($\frac{1}{\sqrt{d_k}}$)๋ฅผ ํ์ตํ๋ฉด ๊ทธ๋ง์ด๋ค.
โ Layer normalization์ ๋นผ๋ ๊ด์ฐฎ์ ์ด์ ๋ ๋ฌด์์ผ๊น?
2.3. Positional encoding
- Trainableํ positional encoding์ด ์๋ ์์ํ transformer block์ ์ค์ง โpermutation equivariantโํ ์ข ๋ฅ์ ํจ์๋ง์ ์ ๊ทผ์ฌํ ๋ฟ์ด๋ค. ๊ทธ๋ฌ๋ positional encoding์ ๋์ ํจ์ผ๋ก์จ ์ด๋ฌํ ํจ์ ์ข ๋ฅ์ ์ ํ ์์ด ์๋ฌด๋ฐ sequence-to-sequence ํจ์(with compact domain)์ ์ ๊ทผ์ฌํ ์ ์๊ฒ ๋๋ค.
- Positional encoding $\boldsymbol{E}$ ์ญ์ $d\times n$ ํฌ๊ธฐ์ real matrix๋ก ์ ์๋๋ค. Transformer block์ ํจ์ $g$๋ก ์ด๋ค๋ฉด, positional encoding์ด ๋์ ๋ transformer block์ input sequence $\boldsymbol{X}$์ ๋ํด $g(\boldsymbol{X}+\boldsymbol{E})$๋ผ๊ณ ์ธ ์ ์๋ค.
- ๋ ผ๋ฌธ์์๋ ์ด $\boldsymbol{E}$๊ฐ trainableํ๋ค๊ณ ๊ฐ์ ํ๋ฏ๋ก ์๋ฌด๋ ๊ฒ๋ ์ค์ ํ ์ ์๋ค. ์ค์ ๋ก, ํจ์๋ค์ domain์ด compactํจ์ ๊ฐ์ ํด์ input sequence๊ฐ $\boldsymbol{X}\in [0,1]^{d\times n}$ ๊ฐ ๋๋๋ก ํ ๋ค, positional encoding์ ๋ํ๋ด๋ ํ๋ ฌ์ ์์๋ก ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ๋ค. (Appendix C ์ฐธ๊ณ )
3. ์ฃผ์ ๊ฒฐ๊ณผ (2๊ฐ์ง)
๋ ผ๋ฌธ์ด ์ฃผ์ฅํ๋ ๋ ๊ฐ์ง ์ค์ํ ๊ฒฐ๊ณผ๋ Abstract์์ ์๊ฐํ ์ฒ์ ๋ ์ค๊ณผ ๊ฐ๋ค. ์ฌ๊ธฐ์๋ ๋ ์์ธํ ์์ ์ ์๊ฐํ๋ค.
Theorem 2. (์์์ $\epsilon>0$์ $1\le p < \infty$์ ๋ํด) ํจ์ $f$๊ฐ ๋ค์์ ์กฐ๊ฑด์ ๋ง์กฑํ๋ค๊ณ ํ์.
- $f$๋ sequence-to-sequence ํจ์.
- $f$์ support๋ compact.
- $f$๋ ์ฐ์(w.r.t. entry-wise $\ell^p$ norm).
- $f$๋ permutation equivariant.
๊ทธ๋ฌ๋ฉด ๋ค์ ์กฐ๊ฑด์ ๋ง์กฑํ๋ Transformer network $g$๊ฐ ์กด์ฌํ๋ค.
- $g$๋ $(h,m,r)=(2,1,4)$๋ฅผ ๋ง์กฑ.
- $d_p (f,g ) \le \epsilon$.
- ์ฐธ๊ณ : Transformer network๋, ๊ฐ์ Transformer block์ ์ฌ๋ฌ ๊ฐ ์์ ๊ฒ์ด๋ค. ๋ ์์์ ์ฐ์ธ h, m, r์ ๊ฐ๊ฐ ๋ค์๊ณผ ๊ฐ์ ๊ฒ์ ๋ํ๋ด๋ ๊ธฐํธ๋ค.
๋ฌธ์ | ๋ป |
---|---|
$h$ | attention head์ ๊ฐ์ |
$m$ | attention head์ ํฌ๊ธฐ |
$r$ | feed-forward layer์ hidden ์ฐจ์ (=$d_{ff}$) |
Theorem 3. (์์์ $\epsilon>0$์ $1\le p < \infty$์ ๋ํด) ํจ์ $f$๊ฐ ๋ค์์ ์กฐ๊ฑด์ ๋ง์กฑํ๋ค๊ณ ํ์.
- $f$๋ sequence-to-sequence ํจ์.
- $f$์ domain์ compact.
- $f$๋ ์ฐ์(w.r.t. entry-wise $\ell^p$ norm).
๊ทธ๋ฌ๋ฉด ๋ค์ ์กฐ๊ฑด์ ๋ง์กฑํ๋ Transformer network $g$ with (trainable) positional encoding $\boldsymbol{E}$๊ฐ ์กด์ฌํ๋ค.
- $g$๋ $(h,m,r)=(2,1,4)$๋ฅผ ๋ง์กฑ.
- $d_p (f,g ) \le \epsilon$.
๊ฑฐ์ ๋ชจ๋ ๊ฒ์ด Theorem 2์ ๋์ผํ์ง๋ง, Transformer network์๋ positional encoding์ด ์ถ๊ฐ๋๊ณ , ๋์ ๊ทผ์ฌํ๋ ค๋ sequence-to-sequence ํจ์์ permutation equivariant ์กฐ๊ฑด์ด ์ฌ๋ผ์ก๋ค.
$(h,m,r)=(2,1,4)$๋ฅผ ์ฐ๋ ์ด์ ? (๋๋ฌด ์์ block ์๋๊ฐ?)
Attention head๊ฐ 2๊ฐ๋ฐ์ ์๊ณ , ๊ทธ ํฌ๊ธฐ๋ ๊ฒจ์ฐ 1์ด๊ณ , ์ฌ์ง์ด feed-forward layer์ hidden ์ฐจ์์ด 4๋ฐ์ ์ ๋๋ ์์ Transformer block์ ์ค์ง์ ์ผ๋ก ์ฐ์ด์ง ์๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ Transformer block์ ์ด์ฉํ ์ด์ ๋ ๋จ์ง ๋จ์ํ๊ฐ ์ฆ๋ช ์ ์ฝ๊ฒ ํด์ฃผ๊ธฐ ๋๋ฌธ๋ง์ ์๋๋ค.
๋ ํฐ ๋ชจ๋ธ์ ์๋ช ํ๊ฒ expressive power๊ฐ ๋ ํฌ๊ธฐ ๋๋ฌธ์ด๋ค. ์ค์ง์ ์ผ๋ก ์ฐ์ด๋ transformer block์ ํจ์ฌ ๋ ๋ง์ parameter๋ฅผ ์ธ ํ ๋ฐ, ๊ทธ๋ฐ model์ ๋ ผ๋ฌธ์์ ์ฐ์ด๋ ๋งค์ฐ ์์ transformer block์ ๋นํ๋ฉด ๋น์ฐํ ๋์ฑ๋ ๋ง์ ํจ์๋ค์ ํํํ ์ ์์ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ ์ด๋ ๊ฒ ์์ ์ค์ผ์ผ๋ก ๋ฌธ์ ๋ฅผ ์ถ์์์ผ์ ๋ฌธ์ ๋ฅผ ํ์ด๋ ์ถฉ๋ถํ๋ค.
โ ์์ ๋ ์ ๋ฆฌ๋ universal approximation์ ์ธก๋ฉด์์ ๋งค์ฐ ์ ์๋ฏธํ ๊ฒฐ๊ณผ๋ฅผ ๋ด๊ณ ์๋ค. ๊ทธ๋ฌ๋ ๋ชจ๋ ์กด์ฌ์ฑ ์ ๋ฆฌ์ธ ํ์, ํ๋ จ ๊ณผ์ ์์ transformer๊ฐ โ์ฐ๋ฆฌ๊ฐ ์ํ๋ ํจ์โ๋ฅผ ์ค์ ๋ก ์ ๊ทผ์ฌํ ์ ์๋์ง๋ ๋งํด์ฃผ์ง ์๋ ๊ฒ ๋ถ๋ช ํ๋ค. ์ด๊ฒ์ด ๊ฐ๋ฅํ์ง๋ ์ด๋ป๊ฒ ์ฐ๊ตฌํด์ผ ํ ๊น?/ ์ด๋ป๊ฒ ์ฐ๊ตฌ๋๊ณ ์์๊น?
4. ์ด๋ป๊ฒ ์ฆ๋ช ํ๋?
Theorem 2์ Theorem 3์ ์ฆ๋ช ์ ๋งค์ฐ ์ ์ฌํ๋ฉฐ, ๋ณธ๋ฌธ์์๋ Theorem 2์ ์ฆ๋ช ๊ณผ์ ์ ์์ฝํ์ฌ ์ค๋ช ํ๋ค. ์ธ ๋จ๊ณ๋ก ๋๋์ด ์์์ continuous, permutation equivariant, sequence-to-sequence function $f$ with compact support๋ฅผ ์ ์ ํ Transformer network๋ก ๊ทผ์ฌํ๋ค. ๊ทธ ๋ก๋๋งต์ ๋ค์๊ณผ ๊ฐ๋ค.
4.1) $f$๋ฅผ piece-wise ์์ํจ์๋ก ๊ทผ์ฌํ๊ธฐ
์์ํจ์๋ผ๊ณ ํด์ f๊ฐ ๊ฐ์๊ธฐ real-valued๊ฐ ๋๋ ๊ฒ์ด ์๋๋ค. ์ฌ๊ธฐ์์ ์์ํจ์ ์ญ์ ํ๋ ฌ์ ๋ฐ์ ํ๋ ฌ์ ๋ด๋ฑ๋ ํจ์์ธ๋ฐ, ํจ์ซ๊ฐ์ผ๋ก์์ ํ๋ ฌ์ด ๊ณ ์ ๋์ด ์์ผ๋ฉด ์์ํจ์์ธ ๊ฒ์ด๋ค.
4.2) Piece-wise ์์ํจ์๋ฅผ โmodifiedโ Transformer network๋ก ๊ทผ์ฌํ๊ธฐ
โModifiedโ Transformer๋, ๊ธฐ์กด์ Transformer์์ ์ฐ์ด๋ (column-wise) softmax ํจ์($\sigma$)๋ column-wise hardmax($\sigma_H$)๋ก ๋์ฒดํ๊ณ , FF์ activation function์ผ๋ก ์ฐ์ด๋ ReLU๋ ๋๋ค๋ฅธ ํน์ดํ ํจ์($\phi \in \Phi$, ์์ธํ ์ ์๋ ์๋์)๋ก ๋์ฒดํ ๊ฒ์ด๋ค.
- $\Phi$์ ์ ์:
The set of all piece-wise linear functions with at most three pieces, where at least one piece is constant. (p.9)
์ด ๋ถ๋ถ์ ์ฆ๋ช ํ๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ modified Transformer์ layer ์์๋ฅผ ๋ฏ์ด๊ณ ์น๋ ์ผ์ ํ๋ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค. Residual connection์ ์ด์ฉํ๋ฉด, self-attention๊ณผ feed-forward layer๋ฅผ ๋ฒ๊ฐ์ ์ ์ฉํ๋๊ฒ ์๋๋ผ self-attention๋ง ์ญ, ํน์ feed-forward layer๋ง ์ญ ์ด์ด ํฉ์ฑํ ๊ฒ์ ํ์ฉํ ์ ์๋ค๊ณ ํ๋ค.
(โฆ.) we note that even though a Transformer network stacks self-attention and feed-forward layers in an alternate manner, the skip connections enable these networks to employ a composition of multiple self-attention or feed-forward layers. (์ค๋ต) self-attention and feed-forward layers play in realizing the ability to universally approximate sequence-to-sequence functions: 1) self-attention layers compute precise contextual maps; and 2) feed-forward layers then assign the results of these contextual maps to the desired output values. (p.6)
โ Modified Transformer network์ layer ์์๋ฅผ ๋ค๋ฐ๊พธ์ด ๊ฐ์ ์ข ๋ฅ์ layer๋ง ์ด์ด๋ถ์ผ ์ ์๋ ์ด์ ๊ฐ ๊ตฌ์ฒด์ ์ผ๋ก ๋ฌด์์ผ๊น? ์ฌ๊ธฐ์ skip connection์ ์ด๋ค ์ญํ ์ ํ ๊น?
4.3) Modified Transformer network๋ฅผ Transformer network๋ก ๊ทผ์ฌํ๊ธฐ
์์์ ๋์ฒดํ๋ softmax์ ReLU๋ฅผ ์๋๋๋ก ๋๋ ค๋๋ ์์ ์ด๋ผ๊ณ ๋ณด๋ฉด ๋ ๊ฒ ๊ฐ๋ค.
5. ๋ช ๊ฐ์ block์ ์์์ผ ํ๋?
Theorem 2๋ ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ช๊ฐ์ Transformer block์ ์์์ผ ํ๋์ง ๋ณด์ฌ์ค๋ค. ๋ ผ๋ฌธ์์ ์ ์ํ๋, permutation equivariant ํจ์๋ฅผ ์ ๊ทผ์ฌํ๊ธฐ ์ํด ํ์ํ (h,m,r)=(2,1,4) Transformer block์ ์ด $O(n(1/\delta)^{dn}/n!)$๊ฐ๋ค. ๋ํ, positional encoding๊น์ง ๋ํด ์ข ๋ ๊ด๋ฒ์ํ sequence-to-sequence ํจ์๋ฅผ ์ ๊ทผ์ฌํ๊ธฐ ์ํด์ ํ์ํ block์ $O(n(1/\delta)^{dn})$๊ฐ๋ค.
์ด๋ $\delta$๋ Theorem 2/3์ ์ฆ๋ช 1~2๋จ๊ณ์์ ์ฐ์ธ piecewise constant function์ domain์ ๊ตฌ๋ถํ๋ grid๋ฅผ ์ด๋ฃจ๋ (hyper-)cube์ ํ ๋ณ์ ๊ธธ์ด์ด๋ฉฐ, ์ถฉ๋ถํ ์์์ ๊ฐ์ ํด์ผ ํ๋ค. (์ฆ๋ช ๊ณผ์ ์ ๋ฐ๋ฅด๋ฉด, $O(\delta^{d/p} ) \le \epsilon/3)$
โ ๋ ผ๋ฌธ์์๋ ์ฆ๋ช ์ ์ํด ์์ฃผ ์์ transformer block์ ์ด์ฉํ๊ณ ์๋ค. ๋ง์ฝ ์ด transformer block์ ํฌ๊ธฐ๋ฅผ ํค์ด๋ค๋ฉด ํ์ํ block์ ์๋ ์ค์ด๋ค๊น? (์๋ง $d$์ $n$์ ๋ฐ๋ฅธ complexity์๋ ํฌ๊ฒ ์ฐจ์ด๊ฐ ์์ง ์์ ๊ฒ ๊ฐ๋ค. $h$, $m$, $r$ ๋ฑ์ ๊ฐ์ $d$๋ $n$์ ๊ฐ๊ณผ๋ ๊ด๋ จ์ด ์์ผ๋ฏ๋ก.)
My Comments & Questions
- ์ ํ๋์ํ์ ๊ฝค๋ ์ฐ๋ ๋ ผ๋ฌธ์ด์ง๋ง ์ค์์ ์์ฒญ๋๊ฒ ํด์ํ์ค๋ฌ์ด ๋ ผ๋ฌธ์ด์๋ค. ํด์ํ1๋ Weierstrass Approximation Theorem(compact domain์์ ์ฐ์ํจ์๋ฅผ ๋คํญ์์ผ๋ก ์์์ ์ ํ๋๋ก ๊ทผ์ฌํ๊ธฐ) ๋ฐฐ์ ๋ ๊ฒ์ด ์๋ก์๋กโฆ
- ์์์ ๋์ก๋ ์ง๋ฌธ๋ค์ ๋ด๊ฐ ๋ ผ๋ฌธ์ ์ฝ์ผ๋ฉด์๋ ๋๊น์ง ์ดํดํ์ง ๋ชปํ๋, ํน์ ์ค์ค๋ก 100% ๋ง์กฑ์ค๋ฝ๊ฒ ๋๋ตํ์ง๋ ๋ชปํ๋ ์ง๋ฌธ๋ค์ด๋ค. ๋ค์ ๋ชจ์๋ณด์.
โ ์ผ๋ฐ์ ์ผ๋ก, Parameter sharing์ด ๋ง์์๋ก universal approximator๊ฐ ๋๊ธฐ ์ด๋ ค์ด ์ด์ ๋ ๋ฌด์์ผ๊น?
โ Layer normalization์ ๋นผ๋ ๊ด์ฐฎ์ ์ด์ ๋ ๋ฌด์์ผ๊น?
โ (Paraphrased:) ํ๋ จ ๊ณผ์ ์์ transformer๊ฐ โ์ฐ๋ฆฌ๊ฐ ์ํ๋ ํจ์โ๋ฅผ ์ค์ ๋ก ์ ๊ทผ์ฌํ ์ ์๋์ง๋ ์ด๋ป๊ฒ ์ ์ ์์๊น?
โ Modified Transformer network์ layer ์์๋ฅผ ๋ค๋ฐ๊พธ์ด ๊ฐ์ ์ข ๋ฅ์ layer๋ง ์ด์ด๋ถ์ผ ์ ์๋ ์ด์ ๊ฐ ๊ตฌ์ฒด์ ์ผ๋ก ๋ฌด์์ผ๊น? ์ฌ๊ธฐ์ skip connection์ ์ด๋ค ์ญํ ์ ํ ๊น?
โ ๋ ผ๋ฌธ์์๋ ์ฆ๋ช ์ ์ํด ์์ฃผ ์์ transformer block์ ์ด์ฉํ๊ณ ์๋ค. ๋ง์ฝ ์ด transformer block์ ํฌ๊ธฐ๋ฅผ ํค์ด๋ค๋ฉด ํ์ํ block์ ์๋ ์ค์ด๋ค๊น?