[Paper Reading] Viewing Log-Depth Transformers via the Lens of Distributed Computing
๐
๐ Presented in OptiML Group Meeting (Fall 2024)
(Usualํ $L^p$ function norm์ ์ด์ฉํด์, ๋ ผ๋ฌธ์ ์๋ ํ๊ธฐ์ ์กฐ๊ธ ๋ค๋ฅด๊ฒ ์ ์ด๋ณด์๋ค.)
Permutation matrix๋
Permutation matrix๋ ๊ฐ ํ๊ณผ ๊ฐ ์ด๋ง๋ค 1์ด ๋ฑ ํ๋์ฉ ์๋ ์ ์ฌ๊ฐํ๋ ฌ์ด๋ค. ์ด๋ค ํ๋ ฌ $A\in \mathbb{R}^{m\times n}$์ Permutation matrix $P$๋ฅผ ๊ณฑํ๋ฉด $A$์ ํ ๋๋ ์ด์ ์์๋ฅผ ๋ค์ฃฝ๋ฐ์ฃฝ ์์ด ๋์ ๊ฒ๊ณผ ๊ฐ๋ค. ์ข ๋ ์ ํํ๋, (1) $P\in \mathbb{R}^{n\times n}$์ด๋ผ๋ฉด $AP$๋ $A$์ ์ด๋ค์ ์์๋ฅผ ์์ด๋์ ํ๋ ฌ์ด ๋๊ณ , (2) $P\in \mathbb{R}^{m\times m}$์ด๋ผ๋ฉด $PA$๋ $A$์ ํ๋ค์ ์์๋ฅผ ์์ด๋์ ํ๋ ฌ์ด ๋๋ค. ์๋ฅผ ๋ค์๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
\[\begin{pmatrix} 1&2&3 \\ 4&5&6 \\ 7&8&9\end{pmatrix}\begin{pmatrix} 0&1&0 \\ 0&0&1 \\ 1&0&0\end{pmatrix} = \begin{pmatrix} 3&1&2 \\ 6&4&5 \\ 9&7&8\end{pmatrix}\]์ฐธ๊ณ ๋ก ์ด๋ฌํ permutation matrix๋ ์ธ์ ๋ orthogonalํ๋ค: $P^TP=PP^T=I$. (P๊ฐ ํ/์ด์ ์์๋ฅผ ์ด๋ป๊ฒ ์๋์ง ์๊ฐํด๋ณด์.)
์์์ $X\in \mathbb{R}^{m\times n}$์ ์์์ permutation matrix $P\in \mathbb{R}^{n\times n}$์ ๋ํด์, Sequence-to-sequence function์ธ $f$๊ฐ $f(XP)=f(X)P$๋ฅผ ๋ง์กฑํ๋ฉด ์ด๋ฌํ ํจ์๊ฐ permutation equivariantํ๋ค๊ณ ๋งํ๋ค.
Sequence์ ์์๋ฅผ ๋ค์๋ ์ผ์ ํจ์์ ๋์ ํ๊ธฐ ์ ์ ํ๋ ํ์ ํ๋ ๋ฌ๋ผ์ง์ง ์๋ ํจ์๋ฅผ ๋งํ๋ค๊ณ ๋ณด๋ฉด ๋๋ค.
์ฐธ๊ณ ๋ก ๋ ผ๋ฌธ์์๋ ๊ฐ๊ฐ์ transformer (encoder) block์ด permutation equivariantํ sequence-to-sequence function์์ ์ฆ๋ช ํ๋ค. (Claim 1)
๋ฅ๋ฌ๋ ์ด๋ก ์ ์ถ๋ฐ์ ์ด๋ผ๊ณ ํ ๋งํ ์ ๋ฆฌ๋ก, Neural network์ expressive power์ ๋ํด ์๋ ค์ฃผ๋ ์ ๋ฆฌ์ธ โuniversal approximation theoremโ์ด ์๋ค. ์ด๊ฒ์ ๋ด์ฉ์ ์์ฝํ์๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
Hidden layer๊ฐ 1๊ฐ ์๋ neural network๋ง ๊ฐ์ง๊ณ ๋ ์๋ฌด๋ฐ ์ฐ์ํจ์(with compact support)๋ฅผ ์์์ (์์ฃผ ์์) ์ค์ฐจ๋ก ๊ทผ์ฌํ ์ ์๋ค. (๋จ! network์ width์๋ ์ ํ์ด ์์ผ๋ฉฐ, ์ค๊ฐ์ ์๋ activation function์ ๋คํญํจ์๊ฐ ์๋.)
์ด์ฒ๋ผ, Universal Approximator๋ โ์์์ ์ ํ๋๋ก ์์ฒญ ๋ง์ ํจ์๋ค์ ๊ทผ์ฌํ ์ ์โ๋ ๋ชจ๋ธ์ ๋๊ณ ํ๋ ๋ง์ด๋ค. ์ดํ๋ก๋ universal approximation์ ๋ํ ๋ค๋ฐฉ๋ฉด์ ์ฐ๊ตฌ๊ฐ ์ด๋ฃจ์ด์ก๋๋ฐ, ์ด๋ ์ฌ๊ธฐ์ ์๊ฐํ๋ ๋ ผ๋ฌธ์ section 1.2 related works & notation์ ์ ์๊ฐ๋์ด ์๋ค.
๋ ผ๋ฌธ์ ๋ฐ๋ฅด๋ฉด, Transformer๊ฐ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ์ด์ ๊ฐ ๋ณดํต โcontextual mappingโ์ ์ ๊ณ์ฐํ๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ํ๊ฐ๋๋ค๊ณ ํ๋ค. ์ฆ, ๊ฐ๊ฐ์ ๋ฌธ๋งฅ์ ์๋ก ์ ๊ตฌ๋ถํ๋ ๋ฅ๋ ฅ์ด ํ์ํ๋ค๊ณ ๋ณด๋ ๊ฒ์ด๋ค.
๋ ผ๋ฌธ์์๋ Trasformer์ ์ด๋ฐ์ ๋ฐ universal approximation ๋ฅ๋ ฅ์ ์ฆ๋ช ํ๋ ค ํ๋๋ฐ, ๊ทธ ๊ณผ์ ์ค์ โ(multi-head) self-attention layers๊ฐ contextual mapping์ ์ ๊ณ์ฐํ๋คโ๋ ๊ฒ์ ์ฆ๋ช ํ๋ ๊ฒ ์ ๋ง ์ค์ํ ์ค๊ฐ ๊ณผ์ ์ด๋ผ๊ณ ํ๋ค. ์ด๋ฅผ ์ํด ๋ ผ๋ฌธ์์๋ contextual mapping์ ๊ฐ๋ ์ ์์ ์์์ ์ผ๋ก ์ ์ํด๋ฒ๋ฆฐ ๋ค์ ์ด๋ฅผ ์ฆ๋ช ์ ์ด์ฉํ๋ค. ๋ ผ๋ฌธ์์ ์ฃผ์ด์ง ์ ์๋ ๋ค์๊ณผ ๊ฐ๋ค.
์ฆ contextual mapping์ ๊ธธ์ด $n$์ธ input sequence๋ฅผ ๋ฐ์ $n$๊ฐ์ ๊ฐ (ํน์ $n$์ฐจ์ ์ด๋ฒกํฐ)๋ฅผ ๋ด๋๋ ํจ์๋ก ์ ์๋๋ค. ์ด๋ ํ ๋ฌธ์ฅ(sequence) ์์ ๋จ์ด๋ค์ ์๋ก ๋ค๋ฅธ ์ญํ ์ ํ๋ฏ๋ก ๊ฐ๊ฐ ๋ค๋ฅธ context๊ฐ(contextual mapping์ entry)์ด ๋งค๊ฒจ์ง๋ค(1๋ฒ ์กฐ๊ฑด). ๊ฒ๋ค๊ฐ, ๊ฐ์ ๋จ์ด๋ผ๋ ๋ค๋ฅธ ๋ฌธ์ฅ์์๋ ๋ค๋ฅธ ์๋ฏธ๋ก ํด์๋๋ค๋ ์๋ฏธ์์, ์๋ก ๋ค๋ฅธ ๋ input sequence(L, Lโ)์ ๋ํ contextual mapping์ ์๋ ๋ชจ๋ (์ด 2n๊ฐ์) entry๋ค์ ์ ๋ถ ๋ค๋ฅด๊ฒ ๋งค๊ฒจ์ง๋ค(2๋ฒ ์กฐ๊ฑด).
์งํฉ $\mathbb{L}$์ด ์ ํ์งํฉ์ผ๋ก ์ค์ ๋ ์ด์ ๋ (๋ด ์๊ฐ์๋)
Vocabulary์ ํฌ๊ธฐ๋ ์ ํํ๊ณ sequence ๊ธธ์ด๋ ์ ํํ๋ฏ๋ก ๋ง๋ค ์ ์๋ input sequence์ ๊ฐ์๋ ์ ํํ๋ค. Sequence๋ค์ ์งํฉ๊ณผ ๋์๋๋ ์งํฉ์ด $\mathbb{L}$๊ณผ ๋น์ทํ ๊ฒ์ด๋ผ๋ฉด, $\mathbb{L}$์ ์ ํ์งํฉ์ด๋ผ๊ณ ๋์๋ ๊ด์ฐฎ์ ๊ฒ์ด๋ค. (์ด ์กฐ๊ฑด์ด ํ์์ธ์ง๋ ์ฆ๋ช ์ ๋ ๋ค์ฌ๋ค๋ด์ผ..)
(๋์งธ ์ด์ ๋ ๊ทธ๋ด ๋งํ๋ค๊ณ ๋ณด์ด๋๋ฐ, ์ฒซ์งธ ์ด์ ๋ ์์ง ์ ์ดํดํ์ง ๋ชปํ๋ค.)
๋ ผ๋ฌธ์์๋ ์์ ๋ ์ด์ ๋ก ์ธํด transformer encoder ์์ฒด๊ฐ ๋ํ๋ผ ์ ์๋ sequence-to-sequence ํจ์์ ์ข ๋ฅ์ ์ ํ์ด ์๋ค๊ณ ๋ณด๋ฉฐ, ์ด๋ฅผ trainableํ positional encoding์ผ๋ก ํด๊ฒฐํ๋ค.
โ ์ผ๋ฐ์ ์ผ๋ก, Parameter sharing์ด ๋ง์์๋ก universal approximator๊ฐ ๋๊ธฐ ์ด๋ ค์ด ์ด์ ๋ ๋ฌด์์ผ๊น?
์๋๋ ๋ ผ๋ฌธ์์ ์ฌ์ฉํ transformer block์ ๋ํ ์์ด๋ค.
์ ์๋ ค์ ธ ์๋ฏ, transformer encoder block์ multi-head self-attention layer(โAttnโ)์ token-wise feed-forward layer(โFFโ)๋ผ๋ ๋ (sub-)layer๋ก ๋๋๋ค.
โ Layer normalization์ ๋นผ๋ ๊ด์ฐฎ์ ์ด์ ๋ ๋ฌด์์ผ๊น?
๋ ผ๋ฌธ์ด ์ฃผ์ฅํ๋ ๋ ๊ฐ์ง ์ค์ํ ๊ฒฐ๊ณผ๋ Abstract์์ ์๊ฐํ ์ฒ์ ๋ ์ค๊ณผ ๊ฐ๋ค. ์ฌ๊ธฐ์๋ ๋ ์์ธํ ์์ ์ ์๊ฐํ๋ค.
Theorem 2. (์์์ $\epsilon>0$์ $1\le p < \infty$์ ๋ํด) ํจ์ $f$๊ฐ ๋ค์์ ์กฐ๊ฑด์ ๋ง์กฑํ๋ค๊ณ ํ์.
- $f$๋ sequence-to-sequence ํจ์.
- $f$์ support๋ compact.
- $f$๋ ์ฐ์(w.r.t. entry-wise $\ell^p$ norm).
- $f$๋ permutation equivariant.
๊ทธ๋ฌ๋ฉด ๋ค์ ์กฐ๊ฑด์ ๋ง์กฑํ๋ Transformer network $g$๊ฐ ์กด์ฌํ๋ค.
- $g$๋ $(h,m,r)=(2,1,4)$๋ฅผ ๋ง์กฑ.
- $d_p (f,g ) \le \epsilon$.
๋ฌธ์ | ๋ป |
---|---|
$h$ | attention head์ ๊ฐ์ |
$m$ | attention head์ ํฌ๊ธฐ |
$r$ | feed-forward layer์ hidden ์ฐจ์ (=$d_{ff}$) |
Theorem 3. (์์์ $\epsilon>0$์ $1\le p < \infty$์ ๋ํด) ํจ์ $f$๊ฐ ๋ค์์ ์กฐ๊ฑด์ ๋ง์กฑํ๋ค๊ณ ํ์.
- $f$๋ sequence-to-sequence ํจ์.
- $f$์ domain์ compact.
- $f$๋ ์ฐ์(w.r.t. entry-wise $\ell^p$ norm).
๊ทธ๋ฌ๋ฉด ๋ค์ ์กฐ๊ฑด์ ๋ง์กฑํ๋ Transformer network $g$ with (trainable) positional encoding $\boldsymbol{E}$๊ฐ ์กด์ฌํ๋ค.
- $g$๋ $(h,m,r)=(2,1,4)$๋ฅผ ๋ง์กฑ.
- $d_p (f,g ) \le \epsilon$.
๊ฑฐ์ ๋ชจ๋ ๊ฒ์ด Theorem 2์ ๋์ผํ์ง๋ง, Transformer network์๋ positional encoding์ด ์ถ๊ฐ๋๊ณ , ๋์ ๊ทผ์ฌํ๋ ค๋ sequence-to-sequence ํจ์์ permutation equivariant ์กฐ๊ฑด์ด ์ฌ๋ผ์ก๋ค.
$(h,m,r)=(2,1,4)$๋ฅผ ์ฐ๋ ์ด์ ? (๋๋ฌด ์์ block ์๋๊ฐ?)
Attention head๊ฐ 2๊ฐ๋ฐ์ ์๊ณ , ๊ทธ ํฌ๊ธฐ๋ ๊ฒจ์ฐ 1์ด๊ณ , ์ฌ์ง์ด feed-forward layer์ hidden ์ฐจ์์ด 4๋ฐ์ ์ ๋๋ ์์ Transformer block์ ์ค์ง์ ์ผ๋ก ์ฐ์ด์ง ์๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ Transformer block์ ์ด์ฉํ ์ด์ ๋ ๋จ์ง ๋จ์ํ๊ฐ ์ฆ๋ช ์ ์ฝ๊ฒ ํด์ฃผ๊ธฐ ๋๋ฌธ๋ง์ ์๋๋ค.
๋ ํฐ ๋ชจ๋ธ์ ์๋ช ํ๊ฒ expressive power๊ฐ ๋ ํฌ๊ธฐ ๋๋ฌธ์ด๋ค. ์ค์ง์ ์ผ๋ก ์ฐ์ด๋ transformer block์ ํจ์ฌ ๋ ๋ง์ parameter๋ฅผ ์ธ ํ ๋ฐ, ๊ทธ๋ฐ model์ ๋ ผ๋ฌธ์์ ์ฐ์ด๋ ๋งค์ฐ ์์ transformer block์ ๋นํ๋ฉด ๋น์ฐํ ๋์ฑ๋ ๋ง์ ํจ์๋ค์ ํํํ ์ ์์ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ ์ด๋ ๊ฒ ์์ ์ค์ผ์ผ๋ก ๋ฌธ์ ๋ฅผ ์ถ์์์ผ์ ๋ฌธ์ ๋ฅผ ํ์ด๋ ์ถฉ๋ถํ๋ค.
โ ์์ ๋ ์ ๋ฆฌ๋ universal approximation์ ์ธก๋ฉด์์ ๋งค์ฐ ์ ์๋ฏธํ ๊ฒฐ๊ณผ๋ฅผ ๋ด๊ณ ์๋ค. ๊ทธ๋ฌ๋ ๋ชจ๋ ์กด์ฌ์ฑ ์ ๋ฆฌ์ธ ํ์, ํ๋ จ ๊ณผ์ ์์ transformer๊ฐ โ์ฐ๋ฆฌ๊ฐ ์ํ๋ ํจ์โ๋ฅผ ์ค์ ๋ก ์ ๊ทผ์ฌํ ์ ์๋์ง๋ ๋งํด์ฃผ์ง ์๋ ๊ฒ ๋ถ๋ช ํ๋ค. ์ด๊ฒ์ด ๊ฐ๋ฅํ์ง๋ ์ด๋ป๊ฒ ์ฐ๊ตฌํด์ผ ํ ๊น?/ ์ด๋ป๊ฒ ์ฐ๊ตฌ๋๊ณ ์์๊น?
Theorem 2์ Theorem 3์ ์ฆ๋ช ์ ๋งค์ฐ ์ ์ฌํ๋ฉฐ, ๋ณธ๋ฌธ์์๋ Theorem 2์ ์ฆ๋ช ๊ณผ์ ์ ์์ฝํ์ฌ ์ค๋ช ํ๋ค. ์ธ ๋จ๊ณ๋ก ๋๋์ด ์์์ continuous, permutation equivariant, sequence-to-sequence function $f$ with compact support๋ฅผ ์ ์ ํ Transformer network๋ก ๊ทผ์ฌํ๋ค. ๊ทธ ๋ก๋๋งต์ ๋ค์๊ณผ ๊ฐ๋ค.
4.1) $f$๋ฅผ piece-wise ์์ํจ์๋ก ๊ทผ์ฌํ๊ธฐ
์์ํจ์๋ผ๊ณ ํด์ f๊ฐ ๊ฐ์๊ธฐ real-valued๊ฐ ๋๋ ๊ฒ์ด ์๋๋ค. ์ฌ๊ธฐ์์ ์์ํจ์ ์ญ์ ํ๋ ฌ์ ๋ฐ์ ํ๋ ฌ์ ๋ด๋ฑ๋ ํจ์์ธ๋ฐ, ํจ์ซ๊ฐ์ผ๋ก์์ ํ๋ ฌ์ด ๊ณ ์ ๋์ด ์์ผ๋ฉด ์์ํจ์์ธ ๊ฒ์ด๋ค.
4.2) Piece-wise ์์ํจ์๋ฅผ โmodifiedโ Transformer network๋ก ๊ทผ์ฌํ๊ธฐ
โModifiedโ Transformer๋, ๊ธฐ์กด์ Transformer์์ ์ฐ์ด๋ (column-wise) softmax ํจ์($\sigma$)๋ column-wise hardmax($\sigma_H$)๋ก ๋์ฒดํ๊ณ , FF์ activation function์ผ๋ก ์ฐ์ด๋ ReLU๋ ๋๋ค๋ฅธ ํน์ดํ ํจ์($\phi \in \Phi$, ์์ธํ ์ ์๋ ์๋์)๋ก ๋์ฒดํ ๊ฒ์ด๋ค.
์ด ๋ถ๋ถ์ ์ฆ๋ช ํ๊ธฐ ์ํด, ๋ ผ๋ฌธ์์๋ modified Transformer์ layer ์์๋ฅผ ๋ฏ์ด๊ณ ์น๋ ์ผ์ ํ๋ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค. Residual connection์ ์ด์ฉํ๋ฉด, self-attention๊ณผ feed-forward layer๋ฅผ ๋ฒ๊ฐ์ ์ ์ฉํ๋๊ฒ ์๋๋ผ self-attention๋ง ์ญ, ํน์ feed-forward layer๋ง ์ญ ์ด์ด ํฉ์ฑํ ๊ฒ์ ํ์ฉํ ์ ์๋ค๊ณ ํ๋ค.
(โฆ.) we note that even though a Transformer network stacks self-attention and feed-forward layers in an alternate manner, the skip connections enable these networks to employ a composition of multiple self-attention or feed-forward layers. (์ค๋ต) self-attention and feed-forward layers play in realizing the ability to universally approximate sequence-to-sequence functions: 1) self-attention layers compute precise contextual maps; and 2) feed-forward layers then assign the results of these contextual maps to the desired output values. (p.6)
โ Modified Transformer network์ layer ์์๋ฅผ ๋ค๋ฐ๊พธ์ด ๊ฐ์ ์ข ๋ฅ์ layer๋ง ์ด์ด๋ถ์ผ ์ ์๋ ์ด์ ๊ฐ ๊ตฌ์ฒด์ ์ผ๋ก ๋ฌด์์ผ๊น? ์ฌ๊ธฐ์ skip connection์ ์ด๋ค ์ญํ ์ ํ ๊น?
4.3) Modified Transformer network๋ฅผ Transformer network๋ก ๊ทผ์ฌํ๊ธฐ
์์์ ๋์ฒดํ๋ softmax์ ReLU๋ฅผ ์๋๋๋ก ๋๋ ค๋๋ ์์ ์ด๋ผ๊ณ ๋ณด๋ฉด ๋ ๊ฒ ๊ฐ๋ค.
Theorem 2๋ ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ช๊ฐ์ Transformer block์ ์์์ผ ํ๋์ง ๋ณด์ฌ์ค๋ค. ๋ ผ๋ฌธ์์ ์ ์ํ๋, permutation equivariant ํจ์๋ฅผ ์ ๊ทผ์ฌํ๊ธฐ ์ํด ํ์ํ (h,m,r)=(2,1,4) Transformer block์ ์ด $O(n(1/\delta)^{dn}/n!)$๊ฐ๋ค. ๋ํ, positional encoding๊น์ง ๋ํด ์ข ๋ ๊ด๋ฒ์ํ sequence-to-sequence ํจ์๋ฅผ ์ ๊ทผ์ฌํ๊ธฐ ์ํด์ ํ์ํ block์ $O(n(1/\delta)^{dn})$๊ฐ๋ค.
์ด๋ $\delta$๋ Theorem 2/3์ ์ฆ๋ช 1~2๋จ๊ณ์์ ์ฐ์ธ piecewise constant function์ domain์ ๊ตฌ๋ถํ๋ grid๋ฅผ ์ด๋ฃจ๋ (hyper-)cube์ ํ ๋ณ์ ๊ธธ์ด์ด๋ฉฐ, ์ถฉ๋ถํ ์์์ ๊ฐ์ ํด์ผ ํ๋ค. (์ฆ๋ช ๊ณผ์ ์ ๋ฐ๋ฅด๋ฉด, $O(\delta^{d/p} ) \le \epsilon/3)$
โ ๋ ผ๋ฌธ์์๋ ์ฆ๋ช ์ ์ํด ์์ฃผ ์์ transformer block์ ์ด์ฉํ๊ณ ์๋ค. ๋ง์ฝ ์ด transformer block์ ํฌ๊ธฐ๋ฅผ ํค์ด๋ค๋ฉด ํ์ํ block์ ์๋ ์ค์ด๋ค๊น? (์๋ง $d$์ $n$์ ๋ฐ๋ฅธ complexity์๋ ํฌ๊ฒ ์ฐจ์ด๊ฐ ์์ง ์์ ๊ฒ ๊ฐ๋ค. $h$, $m$, $r$ ๋ฑ์ ๊ฐ์ $d$๋ $n$์ ๊ฐ๊ณผ๋ ๊ด๋ จ์ด ์์ผ๋ฏ๋ก.)
โ ์ผ๋ฐ์ ์ผ๋ก, Parameter sharing์ด ๋ง์์๋ก universal approximator๊ฐ ๋๊ธฐ ์ด๋ ค์ด ์ด์ ๋ ๋ฌด์์ผ๊น?
โ Layer normalization์ ๋นผ๋ ๊ด์ฐฎ์ ์ด์ ๋ ๋ฌด์์ผ๊น?
โ (Paraphrased:) ํ๋ จ ๊ณผ์ ์์ transformer๊ฐ โ์ฐ๋ฆฌ๊ฐ ์ํ๋ ํจ์โ๋ฅผ ์ค์ ๋ก ์ ๊ทผ์ฌํ ์ ์๋์ง๋ ์ด๋ป๊ฒ ์ ์ ์์๊น?
โ Modified Transformer network์ layer ์์๋ฅผ ๋ค๋ฐ๊พธ์ด ๊ฐ์ ์ข ๋ฅ์ layer๋ง ์ด์ด๋ถ์ผ ์ ์๋ ์ด์ ๊ฐ ๊ตฌ์ฒด์ ์ผ๋ก ๋ฌด์์ผ๊น? ์ฌ๊ธฐ์ skip connection์ ์ด๋ค ์ญํ ์ ํ ๊น?
โ ๋ ผ๋ฌธ์์๋ ์ฆ๋ช ์ ์ํด ์์ฃผ ์์ transformer block์ ์ด์ฉํ๊ณ ์๋ค. ๋ง์ฝ ์ด transformer block์ ํฌ๊ธฐ๋ฅผ ํค์ด๋ค๋ฉด ํ์ํ block์ ์๋ ์ค์ด๋ค๊น?