개요
Transformer모델은 RNN의 한계를 극복하기 위해서 Attention을 최대한 활용하여, 문장내의 각 문맥의 중요도를 최대한 언어 모델에 반영하기 위해서 개발된 모델이다. Transformer모델에서 제안한 디자인은 크게 Tokenization, Embedding, Positional Encoding, Attention layer을 여러개 쌓아 만들어진 Encoder, Decoder부분 그리고 Encoder self-attention, Masked decoder self-attention, Encoder-decoder attention으로 구분할 수 있다.
Architecture

Toeknization
Transformer 아키텍처는 본래 숫자 데이터를 처리하므로, 텍스트와 토큰 간의 변환 과정이 필요하다.토큰(token)은 문자 또는 짧은 문자 시퀀스를 나타내는 정수이다. 입력 과정에서는 텍스트가 토큰 시퀀스로 변환되며, 출력 과정에서는 토큰 시퀀스가 다시 텍스트로 변환된다. 이 변환 작업을 수행하는 모듈을 토크나이저(tokenizer)라고 한다.
토크나이저가 사용하는 모든 토큰의 집합을 어휘집(vocabulary)이라 하며, 그 크기를 어휘 크기(vocabulary size) [math]\displaystyle{ n_{\text{vocabulary}} }[/math]로 표현한다. 만약 어휘집에 포함되지 않은 토큰이 등장할 경우, 일반적으로 “[UNK]”(unknown)와 같은 특별한 토큰이 사용된다.
대표적인 토크나이저로는 Byte Pair Encoding(BPE), WordPiece, SentencePiece 등이 있다.
Embedding
Ebedding과정을 통해서 정수값은 다시 벡터값으로 변환된다. 임베딩 벡터의 차원 수를 은닉 크기(hidden size) 또는 임베딩 크기(embedding size)라고 하며, [math]\displaystyle{ d_{\text{emb}} }[/math]로 표기한다.
Un-embedding layer는 embedding layer의 거의 역연산을 수행한다. 이 레이어는 Vector를 Token으로 변환하는 과정을 수행한다. 언임베딩 레이어는 선형-소프트맥스(linear-softmax) 레이어로 정의되며, 다음과 같이 표현된다.
- [math]\displaystyle{ \mathrm{UnEmbed}(x)=\mathrm{softmax}(xW+b) }[/math]
여기서 행렬 W의 형태는 [math]\displaystyle{ (d_{\text{emb}}, n_{\text{vocabulary}}) }[/math]이다.
Positional encoding
위치 인코딩은 시퀀스 내 토큰의 상대적 위치를 나타내는 고정 크기 벡터이다. 이를 통해 Transformer 모델은 입력 시퀀스에서 단어의 위치 정보를 인식할 수 있다. 이 과정은 입력 시퀀스의 순서에 대한 편향(bias)을 유도하며, 예를 들어 "man bites dog"와 "dog bites man"이 서로 다르게 처리되도록 한다. Transformer모델은 Positional encodding을 위해서 사인 함수와 코사인 함수를 사용한다.
- [math]\displaystyle{ PE_{(pos,\ 2i)}=sin(pos/10000^{2i/d_{model}}) }[/math]
- [math]\displaystyle{ PE_{(pos,\ 2i+1)}=cos(pos/10000^{2i/d_{model}}) }[/math]
이를 통해서 Transformer 모델은 순서정보를 Embedding vector에 더해서, 최종적으로 Encoder에 넣을 행렬을 생성한다.
Encoder-Decoder Architecture
Transformer모델은 Encoder-decoder 아키텍쳐를 사용한다. 인코더와 디코는 데이터를 처리하는 병렬화가 다르게 구성된다.
- 인코더: 인코더는 입력된 모든 토큰을 동시에 처리하는 여러개의 인코더 레이어로 구성된다. 인코더는 Self-attention매커니즘을 사용하여, 맥락화된 토큰(Contextualized token representation)의 표현을 생성한다.
- 디코더: 디코더는 인코더의 출력을 기반을 생성된 토큰을 통해서 출력을 순차적으로 생성하는 여러개의 디코더 레이어로 구성된다. 디코더는 Cross-attention과 Masked-self-attention을 통해서 인코더의 출력을 활용한 맥락정보와, 현재까지 생성한 디코더의 맥락정보를 모두 포함하는 문맥정보로 출력을 순차적으로 생성한다.
인코더와 디코더는 모두 Feedforward network를 통해서 구성되며, Residual connection과 Layer normlization기법을 채택하여 구성하였다.
FFN
Transformer의 피드포워드 네트워크(FFN) 모듈은 **2층 다층 퍼셉트론(MLP)**으로 구성되며, 다음과 같이 정의된다
- [math]\displaystyle{ \mathrm{FFN} (x) = \phi (xW^{(1)} + b^{(1)}) W^{(2)} + b^{(2)} }[/math]
여기서 [math]\displaystyle{ \phi }[/math]는 활성화 함수이며, 원래 Transformer 모델에서는 ReLU를 사용하였다.
Transformer의 FFN의 중간층 뉴런 개수는 다음과 같이 불린다.
- GPT: GPT는 FFN의 가운데 레이어의 뉴런의 개수이다.
- BERT: BERT는 FFN의 Filter size의 크기이다.
Attention

Attention에 대한 일반적인 설명은 Attention문서를 참조. Transformer 아키텍처에서 사용하는 어텐션 메커니즘은 스케일드 닷 프로덕트 어텐션(Scaled Dot-Product Attention) 방식이다.
Transformer 모델은 세 개의 가중치 행렬을 학습한다:
- 쿼리 가중치(Query weights): [math]\displaystyle{ W^{Q} }[/math]
- 키 가중치(Key weights): [math]\displaystyle{ W^{K} }[/math]
- 밸류 가중치(Value weights): [math]\displaystyle{ W^{V} }[/math]
어텐션 연산을 위해 세 개의 입력 시퀀스(쿼리, 키, 밸류)가 필요하며, 각각 다음과 같은 크기를 갖는다:
- 쿼리 시퀀스(Query sequence): 길이 [math]\displaystyle{ \ell_{\text{seq, query}} }[/math], 각 항목의 차원 [math]\displaystyle{ d_{\text{emb, query}} }[/math]
- 키 시퀀스(Key sequence): 길이 [math]\displaystyle{ \ell_{\text{seq, key}} }[/math], 각 항목의 차원 [math]\displaystyle{ d_{\text{emb, key}} }[/math]
- 밸류 시퀀스(Value sequence): 길이 [math]\displaystyle{ \ell_{\text{seq, value}} }[/math], 각 항목의 차원 [math]\displaystyle{ d_{\text{emb, value}} }[/math]
각 쿼리 벡터 [math]\displaystyle{ x_{i,\text{query}} }[/math]는 다음과 같이 변환된다: [math]\displaystyle{ q_{i} = x_{i,\text{query}} W^{Q} }[/math] 쿼리 벡터를 모아 만든 행렬이 쿼리 행렬(Query matrix) [math]\displaystyle{ Q = X_{\text{query}} W^{Q} }[/math]이다.
같은 방식으로 키 행렬(Key matrix) 및 **밸류 행렬(Value matrix)**을 만든다: [math]\displaystyle{ K = X_{\text{key}} W^{K} }[/math] [math]\displaystyle{ V = X_{\text{value}} W^{V} }[/math]
- 어텐션 가중치(Attention Weights)
- 각 토큰 [math]\displaystyle{ i }[/math]에서 토큰 [math]\displaystyle{ j }[/math]로의 어텐션 가중치 [math]\displaystyle{ a_{ij} }[/math]는 쿼리 벡터 [math]\displaystyle{ q_{i} }[/math]와 키 벡터 [math]\displaystyle{ k_{j} }[/math]의 내적으로 계산된다. 이를 안정적으로 학습하기 위해 키 벡터 차원의 제곱근 [math]\displaystyle{ \sqrt{d_k} }[/math]으로 나누고, **소프트맥스(softmax)**를 적용하여 정규화한다. 이 과정을 행렬 연산으로 표현하면 다음과 같다
- [math]\displaystyle{ \text{Attention}(Q, K, V) = \text{softmax} \left( \frac{QK^{T}}{\sqrt{d_{k}}} \right) V }[/math]
- 어텐션 출력(Attention Output)
- 어텐션 연산 결과로 각 토큰 [math]\displaystyle{ i }[/math]의 출력은 모든 토큰의 **밸류 벡터(value vectors)**를 어텐션 가중치 [math]\displaystyle{ a_{ij} }[/math]로 가중합한 값이다. 어텐션의 출력 차원은 헤드 차원(head dimension) [math]\displaystyle{ d_{\text{head}} }[/math]이며, 다음 세 가지 조건을 만족해야 한다:
- [math]\displaystyle{ \ell_{\text{seq, key}} = \ell_{\text{seq, value}} }[/math]
- [math]\displaystyle{ d_{\text{query}} = d_{\text{key}} }[/math]
- [math]\displaystyle{ d_{\text{value}} = d_{\text{head}} }[/math]
- Self-Attention vs Cross-Attention vs Masked-Self Attention
- Self-Attention: [math]\displaystyle{ X_{\text{query}} = X_{\text{key}} = X_{\text{value}} }[/math]
- Masked-Self Attention: [math]\displaystyle{ X_{\text{query}} = X_{\text{key}} = X_{\text{value}} }[/math]
- Cross-Attention: [math]\displaystyle{ X_{\text{query}} \neq X_{\text{key}} = X_{\text{value}} }[/math]
여기서 Query, Key값등이 같다는 것은 벡터의 값이 같다는 것이 아니라 출처가 같다는 뜻이다. 즉, 같은 Positional-embedding vector을 통해서 생성되었음을 의미한다.
- Multitheaded attention
- Attention head는 하나의 ([math]\displaystyle{ W^Q, W^K, W^V }[/math])의 집합을 말한다. LLM에서는 하나의 Attention head를 사용해서 결과를 도출해내기 보다는, 여러개의 어텐션 헤드를 이용해서 보다 다양한 의견을 수렴한 결과를 도출해 낸다. 각 Attention head의 처리는 쉽게 병렬처리 가능하기 때문에 쉽게 LLM의 성능을 향상시킬 수 있다. 멀티 헤드 어텐션에서는 여러 개의 어텐션 헤드를 병렬로 처리하여 빠르게 연산할 수 있다. 각 어텐션 헤드는 개별적으로 계산된 후 결과가 연결(Concat)되어 후속 피드포워드 신경망 레이어로 전달된다. 멀티 헤드 어텐션 연산은 다음과 같이 표현된다.
- [math]\displaystyle{ \text{MultiheadedAttention}(Q, K, V) = \text{Concat}_{i \in [n_{\text{heads}}]}(\text{Attention}(QW_i^Q, KW_i^K, VW_i^V))W^O }[/math]
- [math]\displaystyle{ QW_i^Q, KW_i^K, VW_i^V }[/math]는 각 어텐션 헤드 [math]\displaystyle{ i }[/math]에 대한 프로젝션 행렬들
- [math]\displaystyle{ W^O }[/math]는 최종 출력 프로젝션 행렬
- Masked-Attention
- Transformer에서 Decoder는 출력 토큰을 반복적으로 계산하는 방식으로 구성된다. 여기서 t = 0은 첫 번째 출력 토큰 i = 0의 계산을 의미하며, t > 0일 경우 출력 토큰 i = 0은 변하지 않는다. 그러나 Transformer의 계산 방식은 병력ㄹ적으로 처리하기 떄문에, 현재 시점의 출력을 예측할때, 미래 시점의 출력값까지 참고하는 문제가 발생 할 수 있다. 미래 시점의 출력은 현재에 영향을 받는 값이기 때문에, 이는 논리적으로 모순이다. 이를 위해서 Transformer 모델은 QK를 계산할때, 행렬의 윗부분을 마스킹하여, 미래 시점의 값을 알수 없도록 만드는 과정을 거친다.
- 이는 모델이 자가회귀 모델과 유사한 특성을 유지하도록 보장한다. 즉, 매 시간 단계 t에서 출력 i에 대한 계산은 j ≥ i인 위치의 토큰에 접근할 수 없도록 해야 한다. 이는 t = i일 때 자연스럽게 적용되며, 이때 j > t인 토큰들은 아직 계산되지 않기 때문이다.
이러한 동작은 소프트맥스 단계 전에 마스크 행렬 M을 추가함으로써 구현될 수 있다. M은 어텐션 링크를 차단해야 하는 위치에 −∞ 값을, 다른 위치에는 0 값을 가진다
- [math]\displaystyle{ MaskedAttention(Q,K,V) = softmax(M + \frac{QK^{\mathrm{T}}}{\sqrt{d_k}})V }[/math]
- [math]\displaystyle{ M_\text{causal} = \begin{bmatrix} 0 & -\infty & -\infty & \dots & -\infty \\ 0 & 0 & -\infty & \dots & -\infty \\ 0 & 0 & 0 & \dots & -\infty \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & 0 & \dots & 0 \end{bmatrix} }[/math]
이 행렬은 각 토큰이 자신과 그 이전의 모든 토큰에만 어텐션을 할 수 있으며, 그 이후의 토큰에는 어텐션을 할 수 없음을 의미한다.