트랜스포머 전체 구조
인코더, 디코더, FFN - 모든 구성 요소의 조립
학습 목표
이번 강의에서 배울 핵심 개념들
전체 아키텍처
인코더-디코더 구조와 각 구성 요소의 역할
Residual Connection
잔차 연결이 깊은 네트워크 학습을 가능하게 하는 원리
Layer Normalization
학습 안정화를 위한 정규화 기법
Feed-Forward Network
어텐션 후 비선형 변환의 역할
트랜스포머 전체 구조
인코더와 디코더의 조합
핵심 구조
트랜스포머는 인코더(Encoder)와 디코더(Decoder)로 구성됩니다. 각각은 여러 개의 동일한 레이어를 쌓아 만들며, 각 레이어는 어텐션 + FFN의 조합으로 이루어집니다.
인터랙티브 아키텍처 다이어그램
각 구성 요소를 클릭하면 상세 설명을 볼 수 있습니다.
각 블록을 클릭하면 해당 구성 요소에 대한 자세한 설명을 볼 수 있습니다.
Residual Connection (잔차 연결)
깊은 네트워크 학습을 가능하게 하는 핵심 기법
왜 필요한가?
트랜스포머는 수십~수백 개의 레이어를 쌓습니다. 이렇게 깊은 네트워크에서는 기울기 소실(Vanishing Gradient) 문제가 발생합니다. Residual Connection은 입력을 출력에 직접 더해 그래디언트가 흐르는 지름길을 만듭니다.
입력
어텐션 or FFN
잔차 연결
정규화
다음 레이어로
Residual 없이
깊은 레이어에서 그래디언트가 거의 0에 가까워져 학습이 멈춤
Residual 사용 시
입력이 직접 더해져 그래디언트가 최소 1의 경로로 흐를 수 있음
Layer Normalization
학습 안정화를 위한 정규화 기법
Layer Normalization은 각 샘플의 특성(feature) 차원에 대해 정규화합니다. 이는 학습을 안정화하고 수렴 속도를 높입니다.
Layer Normalization 수식
Pre-LN vs Post-LN
📍 Post-LN (원본 Transformer)
- 원본 "Attention is All You Need" 방식
- 학습 초기 불안정할 수 있음
- Learning rate warmup 필요
✅ Pre-LN (현대 LLM)
- GPT-2 이후 대부분의 모델이 채택
- 학습이 더 안정적
- Warmup 없이도 학습 가능
Feed-Forward Network (FFN)
어텐션 후 비선형 변환
FFN의 역할
어텐션이 "어디에 집중할지"를 결정한다면, FFN은 "그 정보로 무엇을 할지"를 결정합니다. 2개의 선형 변환과 비선형 활성화 함수로 구성되며, 모델 파라미터의 대부분(~2/3)이 여기에 있습니다.
(d_model)
Linear
(d_ff = 4×d_model)
GELU/ReLU
적용
Linear
(d_model)
FFN 수식
d_model=4096인 모델에서 FFN 한 레이어의 파라미터:
- W₁: 4096 × 16384 = 67M 파라미터
- W₂: 16384 × 4096 = 67M 파라미터
- 어텐션보다 FFN이 더 많은 파라미터를 가짐!
트랜스포머 변형들
다양한 아키텍처 변형과 주요 모델들
Encoder-only
BERT, RoBERTa
양방향 어텐션
Decoder-only
GPT, Llama, Claude
단방향(Causal) 어텐션
Encoder-Decoder
T5, BART
Cross-attention 사용
| 모델 | 유형 | 레이어 수 | d_model | 헤드 수 | 파라미터 |
|---|---|---|---|---|---|
| Transformer (원본) | Enc-Dec | 6+6 | 512 | 8 | 65M |
| BERT-base | Encoder | 12 | 768 | 12 | 110M |
| GPT-2 | Decoder | 12 | 768 | 12 | 117M |
| GPT-3 | Decoder | 96 | 12288 | 96 | 175B |
| Llama 2 (7B) | Decoder | 32 | 4096 | 32 | 7B |
| GPT-4 | MoE? | ? | ? | ? | ~1.8T (추정) |
핵심 요약
- 전체 구조 — 인코더 + 디코더 (또는 단독), N개 레이어 스택, 어텐션 + FFN 반복
- Residual Connection — 입력을 출력에 직접 더함, 기울기 소실 방지, 깊은 네트워크 학습 가능
- Layer Normalization — 특성 차원 정규화, Pre-LN이 현대 표준, 학습 안정화
- FFN — 2층 MLP (확장→축소), d_ff = 4 × d_model, 파라미터의 ~2/3 차지
이제 트랜스포머의 모든 핵심 구성 요소를 이해했습니다!
다음 Part 5에서는 추론 모델과 RLHF/RLVR을 배웁니다.
모델이 단순히 다음 단어를 예측하는 것을 넘어
"생각"하고 "추론"하는 방법을 알아봅니다.