PART 4 - 강의 4/4

트랜스포머 전체 구조

인코더, 디코더, FFN - 모든 구성 요소의 조립

01

학습 목표

이번 강의에서 배울 핵심 개념들

🏗️

전체 아키텍처

인코더-디코더 구조와 각 구성 요소의 역할

🔄

Residual Connection

잔차 연결이 깊은 네트워크 학습을 가능하게 하는 원리

📊

Layer Normalization

학습 안정화를 위한 정규화 기법

Feed-Forward Network

어텐션 후 비선형 변환의 역할

02

트랜스포머 전체 구조

인코더와 디코더의 조합

핵심 구조

트랜스포머는 인코더(Encoder)디코더(Decoder)로 구성됩니다. 각각은 여러 개의 동일한 레이어를 쌓아 만들며, 각 레이어는 어텐션 + FFN의 조합으로 이루어집니다.

인터랙티브 아키텍처 다이어그램

각 구성 요소를 클릭하면 상세 설명을 볼 수 있습니다.

인코더 (Encoder)
Input Embedding
+ Positional Encoding
Multi-Head Self-Attention
Add & Norm
Feed-Forward Network
Add & Norm
× N
Encoder Output
Context Vectors
디코더 (Decoder)
Output Embedding
+ Positional Encoding
Masked Self-Attention
Add & Norm
Cross-Attention
Add & Norm (K,V from Encoder)
Feed-Forward Network
Add & Norm
× N
Linear + Softmax
Output Probabilities
👆 구성 요소를 클릭하세요

각 블록을 클릭하면 해당 구성 요소에 대한 자세한 설명을 볼 수 있습니다.

03

Residual Connection (잔차 연결)

깊은 네트워크 학습을 가능하게 하는 핵심 기법

왜 필요한가?

트랜스포머는 수십~수백 개의 레이어를 쌓습니다. 이렇게 깊은 네트워크에서는 기울기 소실(Vanishing Gradient) 문제가 발생합니다. Residual Connection은 입력을 출력에 직접 더해 그래디언트가 흐르는 지름길을 만듭니다.

x
입력
SubLayer(x)
어텐션 or FFN
x + SubLayer(x)
잔차 연결
LayerNorm
정규화
출력
다음 레이어로

Residual 없이

깊은 레이어에서 그래디언트가 거의 0에 가까워져 학습이 멈춤

Residual 사용 시

입력이 직접 더해져 그래디언트가 최소 1의 경로로 흐를 수 있음

04

Layer Normalization

학습 안정화를 위한 정규화 기법

Layer Normalization은 각 샘플의 특성(feature) 차원에 대해 정규화합니다. 이는 학습을 안정화하고 수렴 속도를 높입니다.

Layer Normalization 수식

LayerNorm(x) = γ · (x - μ) / √(σ² + ε) + β
μ: 평균 | σ²: 분산 | γ, β: 학습 가능한 파라미터 | ε: 수치 안정성

Pre-LN vs Post-LN

📍 Post-LN (원본 Transformer)

output = LayerNorm(x + SubLayer(x))
  • 원본 "Attention is All You Need" 방식
  • 학습 초기 불안정할 수 있음
  • Learning rate warmup 필요
05

Feed-Forward Network (FFN)

어텐션 후 비선형 변환

FFN의 역할

어텐션이 "어디에 집중할지"를 결정한다면, FFN은 "그 정보로 무엇을 할지"를 결정합니다. 2개의 선형 변환과 비선형 활성화 함수로 구성되며, 모델 파라미터의 대부분(~2/3)이 여기에 있습니다.

입력
(d_model)

Linear
Hidden
(d_ff = 4×d_model)

GELU/ReLU
Activation
적용

Linear
출력
(d_model)

FFN 수식

FFN(x) = W₂ · GELU(W₁ · x + b₁) + b₂
W₁: (d_model, d_ff) | W₂: (d_ff, d_model) | d_ff = 4 × d_model
📊 파라미터 분포

d_model=4096인 모델에서 FFN 한 레이어의 파라미터:

  • W₁: 4096 × 16384 = 67M 파라미터
  • W₂: 16384 × 4096 = 67M 파라미터
  • 어텐션보다 FFN이 더 많은 파라미터를 가짐!
06

트랜스포머 변형들

다양한 아키텍처 변형과 주요 모델들

📖

Encoder-only

BERT, RoBERTa

텍스트 이해, 분류, NER 등
양방향 어텐션
✍️

Decoder-only

GPT, Llama, Claude

텍스트 생성
단방향(Causal) 어텐션
🔄

Encoder-Decoder

T5, BART

번역, 요약
Cross-attention 사용
모델 유형 레이어 수 d_model 헤드 수 파라미터
Transformer (원본) Enc-Dec 6+6 512 8 65M
BERT-base Encoder 12 768 12 110M
GPT-2 Decoder 12 768 12 117M
GPT-3 Decoder 96 12288 96 175B
Llama 2 (7B) Decoder 32 4096 32 7B
GPT-4 MoE? ? ? ? ~1.8T (추정)
SUMMARY

핵심 요약

  • 전체 구조 — 인코더 + 디코더 (또는 단독), N개 레이어 스택, 어텐션 + FFN 반복
  • Residual Connection — 입력을 출력에 직접 더함, 기울기 소실 방지, 깊은 네트워크 학습 가능
  • Layer Normalization — 특성 차원 정규화, Pre-LN이 현대 표준, 학습 안정화
  • FFN — 2층 MLP (확장→축소), d_ff = 4 × d_model, 파라미터의 ~2/3 차지
Part 4 완료!

이제 트랜스포머의 모든 핵심 구성 요소를 이해했습니다!
다음 Part 5에서는 추론 모델과 RLHF/RLVR을 배웁니다. 모델이 단순히 다음 단어를 예측하는 것을 넘어 "생각"하고 "추론"하는 방법을 알아봅니다.

REF

참고 자료