4-4. 트랜스포머 전체 구조

01

학습 목표

이번 강의에서 배울 핵심 개념들

🏗️

전체 아키텍처

인코더-디코더 구조와 각 구성 요소의 역할

🔄

Residual Connection

잔차 연결이 깊은 네트워크 학습을 가능하게 하는 원리

📊

Layer Normalization

학습 안정화를 위한 정규화 기법

⚡

Feed-Forward Network

어텐션 후 비선형 변환의 역할

02

트랜스포머 전체 구조

인코더와 디코더의 조합

핵심 구조

트랜스포머는 인코더(Encoder)와 디코더(Decoder)로 구성됩니다. 각각은 여러 개의 동일한 레이어를 쌓아 만들며, 각 레이어는 어텐션 + FFN의 조합으로 이루어집니다.

인터랙티브 아키텍처 다이어그램

각 구성 요소를 클릭하면 상세 설명을 볼 수 있습니다.

인코더 (Encoder)

Input Embedding

+ Positional Encoding

↓

Multi-Head Self-Attention

Add & Norm

↓

Feed-Forward Network

Add & Norm

× N

↓

Encoder Output

Context Vectors

디코더 (Decoder)

Output Embedding

+ Positional Encoding

↓

Masked Self-Attention

Add & Norm

↓

Cross-Attention

Add & Norm (K,V from Encoder)

↓

Feed-Forward Network

Add & Norm

× N

↓

Linear + Softmax

Output Probabilities

👆 구성 요소를 클릭하세요

각 블록을 클릭하면 해당 구성 요소에 대한 자세한 설명을 볼 수 있습니다.

03

Residual Connection (잔차 연결)

깊은 네트워크 학습을 가능하게 하는 핵심 기법

왜 필요한가?

트랜스포머는 수십~수백 개의 레이어를 쌓습니다. 이렇게 깊은 네트워크에서는 기울기 소실(Vanishing Gradient) 문제가 발생합니다. Residual Connection은 입력을 출력에 직접 더해 그래디언트가 흐르는 지름길을 만듭니다.

x
입력

→

SubLayer(x)
어텐션 or FFN

→

x + SubLayer(x)
잔차 연결

→

LayerNorm
정규화

→

출력
다음 레이어로

❌

Residual 없이

깊은 레이어에서 그래디언트가 거의 0에 가까워져 학습이 멈춤

✅

Residual 사용 시

입력이 직접 더해져 그래디언트가 최소 1의 경로로 흐를 수 있음

04

Layer Normalization

학습 안정화를 위한 정규화 기법

Layer Normalization은 각 샘플의 특성(feature) 차원에 대해 정규화합니다. 이는 학습을 안정화하고 수렴 속도를 높입니다.

Layer Normalization 수식

                        LayerNorm(x) = γ · (x - μ) / √(σ² + ε) + β
                    

μ: 평균 | σ²: 분산 | γ, β: 학습 가능한 파라미터 | ε: 수치 안정성

Pre-LN vs Post-LN

📍 Post-LN (원본 Transformer)

output = LayerNorm(x + SubLayer(x))

원본 "Attention is All You Need" 방식
학습 초기 불안정할 수 있음
Learning rate warmup 필요

✅ Pre-LN (현대 LLM)

output = x + SubLayer(LayerNorm(x))

GPT-2 이후 대부분의 모델이 채택
학습이 더 안정적
Warmup 없이도 학습 가능

05

Feed-Forward Network (FFN)

어텐션 후 비선형 변환

FFN의 역할

어텐션이 "어디에 집중할지"를 결정한다면, FFN은 "그 정보로 무엇을 할지"를 결정합니다. 2개의 선형 변환과 비선형 활성화 함수로 구성되며, 모델 파라미터의 대부분(~2/3)이 여기에 있습니다.

입력
(d_model)

→
Linear

Hidden
(d_ff = 4×d_model)

→
GELU/ReLU

Activation
적용

→
Linear

출력
(d_model)

FFN 수식

                        FFN(x) = W₂ · GELU(W₁ · x + b₁) + b₂
                    

W₁: (d_model, d_ff) | W₂: (d_ff, d_model) | d_ff = 4 × d_model

📊 파라미터 분포

d_model=4096인 모델에서 FFN 한 레이어의 파라미터:

W₁: 4096 × 16384 = 67M 파라미터
W₂: 16384 × 4096 = 67M 파라미터
어텐션보다 FFN이 더 많은 파라미터를 가짐!

06

트랜스포머 변형들

다양한 아키텍처 변형과 주요 모델들

📖

Encoder-only

BERT, RoBERTa

텍스트 이해, 분류, NER 등
양방향 어텐션

✍️

Decoder-only

GPT, Llama, Claude

텍스트 생성
단방향(Causal) 어텐션

🔄

Encoder-Decoder

T5, BART

번역, 요약
Cross-attention 사용

모델	유형	레이어 수	d_model	헤드 수	파라미터
Transformer (원본)	Enc-Dec	6+6	512	8	65M
BERT-base	Encoder	12	768	12	110M
GPT-2	Decoder	12	768	12	117M
GPT-3	Decoder	96	12288	96	175B
Llama 2 (7B)	Decoder	32	4096	32	7B
GPT-4	MoE?	?	?	?	~1.8T (추정)

SUMMARY

핵심 요약

전체 구조 — 인코더 + 디코더 (또는 단독), N개 레이어 스택, 어텐션 + FFN 반복
Residual Connection — 입력을 출력에 직접 더함, 기울기 소실 방지, 깊은 네트워크 학습 가능
Layer Normalization — 특성 차원 정규화, Pre-LN이 현대 표준, 학습 안정화
FFN — 2층 MLP (확장→축소), d_ff = 4 × d_model, 파라미터의 ~2/3 차지

Part 4 완료!

이제 트랜스포머의 모든 핵심 구성 요소를 이해했습니다!
다음 Part 5에서는 추론 모델과 RLHF/RLVR을 배웁니다. 모델이 단순히 다음 단어를 예측하는 것을 넘어 "생각"하고 "추론"하는 방법을 알아봅니다.

REF

참고 자료

🔗 Dive into Deep Learning - The Transformer Architecture 🔗 Baeldung - Why Are Residual Connections Important 🔗 Wikipedia - Transformer Architecture 📄 Attention Is All You Need (Original Paper)