1-2. LLM의 배경 기술과 발전 과정

01

왜 역사를 알아야 하는가?

각 기술의 한계가 다음 혁신을 이끌었습니다

LLM을 제대로 이해하려면 "왜 Transformer가 필요했는가"를 알아야 합니다. 이전 기술들의 한계가 새로운 혁신을 이끌었고, 그 과정을 이해하면 현재 LLM의 작동 방식과 한계도 더 깊이 이해할 수 있습니다.

1980s

RNN 개념 등장

1997

LSTM 발표

2017

Transformer 혁명

2022

ChatGPT 대중화

💡 핵심 흐름

순차 처리의 한계(RNN) → 장기 기억 문제 해결(LSTM) → 병렬 처리 혁신(Transformer)

02

RNN (Recurrent Neural Network)

순차 데이터를 처리하는 첫 번째 시도

1980년대 개념 등장 1990년 Elman Network

핵심 아이디어: "이전 정보를 기억하자"

기존 신경망은 입력을 독립적으로 처리했습니다. 하지만 언어는 순서가 중요합니다. "나는 밥을 먹었다"와 "밥을 나는 먹었다"는 같은 단어지만 다른 의미를 가질 수 있죠. RNN은 이전 단계의 출력을 다음 단계의 입력으로 연결하여 순서 정보를 유지합니다.

RNN의 구조: 순환 연결

x₁ ↺

→

x₂ ↺

→

x₃ ↺

→

x₄ ↺

→ 출력

각 셀은 이전 셀의 정보(hidden state)를 받아 현재 입력과 함께 처리합니다

⚠️ 치명적 문제: 기울기 소실 (Vanishing Gradient)

RNN은 역전파(backpropagation) 과정에서 기울기가 점점 작아지는 문제가 있습니다. 문장이 길어질수록 앞부분의 정보가 사라져버립니다.

단어1

→

단어2

→

단어3

→

단어4

→

...

→

단어n

문장이 길어질수록 초기 단어의 정보(기울기)가 소실됩니다

⚠️ RNN의 한계

"The cat, which was sitting on the mat and looking at the bird outside the window, was hungry."

→ "cat"과 "was" 사이의 긴 거리 때문에 RNN은 주어-동사 일치를 학습하기 어렵습니다.

03

LSTM (Long Short-Term Memory)

장기 기억 문제를 해결한 혁신

1997년 Hochreiter & Schmidhuber

핵심 아이디어: "무엇을 기억하고 무엇을 잊을지 결정하자"

LSTM은 게이트(Gate)라는 메커니즘을 도입했습니다. 정보의 흐름을 제어하는 문(門)을 두어, 중요한 정보는 오래 유지하고 불필요한 정보는 버릴 수 있게 되었습니다.

LSTM의 3가지 게이트

LSTM Cell

Cell State (장기 기억)

🚪 Forget
무엇을 잊을까

🚪 Input
무엇을 저장할까

🚪 Output
무엇을 출력할까

🚪 Forget Gate (망각 게이트)

이전 정보 중 버릴 것을 결정합니다. "새 문장이 시작되면 이전 주어는 잊어도 돼"

🚪 Input Gate (입력 게이트)

새로운 정보 중 저장할 것을 결정합니다. "이 단어는 중요하니까 기억해둬야 해"

🚪 Output Gate (출력 게이트)

현재 상태에서 출력할 것을 결정합니다. "지금은 이 정보만 내보내면 돼"

📌 LSTM의 성과

기울기 소실 문제를 크게 완화
2018년까지 시퀀스 모델링의 표준 아키텍처로 사용
기계 번역, 음성 인식, 텍스트 생성 등에서 큰 성공
ELMo(2018)와 같은 사전학습 모델의 기반이 됨

⚠️ LSTM의 한계

순차 처리 - 토큰을 하나씩 처리해야 해서 병렬화 불가능
학습 속도 - 대규모 데이터 학습에 시간이 너무 오래 걸림
여전히 한계 - 아주 긴 문장에서는 여전히 정보 손실 발생

04

Transformer: 게임 체인저

"Attention is All You Need" (2017)

2017년 Google "Attention is All You Need"

핵심 아이디어: "순환을 버리고 Attention만 사용하자"

Transformer는 RNN/LSTM의 순환 구조를 완전히 제거했습니다. 대신 Self-Attention 메커니즘을 사용하여 모든 토큰이 서로를 동시에 참조할 수 있게 했습니다.

Self-Attention: 모든 단어가 서로를 참조

cat

sat

on

"cat"을 처리할 때, 문장의 모든 다른 단어와의 관계를 동시에 계산합니다.
관련성이 높은 단어(the, mat)에 더 높은 attention 가중치를 부여합니다.

Transformer 블록 구조 (단순화)

Input Embedding + Positional Encoding

↓

⭐ Multi-Head Self-Attention

↓

Feed-Forward Network

↓

Output

✨ Transformer의 혁신적 장점

⚡

병렬 처리

모든 토큰을 동시에 처리 가능.
GPU 활용 극대화로 학습 속도 대폭 향상.

🔗

장거리 의존성

문장 처음과 끝의 단어도 직접 연결.
거리에 관계없이 관계 파악 가능.

📈

확장성

모델 크기를 키울수록 성능 향상.
Scaling Law의 기반이 됨.

💡 왜 "Attention is All You Need"인가?

이전에는 Attention이 RNN/LSTM의 보조 역할로만 사용되었습니다. 이 논문은 RNN을 완전히 제거하고 Attention만으로 시퀀스를 처리할 수 있음을 증명했습니다.

05

아키텍처 비교 요약

RNN vs LSTM vs Transformer

🔄

RNN

1980s~1990

✓ 순차 데이터 처리 가능

✓ 이전 정보 유지

✗ 기울기 소실 문제

✗ 장기 의존성 학습 어려움

🚪

LSTM

1997

✓ 기울기 소실 완화

✓ 장기 기억 가능

✗ 순차 처리 (느림)

✗ 병렬화 불가능

⚡

Transformer

2017

✓ 완전 병렬 처리

✓ 장거리 의존성 우수

✓ 대규모 확장 가능

✗ 메모리 사용량 큼

특성	RNN	LSTM	Transformer
처리 방식	순차적	순차적	병렬
장기 의존성	약함	보통	강함
학습 속도	느림	느림	빠름
메모리 효율	좋음	보통	나쁨 (O(n²))
현재 사용	거의 없음	일부	주류

SUMMARY

핵심 요약

RNN은 순차 데이터를 처리할 수 있지만 기울기 소실 문제가 있다
LSTM은 게이트 메커니즘으로 장기 기억을 가능하게 했지만 순차 처리의 한계가 있다
Transformer(2017)는 Self-Attention으로 병렬 처리와 장거리 의존성을 동시에 해결했다
Transformer의 등장으로 대규모 언어 모델(LLM) 학습이 현실화되었다
현재 GPT, Claude, Gemini 등 모든 주요 LLM은 Transformer 기반이다

📚 참고 자료 (신뢰성 검증됨)

Wikipedia - Transformer DataCamp - How Transformers Work Baeldung - RNNs to Transformers GeeksforGeeks - 아키텍처 비교

LLM의 배경 기술과발전 과정

왜 역사를 알아야 하는가?

RNN (Recurrent Neural Network)

핵심 아이디어: "이전 정보를 기억하자"

⚠️ 치명적 문제: 기울기 소실 (Vanishing Gradient)

LSTM (Long Short-Term Memory)

핵심 아이디어: "무엇을 기억하고 무엇을 잊을지 결정하자"

🚪 Forget Gate (망각 게이트)

🚪 Input Gate (입력 게이트)

🚪 Output Gate (출력 게이트)

Transformer: 게임 체인저

핵심 아이디어: "순환을 버리고 Attention만 사용하자"

✨ Transformer의 혁신적 장점

병렬 처리

장거리 의존성

확장성

아키텍처 비교 요약

핵심 요약

LLM의 배경 기술과
발전 과정