PART 1 · 강의 2/3

LLM의 배경 기술
발전 과정

RNN에서 LSTM을 거쳐 Transformer까지, 어떻게 현대 LLM이 탄생했는지 알아봅니다.

01

왜 역사를 알아야 하는가?

각 기술의 한계가 다음 혁신을 이끌었습니다

LLM을 제대로 이해하려면 "왜 Transformer가 필요했는가"를 알아야 합니다. 이전 기술들의 한계가 새로운 혁신을 이끌었고, 그 과정을 이해하면 현재 LLM의 작동 방식과 한계도 더 깊이 이해할 수 있습니다.

1980s
RNN 개념 등장
1997
LSTM 발표
2017
Transformer 혁명
2022
ChatGPT 대중화
💡 핵심 흐름

순차 처리의 한계(RNN) → 장기 기억 문제 해결(LSTM) → 병렬 처리 혁신(Transformer)

02

RNN (Recurrent Neural Network)

순차 데이터를 처리하는 첫 번째 시도

1980년대 개념 등장 1990년 Elman Network

핵심 아이디어: "이전 정보를 기억하자"

기존 신경망은 입력을 독립적으로 처리했습니다. 하지만 언어는 순서가 중요합니다. "나는 밥을 먹었다"와 "밥을 나는 먹었다"는 같은 단어지만 다른 의미를 가질 수 있죠. RNN은 이전 단계의 출력을 다음 단계의 입력으로 연결하여 순서 정보를 유지합니다.

RNN의 구조: 순환 연결
x₁
x₂
x₃
x₄
출력

각 셀은 이전 셀의 정보(hidden state)를 받아 현재 입력과 함께 처리합니다

⚠️ 치명적 문제: 기울기 소실 (Vanishing Gradient)

RNN은 역전파(backpropagation) 과정에서 기울기가 점점 작아지는 문제가 있습니다. 문장이 길어질수록 앞부분의 정보가 사라져버립니다.

단어1
단어2
단어3
단어4
...
단어n

문장이 길어질수록 초기 단어의 정보(기울기)가 소실됩니다

⚠️ RNN의 한계

"The cat, which was sitting on the mat and looking at the bird outside the window, was hungry."

→ "cat"과 "was" 사이의 긴 거리 때문에 RNN은 주어-동사 일치를 학습하기 어렵습니다.

03

LSTM (Long Short-Term Memory)

장기 기억 문제를 해결한 혁신

1997년 Hochreiter & Schmidhuber

핵심 아이디어: "무엇을 기억하고 무엇을 잊을지 결정하자"

LSTM은 게이트(Gate)라는 메커니즘을 도입했습니다. 정보의 흐름을 제어하는 문(門)을 두어, 중요한 정보는 오래 유지하고 불필요한 정보는 버릴 수 있게 되었습니다.

LSTM의 3가지 게이트
LSTM Cell
Cell State (장기 기억)
🚪 Forget
무엇을 잊을까
🚪 Input
무엇을 저장할까
🚪 Output
무엇을 출력할까

🚪 Forget Gate (망각 게이트)

이전 정보 중 버릴 것을 결정합니다. "새 문장이 시작되면 이전 주어는 잊어도 돼"

🚪 Input Gate (입력 게이트)

새로운 정보 중 저장할 것을 결정합니다. "이 단어는 중요하니까 기억해둬야 해"

🚪 Output Gate (출력 게이트)

현재 상태에서 출력할 것을 결정합니다. "지금은 이 정보만 내보내면 돼"

📌 LSTM의 성과
  • 기울기 소실 문제를 크게 완화
  • 2018년까지 시퀀스 모델링의 표준 아키텍처로 사용
  • 기계 번역, 음성 인식, 텍스트 생성 등에서 큰 성공
  • ELMo(2018)와 같은 사전학습 모델의 기반이 됨
⚠️ LSTM의 한계
  • 순차 처리 - 토큰을 하나씩 처리해야 해서 병렬화 불가능
  • 학습 속도 - 대규모 데이터 학습에 시간이 너무 오래 걸림
  • 여전히 한계 - 아주 긴 문장에서는 여전히 정보 손실 발생
04

Transformer: 게임 체인저

"Attention is All You Need" (2017)

2017년 Google "Attention is All You Need"

핵심 아이디어: "순환을 버리고 Attention만 사용하자"

Transformer는 RNN/LSTM의 순환 구조를 완전히 제거했습니다. 대신 Self-Attention 메커니즘을 사용하여 모든 토큰이 서로를 동시에 참조할 수 있게 했습니다.

Self-Attention: 모든 단어가 서로를 참조
cat
sat
on
"cat"을 처리할 때, 문장의 모든 다른 단어와의 관계를 동시에 계산합니다.
관련성이 높은 단어(the, mat)에 더 높은 attention 가중치를 부여합니다.
Transformer 블록 구조 (단순화)
Input Embedding + Positional Encoding
⭐ Multi-Head Self-Attention
Feed-Forward Network
Output

✨ Transformer의 혁신적 장점

병렬 처리

모든 토큰을 동시에 처리 가능.
GPU 활용 극대화로 학습 속도 대폭 향상.

🔗

장거리 의존성

문장 처음과 끝의 단어도 직접 연결.
거리에 관계없이 관계 파악 가능.

📈

확장성

모델 크기를 키울수록 성능 향상.
Scaling Law의 기반이 됨.

💡 왜 "Attention is All You Need"인가?

이전에는 Attention이 RNN/LSTM의 보조 역할로만 사용되었습니다. 이 논문은 RNN을 완전히 제거하고 Attention만으로 시퀀스를 처리할 수 있음을 증명했습니다.

05

아키텍처 비교 요약

RNN vs LSTM vs Transformer

🔄
RNN
1980s~1990
순차 데이터 처리 가능
이전 정보 유지
기울기 소실 문제
장기 의존성 학습 어려움
🚪
LSTM
1997
기울기 소실 완화
장기 기억 가능
순차 처리 (느림)
병렬화 불가능
Transformer
2017
완전 병렬 처리
장거리 의존성 우수
대규모 확장 가능
메모리 사용량 큼
특성 RNN LSTM Transformer
처리 방식 순차적 순차적 병렬
장기 의존성 약함 보통 강함
학습 속도 느림 느림 빠름
메모리 효율 좋음 보통 나쁨 (O(n²))
현재 사용 거의 없음 일부 주류
SUMMARY

핵심 요약

  • RNN은 순차 데이터를 처리할 수 있지만 기울기 소실 문제가 있다
  • LSTM은 게이트 메커니즘으로 장기 기억을 가능하게 했지만 순차 처리의 한계가 있다
  • Transformer(2017)는 Self-Attention으로 병렬 처리장거리 의존성을 동시에 해결했다
  • Transformer의 등장으로 대규모 언어 모델(LLM) 학습이 현실화되었다
  • 현재 GPT, Claude, Gemini 등 모든 주요 LLM은 Transformer 기반이다