LLM의 배경 기술과
발전 과정
RNN에서 LSTM을 거쳐 Transformer까지, 어떻게 현대 LLM이 탄생했는지 알아봅니다.
왜 역사를 알아야 하는가?
각 기술의 한계가 다음 혁신을 이끌었습니다
LLM을 제대로 이해하려면 "왜 Transformer가 필요했는가"를 알아야 합니다. 이전 기술들의 한계가 새로운 혁신을 이끌었고, 그 과정을 이해하면 현재 LLM의 작동 방식과 한계도 더 깊이 이해할 수 있습니다.
순차 처리의 한계(RNN) → 장기 기억 문제 해결(LSTM) → 병렬 처리 혁신(Transformer)
RNN (Recurrent Neural Network)
순차 데이터를 처리하는 첫 번째 시도
핵심 아이디어: "이전 정보를 기억하자"
기존 신경망은 입력을 독립적으로 처리했습니다. 하지만 언어는 순서가 중요합니다. "나는 밥을 먹었다"와 "밥을 나는 먹었다"는 같은 단어지만 다른 의미를 가질 수 있죠. RNN은 이전 단계의 출력을 다음 단계의 입력으로 연결하여 순서 정보를 유지합니다.
각 셀은 이전 셀의 정보(hidden state)를 받아 현재 입력과 함께 처리합니다
⚠️ 치명적 문제: 기울기 소실 (Vanishing Gradient)
RNN은 역전파(backpropagation) 과정에서 기울기가 점점 작아지는 문제가 있습니다. 문장이 길어질수록 앞부분의 정보가 사라져버립니다.
문장이 길어질수록 초기 단어의 정보(기울기)가 소실됩니다
"The cat, which was sitting on the mat and looking at the bird outside the window, was hungry."
→ "cat"과 "was" 사이의 긴 거리 때문에 RNN은 주어-동사 일치를 학습하기 어렵습니다.
LSTM (Long Short-Term Memory)
장기 기억 문제를 해결한 혁신
핵심 아이디어: "무엇을 기억하고 무엇을 잊을지 결정하자"
LSTM은 게이트(Gate)라는 메커니즘을 도입했습니다. 정보의 흐름을 제어하는 문(門)을 두어, 중요한 정보는 오래 유지하고 불필요한 정보는 버릴 수 있게 되었습니다.
무엇을 잊을까
무엇을 저장할까
무엇을 출력할까
🚪 Forget Gate (망각 게이트)
이전 정보 중 버릴 것을 결정합니다. "새 문장이 시작되면 이전 주어는 잊어도 돼"
🚪 Input Gate (입력 게이트)
새로운 정보 중 저장할 것을 결정합니다. "이 단어는 중요하니까 기억해둬야 해"
🚪 Output Gate (출력 게이트)
현재 상태에서 출력할 것을 결정합니다. "지금은 이 정보만 내보내면 돼"
- 기울기 소실 문제를 크게 완화
- 2018년까지 시퀀스 모델링의 표준 아키텍처로 사용
- 기계 번역, 음성 인식, 텍스트 생성 등에서 큰 성공
- ELMo(2018)와 같은 사전학습 모델의 기반이 됨
- 순차 처리 - 토큰을 하나씩 처리해야 해서 병렬화 불가능
- 학습 속도 - 대규모 데이터 학습에 시간이 너무 오래 걸림
- 여전히 한계 - 아주 긴 문장에서는 여전히 정보 손실 발생
Transformer: 게임 체인저
"Attention is All You Need" (2017)
핵심 아이디어: "순환을 버리고 Attention만 사용하자"
Transformer는 RNN/LSTM의 순환 구조를 완전히 제거했습니다. 대신 Self-Attention 메커니즘을 사용하여 모든 토큰이 서로를 동시에 참조할 수 있게 했습니다.
관련성이 높은 단어(the, mat)에 더 높은 attention 가중치를 부여합니다.
✨ Transformer의 혁신적 장점
병렬 처리
모든 토큰을 동시에 처리 가능.
GPU 활용 극대화로 학습 속도 대폭 향상.
장거리 의존성
문장 처음과 끝의 단어도 직접 연결.
거리에 관계없이 관계 파악 가능.
확장성
모델 크기를 키울수록 성능 향상.
Scaling Law의 기반이 됨.
이전에는 Attention이 RNN/LSTM의 보조 역할로만 사용되었습니다. 이 논문은 RNN을 완전히 제거하고 Attention만으로 시퀀스를 처리할 수 있음을 증명했습니다.
아키텍처 비교 요약
RNN vs LSTM vs Transformer
| 특성 | RNN | LSTM | Transformer |
|---|---|---|---|
| 처리 방식 | 순차적 | 순차적 | 병렬 |
| 장기 의존성 | 약함 | 보통 | 강함 |
| 학습 속도 | 느림 | 느림 | 빠름 |
| 메모리 효율 | 좋음 | 보통 | 나쁨 (O(n²)) |
| 현재 사용 | 거의 없음 | 일부 | 주류 |
핵심 요약
- RNN은 순차 데이터를 처리할 수 있지만 기울기 소실 문제가 있다
- LSTM은 게이트 메커니즘으로 장기 기억을 가능하게 했지만 순차 처리의 한계가 있다
- Transformer(2017)는 Self-Attention으로 병렬 처리와 장거리 의존성을 동시에 해결했다
- Transformer의 등장으로 대규모 언어 모델(LLM) 학습이 현실화되었다
- 현재 GPT, Claude, Gemini 등 모든 주요 LLM은 Transformer 기반이다