RLVR과 추론 시간 스케일링
DeepSeek R1, OpenAI o1 - "생각하는 AI"의 비밀
학습 목표
이 강의에서 배울 내용
추론 시간 스케일링
모델 크기 대신 추론 시간에 더 많은 연산을 투자하는 개념
RLVR
검증 가능한 보상으로 강화학습하는 방법
DeepSeek R1
순수 RL로 추론 능력을 끌어낸 혁신적 모델
창발적 행동
자기 검증, 반성, 긴 사고 체인의 자연 발생
훈련 시간 vs 추론 시간 스케일링
새로운 패러다임의 등장
지금까지 AI 성능을 높이는 주된 방법은 모델을 더 크게 만드는 것이었습니다. 하지만 2024년부터 새로운 패러다임이 등장했습니다.
훈련 시간 스케일링
Training-Time Scaling
- 모델 파라미터 수 증가
- 훈련 데이터 증가
- 훈련 컴퓨팅 증가
- 한 번 훈련, 빠른 추론
추론 시간 스케일링
Inference-Time Scaling
- 추론 시 더 많은 토큰 생성
- 긴 Chain-of-Thought
- 자기 검증 및 반성
- 더 작은 모델도 가능
💡 핵심 통찰
추론 시간 스케일링은 "생각하는 시간을 늘려서 더 좋은 답을 내는 것"입니다. 사람도 어려운 문제를 풀 때 더 오래 생각하듯이, AI도 복잡한 문제에 더 많은 "생각" 토큰을 사용하면 성능이 향상됩니다.
RLVR: 검증 가능한 보상으로 강화학습
자동으로 검증 가능한 보상
RLVR(Reinforcement Learning with Verifiable Rewards)은 RLHF와 달리 자동으로 검증 가능한 보상을 사용합니다.
RLHF
인간 평가자가 "어떤 응답이 더 좋은지" 주관적으로 판단
단점: 비용 높음, 확장 어려움
RLVR
수학 문제의 정답 여부, 코드 실행 결과 등 객관적으로 검증
단점: 검증 가능한 태스크에만 적용
RLVR 보상 예시
DeepSeek R1: 순수 RL의 힘
SFT 없이 추론 능력 학습
🔬 혁신적 발견
DeepSeek R1-Zero는 SFT 없이 순수 RL만으로 추론 능력을 학습한 최초의 모델입니다. 이는 추론 능력이 인간 데모 없이도 강화학습만으로 창발할 수 있음을 증명했습니다.
GRPO: 효율적인 정책 최적화
DeepSeek은 PPO 대신 GRPO(Group Relative Policy Optimization)를 사용합니다. 별도의 가치 함수 모델 없이 그룹 내 상대 비교로 학습합니다.
같은 질문에 대해 여러 응답(예: 8개) 샘플링
각 응답의 정답 여부 검증 (RLVR)
그룹 평균 보상을 기준으로 각 응답의 상대적 점수 계산
평균보다 좋은 응답은 강화, 나쁜 응답은 억제
- PPO: 별도의 Critic 모델(가치 함수) 필요 → 메모리 2배
- GRPO: 그룹 내 상대 비교로 대체 → 더 효율적
- 성능은 유사하면서 훈련 비용 절감
창발적 추론 행동
가르치지 않았는데 나타난 능력들
DeepSeek R1-Zero에서 명시적으로 가르치지 않았는데도 자연스럽게 나타난 행동들:
자신의 답을 다시 확인
오류 인식 및 수정
상세한 추론 과정
후 최선 선택
🧠 추론 모델의 "생각" 예시
문제: "12의 약수의 개수를 구하세요"
12의 약수를 찾아야 해. 약수란 12를 나누어 떨어지게 하는 수야.
1부터 확인해보자. 12÷1=12 ✓, 12÷2=6 ✓, 12÷3=4 ✓, 12÷4=3 ✓, 12÷5=2.4 ✗, 12÷6=2 ✓...
잠깐, 더 효율적인 방법이 있어. 소인수분해를 하면 12 = 2² × 3¹. 약수 개수는 (2+1)(1+1) = 6.
확인: 1, 2, 3, 4, 6, 12 — 총 6개. 맞았어! 답: 6
성능 비교
DeepSeek R1 vs OpenAI o1
DeepSeek R1은 OpenAI o1과 비슷한 성능을 오픈 웨이트로 달성했습니다:
AIME 수학 경시대회 정확도
| 모델 | 개발사 | 오픈 소스 | 특징 |
|---|---|---|---|
| OpenAI o1 | OpenAI | Closed | 최초의 추론 모델, 비공개 |
| DeepSeek R1 | DeepSeek | Open | 오픈 웨이트, RLVR 기반 |
| R1-Distill-Qwen-32B | DeepSeek | Open | 소형화 버전, o1-mini 능가 |
| Gemini 2.0 Flash Thinking | Closed | Google의 추론 모델 |
핵심 요약
- 추론 시간 스케일링: 모델 크기 대신 "생각하는 시간"을 늘려 성능 향상
- RLVR: 수학, 코드 등 객관적으로 검증 가능한 보상으로 강화학습
- DeepSeek R1: SFT 없이 순수 RL만으로 추론 능력 학습, GRPO 알고리즘 사용
- 창발적 행동: 자기 검증, 반성, 긴 CoT가 명시적 학습 없이 자연 발생
- 오픈 소스: R1은 오픈 웨이트로 공개되어 연구 가속화
다음 강의에서는 Chain-of-Thought 프롬프팅을 배웁니다. 모델에게 "단계별로 생각해"라고 요청하면 왜 성능이 좋아지는지, 그리고 다양한 CoT 기법들(Zero-shot, Few-shot, Self-consistency)을 알아봅니다.