PART 5 · 강의 2/3

RLVR과 추론 시간 스케일링

DeepSeek R1, OpenAI o1 - "생각하는 AI"의 비밀

01

학습 목표

이 강의에서 배울 내용

🧠

추론 시간 스케일링

모델 크기 대신 추론 시간에 더 많은 연산을 투자하는 개념

RLVR

검증 가능한 보상으로 강화학습하는 방법

🚀

DeepSeek R1

순수 RL로 추론 능력을 끌어낸 혁신적 모델

💡

창발적 행동

자기 검증, 반성, 긴 사고 체인의 자연 발생

02

훈련 시간 vs 추론 시간 스케일링

새로운 패러다임의 등장

지금까지 AI 성능을 높이는 주된 방법은 모델을 더 크게 만드는 것이었습니다. 하지만 2024년부터 새로운 패러다임이 등장했습니다.

📈

훈련 시간 스케일링

Training-Time Scaling

  • 모델 파라미터 수 증가
  • 훈련 데이터 증가
  • 훈련 컴퓨팅 증가
  • 한 번 훈련, 빠른 추론
예: GPT-3 (175B) → GPT-4 (~1.8T)
🧠

추론 시간 스케일링

Inference-Time Scaling

  • 추론 시 더 많은 토큰 생성
  • 긴 Chain-of-Thought
  • 자기 검증 및 반성
  • 더 작은 모델도 가능
예: OpenAI o1, DeepSeek R1

💡 핵심 통찰

추론 시간 스케일링은 "생각하는 시간을 늘려서 더 좋은 답을 내는 것"입니다. 사람도 어려운 문제를 풀 때 더 오래 생각하듯이, AI도 복잡한 문제에 더 많은 "생각" 토큰을 사용하면 성능이 향상됩니다.

03

RLVR: 검증 가능한 보상으로 강화학습

자동으로 검증 가능한 보상

RLVR(Reinforcement Learning with Verifiable Rewards)은 RLHF와 달리 자동으로 검증 가능한 보상을 사용합니다.

RLHF

인간 평가자가 "어떤 응답이 더 좋은지" 주관적으로 판단

장점: 주관적 품질 평가 가능
단점: 비용 높음, 확장 어려움

RLVR

수학 문제의 정답 여부, 코드 실행 결과 등 객관적으로 검증

장점: 무한 확장 가능, 명확한 기준
단점: 검증 가능한 태스크에만 적용

RLVR 보상 예시

✅ 정답
reward = +1.0
❌ 오답
reward = -0.5
수학: 최종 답이 정답과 일치하는지 | 코드: 테스트 케이스 통과 여부
04

DeepSeek R1: 순수 RL의 힘

SFT 없이 추론 능력 학습

🔬 혁신적 발견

DeepSeek R1-Zero는 SFT 없이 순수 RL만으로 추론 능력을 학습한 최초의 모델입니다. 이는 추론 능력이 인간 데모 없이도 강화학습만으로 창발할 수 있음을 증명했습니다.

GRPO: 효율적인 정책 최적화

DeepSeek은 PPO 대신 GRPO(Group Relative Policy Optimization)를 사용합니다. 별도의 가치 함수 모델 없이 그룹 내 상대 비교로 학습합니다.

1
응답 그룹 생성

같은 질문에 대해 여러 응답(예: 8개) 샘플링

2
보상 계산

각 응답의 정답 여부 검증 (RLVR)

3
상대적 이점 계산

그룹 평균 보상을 기준으로 각 응답의 상대적 점수 계산

4
정책 업데이트

평균보다 좋은 응답은 강화, 나쁜 응답은 억제

💡 GRPO vs PPO
  • PPO: 별도의 Critic 모델(가치 함수) 필요 → 메모리 2배
  • GRPO: 그룹 내 상대 비교로 대체 → 더 효율적
  • 성능은 유사하면서 훈련 비용 절감
05

창발적 추론 행동

가르치지 않았는데 나타난 능력들

DeepSeek R1-Zero에서 명시적으로 가르치지 않았는데도 자연스럽게 나타난 행동들:

🔄
자기 검증
"잠깐, 이게 맞나?"
자신의 답을 다시 확인
🤔
반성
"아, 여기서 실수했네"
오류 인식 및 수정
📝
긴 CoT
수천 토큰의
상세한 추론 과정
🔁
다중 시도
여러 접근법 시도
후 최선 선택

🧠 추론 모델의 "생각" 예시

문제: "12의 약수의 개수를 구하세요"

1
🤔 분석

12의 약수를 찾아야 해. 약수란 12를 나누어 떨어지게 하는 수야.

2
🧮 계산

1부터 확인해보자. 12÷1=12 ✓, 12÷2=6 ✓, 12÷3=4 ✓, 12÷4=3 ✓, 12÷5=2.4 ✗, 12÷6=2 ✓...

3
🔄 반성

잠깐, 더 효율적인 방법이 있어. 소인수분해를 하면 12 = 2² × 3¹. 약수 개수는 (2+1)(1+1) = 6.

4
✅ 검증

확인: 1, 2, 3, 4, 6, 12 — 총 6개. 맞았어! 답: 6

06

성능 비교

DeepSeek R1 vs OpenAI o1

DeepSeek R1은 OpenAI o1과 비슷한 성능을 오픈 웨이트로 달성했습니다:

AIME 수학 경시대회 정확도

Base Model
15.6%
DeepSeek R1
71%
R1 + 다수결
86.7%
OpenAI o1
~83%
모델 개발사 오픈 소스 특징
OpenAI o1 OpenAI Closed 최초의 추론 모델, 비공개
DeepSeek R1 DeepSeek Open 오픈 웨이트, RLVR 기반
R1-Distill-Qwen-32B DeepSeek Open 소형화 버전, o1-mini 능가
Gemini 2.0 Flash Thinking Google Closed Google의 추론 모델
SUMMARY

핵심 요약

  • 추론 시간 스케일링: 모델 크기 대신 "생각하는 시간"을 늘려 성능 향상
  • RLVR: 수학, 코드 등 객관적으로 검증 가능한 보상으로 강화학습
  • DeepSeek R1: SFT 없이 순수 RL만으로 추론 능력 학습, GRPO 알고리즘 사용
  • 창발적 행동: 자기 검증, 반성, 긴 CoT가 명시적 학습 없이 자연 발생
  • 오픈 소스: R1은 오픈 웨이트로 공개되어 연구 가속화
🎓 다음 강의 예고

다음 강의에서는 Chain-of-Thought 프롬프팅을 배웁니다. 모델에게 "단계별로 생각해"라고 요청하면 왜 성능이 좋아지는지, 그리고 다양한 CoT 기법들(Zero-shot, Few-shot, Self-consistency)을 알아봅니다.

REF

참고 자료