5-2. RLVR과 추론 시간 스케일링

01

학습 목표

이 강의에서 배울 내용

🧠

추론 시간 스케일링

모델 크기 대신 추론 시간에 더 많은 연산을 투자하는 개념

✅

RLVR

검증 가능한 보상으로 강화학습하는 방법

🚀

DeepSeek R1

순수 RL로 추론 능력을 끌어낸 혁신적 모델

💡

창발적 행동

자기 검증, 반성, 긴 사고 체인의 자연 발생

02

훈련 시간 vs 추론 시간 스케일링

새로운 패러다임의 등장

지금까지 AI 성능을 높이는 주된 방법은 모델을 더 크게 만드는 것이었습니다. 하지만 2024년부터 새로운 패러다임이 등장했습니다.

📈

훈련 시간 스케일링

Training-Time Scaling

모델 파라미터 수 증가
훈련 데이터 증가
훈련 컴퓨팅 증가
한 번 훈련, 빠른 추론

예: GPT-3 (175B) → GPT-4 (~1.8T)

🧠

추론 시간 스케일링

Inference-Time Scaling

추론 시 더 많은 토큰 생성
긴 Chain-of-Thought
자기 검증 및 반성
더 작은 모델도 가능

예: OpenAI o1, DeepSeek R1

💡 핵심 통찰

추론 시간 스케일링은 "생각하는 시간을 늘려서 더 좋은 답을 내는 것"입니다. 사람도 어려운 문제를 풀 때 더 오래 생각하듯이, AI도 복잡한 문제에 더 많은 "생각" 토큰을 사용하면 성능이 향상됩니다.

03

RLVR: 검증 가능한 보상으로 강화학습

자동으로 검증 가능한 보상

RLVR(Reinforcement Learning with Verifiable Rewards)은 RLHF와 달리 자동으로 검증 가능한 보상을 사용합니다.

RLHF

인간 평가자가 "어떤 응답이 더 좋은지" 주관적으로 판단

장점: 주관적 품질 평가 가능
단점: 비용 높음, 확장 어려움

RLVR

수학 문제의 정답 여부, 코드 실행 결과 등 객관적으로 검증

장점: 무한 확장 가능, 명확한 기준
단점: 검증 가능한 태스크에만 적용

RLVR 보상 예시

✅ 정답

                                reward = +1.0
                            

❌ 오답

                                reward = -0.5
                            

수학: 최종 답이 정답과 일치하는지 | 코드: 테스트 케이스 통과 여부

04

DeepSeek R1: 순수 RL의 힘

SFT 없이 추론 능력 학습

🔬 혁신적 발견

DeepSeek R1-Zero는 SFT 없이 순수 RL만으로 추론 능력을 학습한 최초의 모델입니다. 이는 추론 능력이 인간 데모 없이도 강화학습만으로 창발할 수 있음을 증명했습니다.

GRPO: 효율적인 정책 최적화

DeepSeek은 PPO 대신 GRPO(Group Relative Policy Optimization)를 사용합니다. 별도의 가치 함수 모델 없이 그룹 내 상대 비교로 학습합니다.

1

응답 그룹 생성

같은 질문에 대해 여러 응답(예: 8개) 샘플링

2

보상 계산

각 응답의 정답 여부 검증 (RLVR)

3

상대적 이점 계산

그룹 평균 보상을 기준으로 각 응답의 상대적 점수 계산

4

정책 업데이트

평균보다 좋은 응답은 강화, 나쁜 응답은 억제

💡 GRPO vs PPO

PPO: 별도의 Critic 모델(가치 함수) 필요 → 메모리 2배
GRPO: 그룹 내 상대 비교로 대체 → 더 효율적
성능은 유사하면서 훈련 비용 절감

05

창발적 추론 행동

가르치지 않았는데 나타난 능력들

DeepSeek R1-Zero에서 명시적으로 가르치지 않았는데도 자연스럽게 나타난 행동들:

🔄

자기 검증

"잠깐, 이게 맞나?"
자신의 답을 다시 확인

🤔

반성

"아, 여기서 실수했네"
오류 인식 및 수정

📝

긴 CoT

수천 토큰의
상세한 추론 과정

🔁

다중 시도

여러 접근법 시도
후 최선 선택

🧠 추론 모델의 "생각" 예시

문제: "12의 약수의 개수를 구하세요"

1

🤔 분석

12의 약수를 찾아야 해. 약수란 12를 나누어 떨어지게 하는 수야.

2

🧮 계산

1부터 확인해보자. 12÷1=12 ✓, 12÷2=6 ✓, 12÷3=4 ✓, 12÷4=3 ✓, 12÷5=2.4 ✗, 12÷6=2 ✓...

3

🔄 반성

잠깐, 더 효율적인 방법이 있어. 소인수분해를 하면 12 = 2² × 3¹. 약수 개수는 (2+1)(1+1) = 6.

4

✅ 검증

확인: 1, 2, 3, 4, 6, 12 — 총 6개. 맞았어! 답: 6

06

성능 비교

DeepSeek R1 vs OpenAI o1

DeepSeek R1은 OpenAI o1과 비슷한 성능을 오픈 웨이트로 달성했습니다:

AIME 수학 경시대회 정확도

Base Model

15.6%

DeepSeek R1

71%

R1 + 다수결

86.7%

OpenAI o1

~83%

모델	개발사	오픈 소스	특징
OpenAI o1	OpenAI	Closed	최초의 추론 모델, 비공개
DeepSeek R1	DeepSeek	Open	오픈 웨이트, RLVR 기반
R1-Distill-Qwen-32B	DeepSeek	Open	소형화 버전, o1-mini 능가
Gemini 2.0 Flash Thinking	Google	Closed	Google의 추론 모델

SUMMARY

핵심 요약

추론 시간 스케일링: 모델 크기 대신 "생각하는 시간"을 늘려 성능 향상
RLVR: 수학, 코드 등 객관적으로 검증 가능한 보상으로 강화학습
DeepSeek R1: SFT 없이 순수 RL만으로 추론 능력 학습, GRPO 알고리즘 사용
창발적 행동: 자기 검증, 반성, 긴 CoT가 명시적 학습 없이 자연 발생
오픈 소스: R1은 오픈 웨이트로 공개되어 연구 가속화

🎓 다음 강의 예고

다음 강의에서는 Chain-of-Thought 프롬프팅을 배웁니다. 모델에게 "단계별로 생각해"라고 요청하면 왜 성능이 좋아지는지, 그리고 다양한 CoT 기법들(Zero-shot, Few-shot, Self-consistency)을 알아봅니다.

REF

참고 자료

📄 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL 🔗 RLHF Book - Reasoning Training & Inference-Time Scaling 🔗 HuggingFace - What is Test-Time Compute? 🔗 DeepSeek R1 on HuggingFace