PART 5 · 강의 1/3

RLHF 기초

인간의 피드백으로 AI를 정렬하는 핵심 기술

01

학습 목표

이 강의에서 배울 내용

🎯

RLHF란?

인간 피드백 기반 강화학습의 개념과 필요성

🏆

Reward Model

인간 선호도를 학습하는 보상 모델

🔄

PPO 알고리즘

정책 최적화 기법의 원리

DPO와 대안들

더 간단한 직접 정렬 방법들

02

왜 RLHF가 필요할까?

사전학습만으로는 부족한 이유

⚠️ 사전학습만으로는 부족하다

사전학습된 LLM은 "다음 단어 예측"만 학습합니다. 이런 모델은 유해한 내용, 거짓 정보, 불친절한 응답도 생성할 수 있습니다. 인터넷 데이터에는 좋은 내용과 나쁜 내용이 섞여 있기 때문입니다.

❌ 사전학습만 한 모델

  • "폭탄 만드는 법" 질문에 답변
  • 편향적이거나 차별적 내용 생성
  • 자신감 있게 거짓 정보 제공
  • 사용자 의도를 무시하고 이상한 방향으로

✅ RLHF 적용 후

  • 유해한 요청 정중히 거부
  • 공정하고 균형 잡힌 응답
  • 불확실할 때 솔직하게 인정
  • 사용자 의도에 맞는 도움
💡 RLHF의 핵심 아이디어

인간이 직접 "좋은 응답"과 "나쁜 응답"을 구분해주면, AI가 그 선호도 패턴을 학습하여 더 도움되고, 정직하고, 무해한 응답을 생성하도록 정렬됩니다.

03

RLHF 3단계 파이프라인

SFT → RM → RL

1
SFT
Supervised Fine-Tuning
지시사항 따르기 학습
2
RM Training
Reward Model
인간 선호도 학습
3
RL Optimization
PPO 알고리즘
정책 최적화
1

Step 1: Supervised Fine-Tuning (SFT)

사전학습된 모델을 고품질 지시-응답 데이터셋으로 미세조정합니다. 이 단계에서 모델은 지시사항을 따르는 방법을 배웁니다.

입력: "파이썬으로 피보나치 함수를 작성해줘"
출력: "```python\ndef fibonacci(n):\n if n <= 1:\n return n\n return fibonacci(n-1) + fibonacci(n-2)\n```"
2

Step 2: Reward Model Training

인간 평가자가 같은 질문에 대한 여러 응답을 비교 평가합니다. 이 선호도 데이터로 "어떤 응답이 더 좋은지" 점수를 매기는 보상 모델을 학습합니다.

질문: "AI의 위험성에 대해 설명해줘"

✅ 선택됨 (Chosen)

"AI는 여러 잠재적 위험을 가지고 있습니다. 첫째, 편향된 데이터로 인한 차별적 결정..."

VS
❌ 거부됨 (Rejected)

"AI는 인류를 멸망시킬 것입니다. 터미네이터처럼 로봇이 반란을..."

3

Step 3: RL Optimization (PPO)

보상 모델의 점수를 최대화하도록 LLM을 강화학습으로 최적화합니다. PPO(Proximal Policy Optimization) 알고리즘이 주로 사용됩니다.

1
샘플링: 현재 정책으로 응답 생성
2
보상 계산: Reward Model로 점수 산출
3
정책 업데이트: 보상을 최대화하는 방향으로 가중치 조정
4
KL 페널티: 원래 모델에서 너무 벗어나지 않도록 제약
04

Reward Model 상세

응답 품질을 숫자로 평가

Reward Model은 응답의 "품질"을 숫자로 평가하는 모델입니다. 보통 SFT 모델을 기반으로 마지막 레이어만 바꿔서 학습합니다.

입력
프롬프트 + 응답
Reward Model
(LLM 기반 + 스칼라 헤드)
보상 점수
0.85

Reward Model 학습 손실 함수

L = -log(σ(r(x, y_chosen) - r(x, y_rejected)))
σ: 시그모이드 함수 | r: 보상 점수 | y_chosen: 선택된 응답 | y_rejected: 거부된 응답
💡 Bradley-Terry 모델

Reward Model은 Bradley-Terry 모델을 기반으로 합니다. 두 응답의 보상 점수 차이가 클수록, 선택된 응답이 더 좋을 확률이 높다고 가정합니다. 이를 통해 상대적 순위만 있어도 절대적 점수를 학습할 수 있습니다.

05

DPO와 대안적 방법들

더 간단한 정렬 방법들

RLHF의 복잡성을 줄이기 위해 여러 대안적 방법들이 제안되었습니다. 특히 DPO(Direct Preference Optimization)가 주목받고 있습니다.

🤖
RLAIF
RL from AI Feedback (2022)

인간 대신 AI가 피드백을 제공합니다. Constitutional AI에서 사용되며, 확장성이 좋습니다.

  • ✅ 무한 확장 가능
  • ✅ 일관된 평가 기준
  • ⚠️ AI 편향 상속 가능
📏
ORPO
Odds Ratio Preference (2024)

SFT와 선호도 최적화를 하나의 단계로 통합합니다. 별도의 reference model이 필요 없습니다.

  • ✅ 단일 단계 학습
  • ✅ 메모리 효율적
  • ⚠️ 비교적 새로운 방법
🛡️
Safe RLHF
2024

도움됨(helpfulness)과 무해함(harmlessness) 사이의 균형을 명시적으로 다룹니다.

  • ✅ 안전성 명시적 최적화
  • ✅ 두 목표 간 트레이드오프
  • ⚠️ 추가 라벨링 필요

📊 RLHF vs DPO 비교

RLHF (PPO)
  • 3단계 (SFT → RM → RL)
  • 온라인 샘플링 필요
  • 4개 모델 (Actor, Critic, RM, Ref)
  • 하이퍼파라미터 민감
DPO
  • 1단계 (직접 최적화)
  • 오프라인 데이터만 사용
  • 2개 모델 (Policy, Ref)
  • 학습이 안정적
06

RLHF의 도전과제

아직 해결해야 할 문제들

🎮

Reward Hacking

모델이 실제로 좋은 응답 대신 보상만 높이는 방법을 학습할 수 있습니다. 예: 길고 장황하게 쓰면 점수가 높아지는 것을 악용

⚖️

Helpfulness vs Safety

도움이 되려다 보면 위험할 수 있고, 안전하려다 보면 도움이 안 될 수 있습니다. 두 목표 사이의 균형 찾기가 어렵습니다.

👥

인간 평가자의 한계

평가자마다 기준이 다르고, 전문 지식이 부족할 수 있습니다. 노이즈가 많은 선호도 데이터가 문제입니다.

💰

비용과 확장성

인간 피드백 수집에 많은 비용과 시간이 듭니다. RLAIF, 합성 데이터 등으로 해결 시도 중입니다.

SUMMARY

핵심 요약

  • RLHF는 인간 선호도로 AI를 정렬하는 핵심 기술 (ChatGPT 성공의 비결)
  • 3단계 파이프라인: SFT(지시 따르기) → RM(선호도 모델링) → RL(PPO 최적화)
  • Reward Model은 응답 품질을 숫자로 평가하며, Bradley-Terry 모델 기반
  • DPO는 RM 없이 직접 선호도 최적화하여 더 간단하고 안정적
  • 도전과제: Reward Hacking, 안전성-유용성 균형, 인간 평가자 한계, 비용
🎓 다음 강의 예고

다음 강의에서는 RLVR과 추론 시간 스케일링을 배웁니다. DeepSeek R1, OpenAI o1 같은 "생각하는 AI"가 어떻게 작동하는지, 그리고 추론 시간에 더 많은 연산을 사용하면 왜 성능이 좋아지는지 알아봅니다.

REF

참고 자료