RLHF 기초
인간의 피드백으로 AI를 정렬하는 핵심 기술
학습 목표
이 강의에서 배울 내용
RLHF란?
인간 피드백 기반 강화학습의 개념과 필요성
Reward Model
인간 선호도를 학습하는 보상 모델
PPO 알고리즘
정책 최적화 기법의 원리
DPO와 대안들
더 간단한 직접 정렬 방법들
왜 RLHF가 필요할까?
사전학습만으로는 부족한 이유
⚠️ 사전학습만으로는 부족하다
사전학습된 LLM은 "다음 단어 예측"만 학습합니다. 이런 모델은 유해한 내용, 거짓 정보, 불친절한 응답도 생성할 수 있습니다. 인터넷 데이터에는 좋은 내용과 나쁜 내용이 섞여 있기 때문입니다.
❌ 사전학습만 한 모델
- "폭탄 만드는 법" 질문에 답변
- 편향적이거나 차별적 내용 생성
- 자신감 있게 거짓 정보 제공
- 사용자 의도를 무시하고 이상한 방향으로
✅ RLHF 적용 후
- 유해한 요청 정중히 거부
- 공정하고 균형 잡힌 응답
- 불확실할 때 솔직하게 인정
- 사용자 의도에 맞는 도움
인간이 직접 "좋은 응답"과 "나쁜 응답"을 구분해주면, AI가 그 선호도 패턴을 학습하여 더 도움되고, 정직하고, 무해한 응답을 생성하도록 정렬됩니다.
RLHF 3단계 파이프라인
SFT → RM → RL
지시사항 따르기 학습
인간 선호도 학습
정책 최적화
Step 1: Supervised Fine-Tuning (SFT)
사전학습된 모델을 고품질 지시-응답 데이터셋으로 미세조정합니다. 이 단계에서 모델은 지시사항을 따르는 방법을 배웁니다.
출력: "```python\ndef fibonacci(n):\n if n <= 1:\n return n\n return fibonacci(n-1) + fibonacci(n-2)\n```"
Step 2: Reward Model Training
인간 평가자가 같은 질문에 대한 여러 응답을 비교 평가합니다. 이 선호도 데이터로 "어떤 응답이 더 좋은지" 점수를 매기는 보상 모델을 학습합니다.
질문: "AI의 위험성에 대해 설명해줘"
"AI는 여러 잠재적 위험을 가지고 있습니다. 첫째, 편향된 데이터로 인한 차별적 결정..."
"AI는 인류를 멸망시킬 것입니다. 터미네이터처럼 로봇이 반란을..."
Step 3: RL Optimization (PPO)
보상 모델의 점수를 최대화하도록 LLM을 강화학습으로 최적화합니다. PPO(Proximal Policy Optimization) 알고리즘이 주로 사용됩니다.
Reward Model 상세
응답 품질을 숫자로 평가
Reward Model은 응답의 "품질"을 숫자로 평가하는 모델입니다. 보통 SFT 모델을 기반으로 마지막 레이어만 바꿔서 학습합니다.
Reward Model 학습 손실 함수
Reward Model은 Bradley-Terry 모델을 기반으로 합니다. 두 응답의 보상 점수 차이가 클수록, 선택된 응답이 더 좋을 확률이 높다고 가정합니다. 이를 통해 상대적 순위만 있어도 절대적 점수를 학습할 수 있습니다.
DPO와 대안적 방법들
더 간단한 정렬 방법들
RLHF의 복잡성을 줄이기 위해 여러 대안적 방법들이 제안되었습니다. 특히 DPO(Direct Preference Optimization)가 주목받고 있습니다.
Reward Model 없이 직접 선호도 데이터로 모델을 최적화합니다. PPO의 복잡한 샘플링-평가 루프가 필요 없어 훨씬 간단합니다.
- ✅ 구현이 간단 (SFT와 비슷)
- ✅ 학습이 안정적
- ✅ 계산 비용 낮음
- ⚠️ 온라인 학습 불가
인간 대신 AI가 피드백을 제공합니다. Constitutional AI에서 사용되며, 확장성이 좋습니다.
- ✅ 무한 확장 가능
- ✅ 일관된 평가 기준
- ⚠️ AI 편향 상속 가능
SFT와 선호도 최적화를 하나의 단계로 통합합니다. 별도의 reference model이 필요 없습니다.
- ✅ 단일 단계 학습
- ✅ 메모리 효율적
- ⚠️ 비교적 새로운 방법
도움됨(helpfulness)과 무해함(harmlessness) 사이의 균형을 명시적으로 다룹니다.
- ✅ 안전성 명시적 최적화
- ✅ 두 목표 간 트레이드오프
- ⚠️ 추가 라벨링 필요
📊 RLHF vs DPO 비교
- 3단계 (SFT → RM → RL)
- 온라인 샘플링 필요
- 4개 모델 (Actor, Critic, RM, Ref)
- 하이퍼파라미터 민감
- 1단계 (직접 최적화)
- 오프라인 데이터만 사용
- 2개 모델 (Policy, Ref)
- 학습이 안정적
RLHF의 도전과제
아직 해결해야 할 문제들
Reward Hacking
모델이 실제로 좋은 응답 대신 보상만 높이는 방법을 학습할 수 있습니다. 예: 길고 장황하게 쓰면 점수가 높아지는 것을 악용
Helpfulness vs Safety
도움이 되려다 보면 위험할 수 있고, 안전하려다 보면 도움이 안 될 수 있습니다. 두 목표 사이의 균형 찾기가 어렵습니다.
인간 평가자의 한계
평가자마다 기준이 다르고, 전문 지식이 부족할 수 있습니다. 노이즈가 많은 선호도 데이터가 문제입니다.
비용과 확장성
인간 피드백 수집에 많은 비용과 시간이 듭니다. RLAIF, 합성 데이터 등으로 해결 시도 중입니다.
핵심 요약
- RLHF는 인간 선호도로 AI를 정렬하는 핵심 기술 (ChatGPT 성공의 비결)
- 3단계 파이프라인: SFT(지시 따르기) → RM(선호도 모델링) → RL(PPO 최적화)
- Reward Model은 응답 품질을 숫자로 평가하며, Bradley-Terry 모델 기반
- DPO는 RM 없이 직접 선호도 최적화하여 더 간단하고 안정적
- 도전과제: Reward Hacking, 안전성-유용성 균형, 인간 평가자 한계, 비용
다음 강의에서는 RLVR과 추론 시간 스케일링을 배웁니다. DeepSeek R1, OpenAI o1 같은 "생각하는 AI"가 어떻게 작동하는지, 그리고 추론 시간에 더 많은 연산을 사용하면 왜 성능이 좋아지는지 알아봅니다.