PART 2 · 강의 3/6
탈옥(Jailbreaking)과 방어
DAN, CCA 등 탈옥 기법과 Constitutional Classifiers
01
주요 탈옥 기법
AI 가드레일을 우회하는 공격 방법
탈옥(Jailbreaking)은 AI 모델의 안전 장치(가드레일)를 우회하여 정책 위반 출력을 생성하도록 유도하는 기법입니다.
| 기법 | 설명 | 효과 |
|---|---|---|
| DAN | "Do Anything Now" - 윤리적 제약이 없는 페르소나 채택 지시 | GPT-5에서 효과 감소, 변형 버전은 여전히 유효 |
| CCA | Context Compliance Attack - 대화 이력 조작으로 컨텍스트 오염 | 상태 비저장 아키텍처 취약점 악용 |
| 감정적 조작 | 사회공학적 기법으로 윤리 가드레일 우회 | 감정에 민감한 모델에서 효과적 |
| 인코딩 | ROT13, Base64 등으로 요청 변환 | 기본 콘텐츠 필터 우회 |
| 다단계 | 점진적으로 제한 정보 노출 유도 | 패턴 탐지 회피 |
⚠️ 현재 상태 (2025-2026)
"이것은 여전히 군비 경쟁입니다. 가장 노골적인 초기 DAN 프롬프트는 GPT-5 같은 강력한 모델에서 효과가 없어졌지만, 더 미묘한 변형은 여전히 등장합니다."
패턴 기반 탐지는 23-31%의 단순 탈옥 시도만 차단합니다.
02
Constitutional Classifiers
Anthropic의 혁신적 방어 기법
$10,000-$20,000
Anthropic이 탈옥 테스트에 건 보상금 (2025년 2월)
수천 시간
인간 레드팀 테스트에서 범용 탈옥에 견딤
📌 Constitutional Classifiers 특징
- 헌법(Constitution) 기반 — 모델 행동을 정의하는 원칙 세트
- 빠른 업데이트 — 새로운 공격에 대응하여 헌법 신속 수정 가능
- 낮은 거부율 증가 — 업데이트 버전에서 0.38% 증가만으로 유사한 견고성
- 투명성 — 거부 이유를 설명 가능
💡 Constitutional AI란?
Anthropic이 개발한 AI 정렬 방법론. 명시적인 "헌법"(원칙 세트)을 정의하고, 모델이 이 원칙에 따라 자체 출력을 검토하고 수정하도록 훈련합니다.
03
기업 방어 전략
실무에서 적용 가능한 방어 체계
📌 4단계 방어 체계
- 1. 입력 검증 및 정제 — 유형, 길이, 기호 기준 검증, 의심스러운 패턴 탐지
- 2. 이상 탐지 — 실시간 입력 패턴 분석, 표준에서 벗어나는 요청 식별
- 3. 적대적 훈련 — 악성 프롬프트와 실제 데이터 함께 학습
- 4. 정기적 레드팀 테스트 — 최신 기법으로 주기적 탈옥 시도
⚠️ 2025년 연구 발견
OpenAI, Anthropic, Google DeepMind 연구자들의 공동 논문에 따르면, 정적 예제 공격은 방어 평가에 거의 무용합니다. 적응적 공격(Adaptive Attacks)이 훨씬 강력하므로, 방어 테스트 시 적응적 공격자를 가정해야 합니다.
SUMMARY
핵심 요약
- DAN, CCA, 인코딩 등 다양한 탈옥 기법이 존재하며 계속 진화 중
- Constitutional Classifiers는 수천 시간의 레드팀 테스트를 견딘 효과적 방어
- 패턴 기반 탐지는 23-31%만 차단, 다층 방어 필수
- 방어 평가 시 적응적 공격자를 가정해야 함