PART 2 · 강의 3/6

탈옥(Jailbreaking)과 방어

DAN, CCA 등 탈옥 기법과 Constitutional Classifiers

01

주요 탈옥 기법

AI 가드레일을 우회하는 공격 방법

탈옥(Jailbreaking)은 AI 모델의 안전 장치(가드레일)를 우회하여 정책 위반 출력을 생성하도록 유도하는 기법입니다.

기법 설명 효과
DAN "Do Anything Now" - 윤리적 제약이 없는 페르소나 채택 지시 GPT-5에서 효과 감소, 변형 버전은 여전히 유효
CCA Context Compliance Attack - 대화 이력 조작으로 컨텍스트 오염 상태 비저장 아키텍처 취약점 악용
감정적 조작 사회공학적 기법으로 윤리 가드레일 우회 감정에 민감한 모델에서 효과적
인코딩 ROT13, Base64 등으로 요청 변환 기본 콘텐츠 필터 우회
다단계 점진적으로 제한 정보 노출 유도 패턴 탐지 회피
⚠️ 현재 상태 (2025-2026)

"이것은 여전히 군비 경쟁입니다. 가장 노골적인 초기 DAN 프롬프트는 GPT-5 같은 강력한 모델에서 효과가 없어졌지만, 더 미묘한 변형은 여전히 등장합니다."

패턴 기반 탐지는 23-31%의 단순 탈옥 시도만 차단합니다.

02

Constitutional Classifiers

Anthropic의 혁신적 방어 기법

$10,000-$20,000

Anthropic이 탈옥 테스트에 건 보상금 (2025년 2월)

수천 시간

인간 레드팀 테스트에서 범용 탈옥에 견딤

📌 Constitutional Classifiers 특징
  • 헌법(Constitution) 기반 — 모델 행동을 정의하는 원칙 세트
  • 빠른 업데이트 — 새로운 공격에 대응하여 헌법 신속 수정 가능
  • 낮은 거부율 증가 — 업데이트 버전에서 0.38% 증가만으로 유사한 견고성
  • 투명성 — 거부 이유를 설명 가능
💡 Constitutional AI란?

Anthropic이 개발한 AI 정렬 방법론. 명시적인 "헌법"(원칙 세트)을 정의하고, 모델이 이 원칙에 따라 자체 출력을 검토하고 수정하도록 훈련합니다.

03

기업 방어 전략

실무에서 적용 가능한 방어 체계

📌 4단계 방어 체계
  • 1. 입력 검증 및 정제 — 유형, 길이, 기호 기준 검증, 의심스러운 패턴 탐지
  • 2. 이상 탐지 — 실시간 입력 패턴 분석, 표준에서 벗어나는 요청 식별
  • 3. 적대적 훈련 — 악성 프롬프트와 실제 데이터 함께 학습
  • 4. 정기적 레드팀 테스트 — 최신 기법으로 주기적 탈옥 시도
⚠️ 2025년 연구 발견

OpenAI, Anthropic, Google DeepMind 연구자들의 공동 논문에 따르면, 정적 예제 공격은 방어 평가에 거의 무용합니다. 적응적 공격(Adaptive Attacks)이 훨씬 강력하므로, 방어 테스트 시 적응적 공격자를 가정해야 합니다.

SUMMARY

핵심 요약

  • DAN, CCA, 인코딩 등 다양한 탈옥 기법이 존재하며 계속 진화 중
  • Constitutional Classifiers는 수천 시간의 레드팀 테스트를 견딘 효과적 방어
  • 패턴 기반 탐지는 23-31%만 차단, 다층 방어 필수
  • 방어 평가 시 적응적 공격자를 가정해야 함