PART 2 · 강의 4/6

데이터 유출 방지

학습 데이터 추출, 시스템 프롬프트 유출과 방어

01

데이터 유출 공격 유형

LLM에서 발생하는 데이터 유출 위험

LLM은 훈련 과정에서 의도치 않은 암기(Unintended Memorization)가 발생합니다. 모델이 훈련 데이터의 일부(주소, SSN, 전화번호 등)를 저장하고 재생산할 수 있습니다.

공격 유형 설명 위험도
Training Data Extraction 모델 메모리에서 훈련 데이터 추출, 민감 정보 그대로 재구성 매우 높음
Model Inversion 대표적 예제를 "흐릿하게" 재구성 높음
Membership Inference 특정 데이터가 훈련에 사용되었는지 추론 중간
PII Extraction 개인식별정보 특정 추출 매우 높음
⚠️ 2025년 연구 발견

기존 Extraction Rate 지표는 무작위화된 LLM의 유출 위협을 최대 2.14배 과소평가합니다. PII 인스턴스가 한 번만 등장해도 모델이 암기하고 재생산할 수 있습니다.

02

시스템 프롬프트 유출

OWASP LLM07:2025 신규 취약점

📌 공격 기법
  • 단순 요청 — "지시사항을 반복해줘"
  • 인코딩 우회 — ROT13 등 사용한 우회
  • 다단계 노출 — 점진적으로 정보 추출
🚨 OWASP 권고

"시스템 프롬프트는 비밀로 간주되어서는 안 되며, 보안 제어로 사용되어서도 안 됩니다."

📌 방어 원칙
  • 시스템 프롬프트에 자격 증명, API 키 등 민감 데이터 포함 금지
  • LLM 외부의 독립적 시스템에서 동작 제어
  • 출력 검사 시스템으로 준수 여부 확인
  • 권한 분리, 인가 경계 검사는 LLM에 위임 금지
03

기술적 방어 대책

데이터 유출을 방지하는 실무 기법

Differential Privacy

차등 프라이버시 확률적 경사 하강법(DP-SGD) 사용으로 정확한 기록 재현 방지

데이터 큐레이션

훈련 데이터 검열, 중복 제거, 민감 정보 마스킹

출력 필터링

패턴 매칭, DLP 파이프라인으로 민감 정보 제거

Zero-Trust 분리

추론 서버를 안전한 환경에 격리, 엄격한 이그레스 필터링

SUMMARY

핵심 요약

  • LLM은 의도치 않은 암기로 훈련 데이터를 유출할 수 있음
  • 시스템 프롬프트는 비밀이 아님 - 민감 정보 포함 금지
  • Differential Privacy, 출력 필터링, Zero-Trust로 다층 방어
  • 권한 분리와 인가는 LLM 외부 시스템에서 처리