PART 2 · 강의 6/6

AI Safety 연구 동향

Anthropic, OpenAI, Google DeepMind의 안전성 연구

01

AI Safety란?

AI 정렬(Alignment)과 안전성 연구의 개요

AI Safety는 AI 시스템이 인간의 의도와 가치에 부합하고, 예측 가능하며, 통제 가능하도록 만드는 연구 분야입니다. AI 정렬(Alignment)은 이 중 AI가 인간의 목표와 가치에 맞게 행동하도록 하는 것에 초점을 맞춥니다.

📌 핵심 연구 영역
  • 정렬(Alignment) — AI가 인간 의도를 정확히 이해하고 따르도록
  • 견고성(Robustness) — 적대적 입력, 분포 이동에도 안정적 동작
  • 해석가능성(Interpretability) — AI 결정 과정의 이해와 설명
  • 통제가능성(Controllability) — AI 동작의 예측과 개입 가능
02

주요 기업의 AI Safety 연구

Anthropic, OpenAI, Google DeepMind

Anthropic

  • Constitutional AI — 헌법 기반 자기 개선 및 정렬
  • AI Safety Levels (ASL) — 능력에 따른 4단계 안전 수준
  • Responsible Scaling Policy — 능력 증가에 맞춘 안전 조치 확대
  • Interpretability 연구 — "Golden Gate Claude" 등 뉴런 해석

OpenAI

  • Preparedness Framework — 위험 평가 및 대응 체계
  • Superalignment — 초인간 AI 정렬 연구 (팀 해체 후 재편)
  • AI Safety Institute 협력 — 정부 기관과 공동 연구
  • 단계적 배포 — 점진적 출시로 위험 관리

Google DeepMind

  • Frontier Safety Framework — 최첨단 모델 안전 관리
  • AGI Safety 연구 — 범용 인공지능 안전성
  • Scalable Oversight — 확장 가능한 감독 메커니즘
  • Debate 방법론 — AI 간 토론을 통한 정렬
03

AI Safety Levels (ASL)

Anthropic의 능력 기반 안전 등급

등급 위험 수준 설명
ASL-1 최소 검색 엔진 수준의 위험, 특별한 안전 조치 불필요
ASL-2 낮음 현재 대부분의 LLM (Claude 3.5 포함), 기본 안전 조치
ASL-3 높음 화학/생물 무기, 사이버 공격 지원 가능 수준, 강화된 보안
ASL-4 극심 국가 수준 위협, 자율적 자기 복제 가능, 극도의 통제
💡 Responsible Scaling Policy

Anthropic은 모델 능력이 새로운 ASL 임계값을 넘을 때마다 해당 수준의 안전 조치가 준비될 때까지 배포를 보류합니다. 능력 증가와 안전 조치가 함께 확장되어야 한다는 원칙입니다.

SUMMARY

핵심 요약

  • AI Safety는 정렬, 견고성, 해석가능성, 통제가능성을 연구
  • Anthropic: Constitutional AI, ASL 기반 Responsible Scaling
  • OpenAI: Preparedness Framework, AI Safety Institute 협력
  • DeepMind: Frontier Safety Framework, AGI 안전 연구
  • 모델 능력과 안전 조치의 동반 성장이 핵심 원칙