PART 4 · 강의 2/6

토큰 비용 최적화

프롬프트 캐싱 90%, 배치 API 50% 비용 절감

01

프롬프트 캐싱

최대 90% 입력 비용 절감

제공업체 방식 캐시 유지 절감율
OpenAI 자동 (1,024+ 토큰) 5-10분 (5.1 시리즈 24시간) 50%
Anthropic 수동 (cache_control) 5분 (1시간 옵션) 90%
Google 수동 (CachedContent) 1시간 (커스텀) 90%
Anthropic 캐싱 구현
response = client.messages.create(
    model="claude-sonnet-4-5-20250514",
    system=[{
        "type": "text",
        "text": "긴 시스템 프롬프트...",
        "cache_control": {"type": "ephemeral"}
    }],
    messages=[{"role": "user", "content": "질문"}]
)
💡 캐싱 베스트 프랙티스

정적 콘텐츠(시스템 메시지, 예시)를 앞에, 동적 콘텐츠(사용자 입력)를 뒤에 배치하세요. 캐시 유효 기간 내 3-5회 이상 호출 시 이득입니다.

02

프롬프트 엔지니어링

간결한 지시문으로 15-30% 절감

기법 절감율 설명
간결한 지시문 15-30% 불필요한 설명 제거
Few-shot 최적화 20-40% 예시 수 최소화
출력 형식 지정 20-30% JSON 스키마, 길이 제한
컨텍스트 압축 30-50% 긴 문서 요약 후 전달
⚠️ 출력 토큰 관리 (가장 중요!)

출력 토큰은 입력 토큰보다 3-10배 비쌉니다. max_tokens를 적절히 설정하고 프롬프트에서 "3문장으로 답변하세요"처럼 명시하세요.

03

배치 처리와 RAG

비실시간 작업 최적화

배치 API

모든 주요 제공업체에서 50% 할인

대량 콘텐츠 생성, 데이터 분류, 테스트 생성에 적합

RAG (검색 증강)

전체 문서 대비 90-95% 절감

50,000 토큰 → 2,500 토큰 (상위 5개 청크)

📌 최적화 조합 효과
  • 프롬프트 엔지니어링: 15-30%
  • + 프롬프트 캐싱: 50-70%
  • + 모델 라우팅: 60-80%
  • + 응답 캐싱: 70-85%
SUMMARY

핵심 요약

  • 프롬프트 캐싱: Anthropic/Google에서 90% 입력 비용 절감
  • 출력 토큰 제어가 가장 효과적인 비용 절감 수단
  • 배치 API: 비실시간 작업에서 50% 할인
  • RAG: 전체 문서 대신 관련 청크만 전달로 95% 절감