4-2. 토큰 비용 최적화 | AI 고급 실무

01

프롬프트 캐싱

최대 90% 입력 비용 절감

제공업체	방식	캐시 유지	절감율
OpenAI	자동 (1,024+ 토큰)	5-10분 (5.1 시리즈 24시간)	50%
Anthropic	수동 (cache_control)	5분 (1시간 옵션)	90%
Google	수동 (CachedContent)	1시간 (커스텀)	90%

Anthropic 캐싱 구현

response = client.messages.create(
    model="claude-sonnet-4-5-20250514",
    system=[{
        "type": "text",
        "text": "긴 시스템 프롬프트...",
        "cache_control": {"type": "ephemeral"}
    }],
    messages=[{"role": "user", "content": "질문"}]
)

💡 캐싱 베스트 프랙티스

정적 콘텐츠(시스템 메시지, 예시)를 앞에, 동적 콘텐츠(사용자 입력)를 뒤에 배치하세요. 캐시 유효 기간 내 3-5회 이상 호출 시 이득입니다.

02

프롬프트 엔지니어링

간결한 지시문으로 15-30% 절감

기법	절감율	설명
간결한 지시문	15-30%	불필요한 설명 제거
Few-shot 최적화	20-40%	예시 수 최소화
출력 형식 지정	20-30%	JSON 스키마, 길이 제한
컨텍스트 압축	30-50%	긴 문서 요약 후 전달

⚠️ 출력 토큰 관리 (가장 중요!)

출력 토큰은 입력 토큰보다 3-10배 비쌉니다. max_tokens를 적절히 설정하고 프롬프트에서 "3문장으로 답변하세요"처럼 명시하세요.

03

배치 처리와 RAG

비실시간 작업 최적화

배치 API

모든 주요 제공업체에서 50% 할인

대량 콘텐츠 생성, 데이터 분류, 테스트 생성에 적합

RAG (검색 증강)

전체 문서 대비 90-95% 절감

50,000 토큰 → 2,500 토큰 (상위 5개 청크)

📌 최적화 조합 효과

프롬프트 엔지니어링: 15-30%
+ 프롬프트 캐싱: 50-70%
+ 모델 라우팅: 60-80%
+ 응답 캐싱: 70-85%

SUMMARY

핵심 요약

프롬프트 캐싱: Anthropic/Google에서 90% 입력 비용 절감
출력 토큰 제어가 가장 효과적인 비용 절감 수단
배치 API: 비실시간 작업에서 50% 할인
RAG: 전체 문서 대신 관련 청크만 전달로 95% 절감