PART 4 · 강의 2/6
토큰 비용 최적화
프롬프트 캐싱 90%, 배치 API 50% 비용 절감
01
프롬프트 캐싱
최대 90% 입력 비용 절감
| 제공업체 | 방식 | 캐시 유지 | 절감율 |
|---|---|---|---|
| OpenAI | 자동 (1,024+ 토큰) | 5-10분 (5.1 시리즈 24시간) | 50% |
| Anthropic | 수동 (cache_control) | 5분 (1시간 옵션) | 90% |
| 수동 (CachedContent) | 1시간 (커스텀) | 90% |
Anthropic 캐싱 구현
response = client.messages.create(
model="claude-sonnet-4-5-20250514",
system=[{
"type": "text",
"text": "긴 시스템 프롬프트...",
"cache_control": {"type": "ephemeral"}
}],
messages=[{"role": "user", "content": "질문"}]
)
💡 캐싱 베스트 프랙티스
정적 콘텐츠(시스템 메시지, 예시)를 앞에, 동적 콘텐츠(사용자 입력)를 뒤에 배치하세요. 캐시 유효 기간 내 3-5회 이상 호출 시 이득입니다.
02
프롬프트 엔지니어링
간결한 지시문으로 15-30% 절감
| 기법 | 절감율 | 설명 |
|---|---|---|
| 간결한 지시문 | 15-30% | 불필요한 설명 제거 |
| Few-shot 최적화 | 20-40% | 예시 수 최소화 |
| 출력 형식 지정 | 20-30% | JSON 스키마, 길이 제한 |
| 컨텍스트 압축 | 30-50% | 긴 문서 요약 후 전달 |
⚠️ 출력 토큰 관리 (가장 중요!)
출력 토큰은 입력 토큰보다 3-10배 비쌉니다. max_tokens를 적절히 설정하고 프롬프트에서 "3문장으로 답변하세요"처럼 명시하세요.
03
배치 처리와 RAG
비실시간 작업 최적화
배치 API
모든 주요 제공업체에서 50% 할인
대량 콘텐츠 생성, 데이터 분류, 테스트 생성에 적합
RAG (검색 증강)
전체 문서 대비 90-95% 절감
50,000 토큰 → 2,500 토큰 (상위 5개 청크)
📌 최적화 조합 효과
- 프롬프트 엔지니어링: 15-30%
- + 프롬프트 캐싱: 50-70%
- + 모델 라우팅: 60-80%
- + 응답 캐싱: 70-85%
SUMMARY
핵심 요약
- 프롬프트 캐싱: Anthropic/Google에서 90% 입력 비용 절감
- 출력 토큰 제어가 가장 효과적인 비용 절감 수단
- 배치 API: 비실시간 작업에서 50% 할인
- RAG: 전체 문서 대신 관련 청크만 전달로 95% 절감