PART 4 · 강의 3/6

모델 선택 전략

성능 vs 비용 vs 지연시간, 70/30 라우팅 전략

01

트레이드오프 삼각형

성능, 비용, 지연시간의 균형

성능/품질

복잡한 추론, 코딩, 창의적 작업

Claude Opus, GPT-5 Pro

비용 효율

대량 처리, 예산 제약

DeepSeek V3, Gemini Flash

지연시간

실시간 응답, 음성 에이전트

GPT-4.1-nano, Gemini Flash-Lite

💡 핵심 질문

"어떤 모델이 최고인가?"가 아니라 "어떤 차원이 가장 중요한가?"를 먼저 결정하세요.

02

사용 사례별 모델 선택

용도에 맞는 최적 모델

사용 사례 우선순위 권장 모델
실시간 챗봇 지연시간 > 비용 GPT-4o-mini, Claude Haiku, Gemini Flash
음성 에이전트 지연시간 >>> 비용 Gemini Flash-Lite, GPT-4.1-nano
코드 생성 성능 > 지연시간 Claude Opus 4.5, GPT-4.1
문서 요약 비용 > 성능 DeepSeek V3, Mistral Medium
복잡한 추론 성능 >>> 비용 GPT-5 Pro, Claude Opus 4.1
03

지연시간 벤치마크

TTFT와 출력 속도

모델 카테고리 TTFT 토큰/초
초고속 (Flash/Nano) 50-150ms 100-200
표준 (GPT-4o, Sonnet) 200-500ms 50-100
대형 (Opus, GPT-5 Pro) 500-2000ms 30-60
추론 모델 (o1, R1) 2-30초 가변
⚠️ 지연시간 요구사항
  • 채팅 에이전트: 2초까지 허용
  • 음성 에이전트: 500ms 이하 필수 (800ms 최대)
  • 배치 작업: 제한 없음
SUMMARY

핵심 요약

  • 성능/비용/지연시간 중 가장 중요한 차원을 먼저 결정
  • 음성 에이전트는 500ms 이하 TTFT 필수
  • 코드 생성에는 Claude Opus 4.5가 최고 성능
  • 비용 효율성: DeepSeek V3 > Gemini Flash > GPT-4o-mini