PART 4 · 강의 3/6
모델 선택 전략
성능 vs 비용 vs 지연시간, 70/30 라우팅 전략
01
트레이드오프 삼각형
성능, 비용, 지연시간의 균형
성능/품질
복잡한 추론, 코딩, 창의적 작업
Claude Opus, GPT-5 Pro
비용 효율
대량 처리, 예산 제약
DeepSeek V3, Gemini Flash
지연시간
실시간 응답, 음성 에이전트
GPT-4.1-nano, Gemini Flash-Lite
💡 핵심 질문
"어떤 모델이 최고인가?"가 아니라 "어떤 차원이 가장 중요한가?"를 먼저 결정하세요.
02
사용 사례별 모델 선택
용도에 맞는 최적 모델
| 사용 사례 | 우선순위 | 권장 모델 |
|---|---|---|
| 실시간 챗봇 | 지연시간 > 비용 | GPT-4o-mini, Claude Haiku, Gemini Flash |
| 음성 에이전트 | 지연시간 >>> 비용 | Gemini Flash-Lite, GPT-4.1-nano |
| 코드 생성 | 성능 > 지연시간 | Claude Opus 4.5, GPT-4.1 |
| 문서 요약 | 비용 > 성능 | DeepSeek V3, Mistral Medium |
| 복잡한 추론 | 성능 >>> 비용 | GPT-5 Pro, Claude Opus 4.1 |
03
지연시간 벤치마크
TTFT와 출력 속도
| 모델 카테고리 | TTFT | 토큰/초 |
|---|---|---|
| 초고속 (Flash/Nano) | 50-150ms | 100-200 |
| 표준 (GPT-4o, Sonnet) | 200-500ms | 50-100 |
| 대형 (Opus, GPT-5 Pro) | 500-2000ms | 30-60 |
| 추론 모델 (o1, R1) | 2-30초 | 가변 |
⚠️ 지연시간 요구사항
- 채팅 에이전트: 2초까지 허용
- 음성 에이전트: 500ms 이하 필수 (800ms 최대)
- 배치 작업: 제한 없음
SUMMARY
핵심 요약
- 성능/비용/지연시간 중 가장 중요한 차원을 먼저 결정
- 음성 에이전트는 500ms 이하 TTFT 필수
- 코드 생성에는 Claude Opus 4.5가 최고 성능
- 비용 효율성: DeepSeek V3 > Gemini Flash > GPT-4o-mini