PART 4 · 강의 5/6
SLM 활용 전략
Phi-4, Gemma 2, Llama 3.2 - 90% 비용 절감
01
SLM이란?
Small Language Model의 강력한 가능성
SLM(Small Language Model)은 1-13B 파라미터 규모의 모델로, 특정 작업에서 대형 모델에 필적하는 성능을 제공합니다.
📱 엣지 디바이스 실행
스마트폰, 태블릿, IoT에서 실행 가능
⚡ 실시간 성능
낮은 지연시간으로 즉각적 응답
🔒 완전한 프라이버시
데이터가 디바이스를 떠나지 않음
💰 클라우드 비용 제거
API 호출 비용 없음
02
주요 SLM 비교
2026년 1월 기준
| 모델 | 파라미터 | MMLU-Pro | 특징 |
|---|---|---|---|
| Microsoft Phi-4 | 14B | 52.8% | 복잡한 추론, 수학 특화 |
| Qwen 2.5 | 7B | 56.2% | 종합 성능 최고 |
| Google Gemma 2 | 9B | 50.1% | HuggingFace 통합 |
| Gemma 3n | 5B (2B 메모리) | - | 멀티모달, 140+ 언어 |
| Llama 3.2 | 3B | 45% | 경량 텍스트 |
03
SLM 적합 사용 사례
90% 비용 절감 가능한 작업들
| 사용 사례 | 권장 SLM | 이유 |
|---|---|---|
| 텍스트 분류 | Phi-4 mini | 빠른 추론, 높은 정확도 |
| 감성 분석 | Qwen 2.5 3B | 다국어 지원 |
| 코드 완성 | DeepSeek Coder 6.7B | 코딩 특화 |
| 요약 | Gemma 2 9B | 균형잡힌 성능 |
| 엣지/모바일 | Gemma 3n 2B | 최소 메모리 |
| 라우팅/분류 | Phi-4 mini | 빠른 의사결정 |
Ollama로 SLM 실행
# 설치
curl -fsSL https://ollama.com/install.sh | sh
# 모델 실행
ollama run phi4:14b
# Python에서 사용
import ollama
response = ollama.chat(model='phi4:14b', messages=[
{'role': 'user', 'content': '텍스트 분류: ...'}
])
SUMMARY
핵심 요약
- SLM: 1-13B 파라미터로 특정 작업에서 LLM급 성능
- Qwen 2.5 7B: 종합 성능 최고 (MMLU-Pro 56.2%)
- Phi-4: 추론과 수학에 특화
- SLM으로 단순 작업 대체 시 90% 비용 절감 가능