PART 4 · 강의 5/6

SLM 활용 전략

Phi-4, Gemma 2, Llama 3.2 - 90% 비용 절감

01

SLM이란?

Small Language Model의 강력한 가능성

SLM(Small Language Model)은 1-13B 파라미터 규모의 모델로, 특정 작업에서 대형 모델에 필적하는 성능을 제공합니다.

📱 엣지 디바이스 실행

스마트폰, 태블릿, IoT에서 실행 가능

⚡ 실시간 성능

낮은 지연시간으로 즉각적 응답

🔒 완전한 프라이버시

데이터가 디바이스를 떠나지 않음

💰 클라우드 비용 제거

API 호출 비용 없음

02

주요 SLM 비교

2026년 1월 기준

모델 파라미터 MMLU-Pro 특징
Microsoft Phi-4 14B 52.8% 복잡한 추론, 수학 특화
Qwen 2.5 7B 56.2% 종합 성능 최고
Google Gemma 2 9B 50.1% HuggingFace 통합
Gemma 3n 5B (2B 메모리) - 멀티모달, 140+ 언어
Llama 3.2 3B 45% 경량 텍스트
03

SLM 적합 사용 사례

90% 비용 절감 가능한 작업들

사용 사례 권장 SLM 이유
텍스트 분류 Phi-4 mini 빠른 추론, 높은 정확도
감성 분석 Qwen 2.5 3B 다국어 지원
코드 완성 DeepSeek Coder 6.7B 코딩 특화
요약 Gemma 2 9B 균형잡힌 성능
엣지/모바일 Gemma 3n 2B 최소 메모리
라우팅/분류 Phi-4 mini 빠른 의사결정
Ollama로 SLM 실행
# 설치
curl -fsSL https://ollama.com/install.sh | sh

# 모델 실행
ollama run phi4:14b

# Python에서 사용
import ollama
response = ollama.chat(model='phi4:14b', messages=[
    {'role': 'user', 'content': '텍스트 분류: ...'}
])
SUMMARY

핵심 요약

  • SLM: 1-13B 파라미터로 특정 작업에서 LLM급 성능
  • Qwen 2.5 7B: 종합 성능 최고 (MMLU-Pro 56.2%)
  • Phi-4: 추론과 수학에 특화
  • SLM으로 단순 작업 대체 시 90% 비용 절감 가능