AI가 잘하는 것
번역, 코딩, 단기 작업에서 AI의 실제 성능과 벤치마크 결과 분석
번역: 기계가 인간을 능가하다
WMT24 컨퍼런스에서 증명된 AI 번역의 우위
2024년 기계번역 컨퍼런스(WMT24)에서 242개 번역 시스템을 평가한 결과, LLM 기반 번역이 전통적인 신경망 기계번역(NMT)을 일관되게 능가했습니다.
기술/전문 번역에서 특히 강점을 보이며, 문맥 이해 기반 번역으로 기존 MT 대비 자연스러운 결과를 생성합니다. 대다수 참가 팀이 번역 시스템에 LLM을 통합했습니다.
코딩: 벤치마크의 급격한 발전
SWE-bench에서 1.96%에서 76%로, 38배 성장
| 벤치마크 | 2023년 초 | 2026년 1월 | 개선율 |
|---|---|---|---|
| SWE-bench Verified | 1.96% | 76.1% | 38배 |
| SWE-bench Pro | - | 45.9% (Claude Opus 4.5) | 신규 벤치마크 |
| HumanEval | ~67% | ~95%+ | 포화 상태 |
💻 SWE-bench 최신 결과 (2026년 1월)
Verdent가 plan-code-verify 루프로 76.1% 해결률 달성. SWE-bench Pro에서는 Claude Opus 4.5 (45.9%), Gemini 3 Pro (43.3%), GPT-5 (41.8%)가 선두. 매월 업데이트되는 SWE-bench Live로 오염 없는 평가 진행 중.
벤치마크 성능이 실제 개발 능력과 동일하지 않습니다. 단순 함수 생성은 잘하지만, 대규모 코드베이스 이해와 장기 프로젝트는 여전히 어렵습니다.
단기 작업: 인간의 4배 성능
2시간 이내 작업에서 AI의 압도적 우위
METR Research와 Stanford HAI의 연구에 따르면, 작업 시간에 따라 AI와 인간의 성능이 극적으로 역전됩니다.
짧고 명확한 작업에서 AI 우위
복잡한 장기 프로젝트는 인간 우위
| 작업 시간 | AI 성공률 | 비고 |
|---|---|---|
| 4분 미만 | ~100% | 거의 완벽 |
| 2시간 | 인간의 4배 | AI 우위 |
| 4시간+ | 10% 미만 | 급격한 하락 |
| 32시간 | 인간의 0.5배 | 인간 우위 |
AI가 처리 가능한 작업 길이가 약 7개월마다 2배로 증가하는 지수적 성장을 보이고 있습니다. 2025년 기준 o4-mini가 32시간 작업에서 인간 전문가 중앙값을 최초로 초과했습니다.
핵심 요약
- 번역 분야 - WMT24에서 Claude 3.5-Sonnet이 9개 언어 쌍 1위, 기술/전문 번역에서 특히 우수
- 코딩 분야 - SWE-bench 성능 38배 향상(1.96% → 75%), 단 벤치마크와 실무는 다름
- 단기 작업 - 2시간 이내 작업에서 인간의 4배 성능, 4분 미만은 거의 완벽
- 역전 현상 - 4시간 이상 장기 작업에서는 성공률 10% 미만으로 급락
- 활용 전략 - AI는 짧고 명확한 작업에 활용, 장기 프로젝트는 인간 주도로 진행