1-1. AI가 잘하는 것 | AI 실전 활용

01

번역: 기계가 인간을 능가하다

WMT24 컨퍼런스에서 증명된 AI 번역의 우위

2024년 기계번역 컨퍼런스(WMT24)에서 242개 번역 시스템을 평가한 결과, LLM 기반 번역이 전통적인 신경망 기계번역(NMT)을 일관되게 능가했습니다.

9개

Claude 3.5-Sonnet 1위 언어 쌍

5개

GPT-4 1위 언어 쌍

242개

평가된 번역 시스템

핵심 포인트

기술/전문 번역에서 특히 강점을 보이며, 문맥 이해 기반 번역으로 기존 MT 대비 자연스러운 결과를 생성합니다. 대다수 참가 팀이 번역 시스템에 LLM을 통합했습니다.

02

코딩: 벤치마크의 급격한 발전

SWE-bench에서 1.96%에서 76%로, 38배 성장

벤치마크	2023년 초	2026년 1월	개선율
SWE-bench Verified	1.96%	76.1%	38배
SWE-bench Pro	-	45.9% (Claude Opus 4.5)	신규 벤치마크
HumanEval	~67%	~95%+	포화 상태

💻 SWE-bench 최신 결과 (2026년 1월)

Verdent가 plan-code-verify 루프로 76.1% 해결률 달성. SWE-bench Pro에서는 Claude Opus 4.5 (45.9%), Gemini 3 Pro (43.3%), GPT-5 (41.8%)가 선두. 매월 업데이트되는 SWE-bench Live로 오염 없는 평가 진행 중.

주의 사항

벤치마크 성능이 실제 개발 능력과 동일하지 않습니다. 단순 함수 생성은 잘하지만, 대규모 코드베이스 이해와 장기 프로젝트는 여전히 어렵습니다.

03

단기 작업: 인간의 4배 성능

2시간 이내 작업에서 AI의 압도적 우위

METR Research와 Stanford HAI의 연구에 따르면, 작업 시간에 따라 AI와 인간의 성능이 극적으로 역전됩니다.

2시간 이내 작업

AI가 인간의 4배

짧고 명확한 작업에서 AI 우위

32시간 장기 작업

인간이 AI의 2배

복잡한 장기 프로젝트는 인간 우위

작업 시간	AI 성공률	비고
4분 미만	~100%	거의 완벽
2시간	인간의 4배	AI 우위
4시간+	10% 미만	급격한 하락
32시간	인간의 0.5배	인간 우위

성장 트렌드

AI가 처리 가능한 작업 길이가 약 7개월마다 2배로 증가하는 지수적 성장을 보이고 있습니다. 2025년 기준 o4-mini가 32시간 작업에서 인간 전문가 중앙값을 최초로 초과했습니다.

SUMMARY

핵심 요약

번역 분야 - WMT24에서 Claude 3.5-Sonnet이 9개 언어 쌍 1위, 기술/전문 번역에서 특히 우수
코딩 분야 - SWE-bench 성능 38배 향상(1.96% → 75%), 단 벤치마크와 실무는 다름
단기 작업 - 2시간 이내 작업에서 인간의 4배 성능, 4분 미만은 거의 완벽
역전 현상 - 4시간 이상 장기 작업에서는 성공률 10% 미만으로 급락
활용 전략 - AI는 짧고 명확한 작업에 활용, 장기 프로젝트는 인간 주도로 진행