PART 1 · 강의 3/5
추론 능력의 실체
GSM-Symbolic 연구로 밝혀진 "추론의 환상"
01
GSM-Symbolic 연구의 충격적 발견
ICLR 2025에서 발표된 LLM 추론 능력 분석
관련 있어 보이는 절 하나 추가만으로
65% 하락
동일한 수학 문제에서 무관한 정보 하나만 추가해도 성능이 급격히 하락
🔢
숫자만 변경
문제의 숫자만 바꿔도 모든 모델의 성능 하락
📋
무관한 정보 추가
관련 있어 보이는 절 하나로 최대 65% 성능 하락
🔁
일관성 부재
동일 문제를 여러 번 제시해도 답변 불일치
"현재 LLM은 진정한 논리적 추론을 수행할 수 없다; 훈련 데이터에서 추론 단계를 복제할 뿐이다."
- GSM-Symbolic 논문, ICLR 2025
예시: 숫자만 변경한 경우
원본: "철수는 사과 5개를 가지고 있고, 영희에게 2개를 줬습니다. 남은 사과는?" → 정답: 3개 (정확)
변형: "철수는 사과 7개를 가지고 있고, 영희에게 4개를 줬습니다. 남은 사과는?" → 오답 빈도 증가
02
"추론의 환상" (Reasoning Illusion)
진정한 추론이 아닌 패턴 복제의 증거
왜 AI가 "추론하는 것처럼" 보이는가?
- 훈련 데이터에 수많은 추론 예시가 포함되어 있음
- AI는 이러한 예시의 형식과 패턴을 학습
- 유사한 문제에서는 학습된 패턴을 재현하여 정답처럼 보임
- 그러나 새로운 변형에서는 패턴 매칭 실패
진정한 추론 vs 패턴 매칭
| 특성 | 진정한 추론 | AI의 패턴 매칭 |
|---|---|---|
| 새로운 문제 | 원리 적용 가능 | 유사 패턴 없으면 실패 |
| 변형된 조건 | 유연하게 적응 | 성능 급락 |
| 일관성 | 동일 입력 = 동일 출력 | 확률적 변동 |
| 무관한 정보 | 무시 가능 | 혼란 초래 |
핵심 통찰
AI가 수학 문제를 "푸는 것"이 아니라, 수학 문제와 답 사이의 통계적 연관성을 재현하는 것입니다. 숫자나 조건이 변하면 이 연관성이 깨지므로 성능이 하락합니다.
03
수학/계산 능력의 근본적 한계
토큰화와 다단계 추론의 문제
근본적인 문제: 토큰화
숫자 123456.45가 입력되면 LLM은 이를 "123", "456", ".45" 등의 토큰으로 분리합니다. 이 토큰화는 데이터 학습 시 편향과 체계적 오류를 추가합니다.
구체적 실패 사례
| 문제 유형 | 실패 원인 |
|---|---|
| "strawberry"에서 'r' 개수 세기 | 문자가 아닌 토큰 단위 처리 |
| 큰 수 곱셈 (예: 48,793 x 7,604) | 자릿수 올림 전파 불일관 |
| 다단계 수학 추론 | 각 단계에서 오류 누적 |
MATH 테스트 결과 (2024-2025)
25%
Gemini-2.5-PRO도 평균 25%에 불과, 다른 유명 모델은 5% 미만
해결 방안
- 외부 계산기 도구 연동: 모델이 공식/단계를 계획하고, 실제 계산은 계산기가 수행
- 기호 추론 엔진 통합: 신경망과 기호 추론의 하이브리드 접근
- 수학 데이터셋 파인튜닝: 특화 훈련으로 성능 향상
SUMMARY
핵심 요약
- GSM-Symbolic 발견 - 숫자만 바꿔도 성능 하락, 무관한 정보 추가 시 최대 65% 성능 저하
- 추론의 환상 - AI는 진정한 논리적 추론이 아닌, 훈련 데이터의 추론 단계를 복제
- 패턴 매칭 한계 - 새로운 변형이나 조건 변경에 취약, 일관성 부재
- 토큰화 문제 - 숫자를 토큰으로 분리하여 처리하므로 수학 계산에 체계적 오류 발생
- 실용적 조언 - 수학/계산 작업은 외부 도구와 연동, AI 추론 결과는 반드시 검증