PART 1 · 강의 3/5

추론 능력의 실체

GSM-Symbolic 연구로 밝혀진 "추론의 환상"

01

GSM-Symbolic 연구의 충격적 발견

ICLR 2025에서 발표된 LLM 추론 능력 분석

관련 있어 보이는 절 하나 추가만으로
65% 하락
동일한 수학 문제에서 무관한 정보 하나만 추가해도 성능이 급격히 하락
🔢

숫자만 변경

문제의 숫자만 바꿔도 모든 모델의 성능 하락

📋

무관한 정보 추가

관련 있어 보이는 절 하나로 최대 65% 성능 하락

🔁

일관성 부재

동일 문제를 여러 번 제시해도 답변 불일치

"현재 LLM은 진정한 논리적 추론을 수행할 수 없다; 훈련 데이터에서 추론 단계를 복제할 뿐이다."

- GSM-Symbolic 논문, ICLR 2025
예시: 숫자만 변경한 경우
원본: "철수는 사과 5개를 가지고 있고, 영희에게 2개를 줬습니다. 남은 사과는?" → 정답: 3개 (정확)
변형: "철수는 사과 7개를 가지고 있고, 영희에게 4개를 줬습니다. 남은 사과는?" → 오답 빈도 증가
02

"추론의 환상" (Reasoning Illusion)

진정한 추론이 아닌 패턴 복제의 증거

왜 AI가 "추론하는 것처럼" 보이는가?

  • 훈련 데이터에 수많은 추론 예시가 포함되어 있음
  • AI는 이러한 예시의 형식과 패턴을 학습
  • 유사한 문제에서는 학습된 패턴을 재현하여 정답처럼 보임
  • 그러나 새로운 변형에서는 패턴 매칭 실패

진정한 추론 vs 패턴 매칭

특성 진정한 추론 AI의 패턴 매칭
새로운 문제 원리 적용 가능 유사 패턴 없으면 실패
변형된 조건 유연하게 적응 성능 급락
일관성 동일 입력 = 동일 출력 확률적 변동
무관한 정보 무시 가능 혼란 초래
핵심 통찰

AI가 수학 문제를 "푸는 것"이 아니라, 수학 문제와 답 사이의 통계적 연관성을 재현하는 것입니다. 숫자나 조건이 변하면 이 연관성이 깨지므로 성능이 하락합니다.

03

수학/계산 능력의 근본적 한계

토큰화와 다단계 추론의 문제

근본적인 문제: 토큰화

숫자 123456.45가 입력되면 LLM은 이를 "123", "456", ".45" 등의 토큰으로 분리합니다. 이 토큰화는 데이터 학습 시 편향과 체계적 오류를 추가합니다.

구체적 실패 사례

문제 유형 실패 원인
"strawberry"에서 'r' 개수 세기 문자가 아닌 토큰 단위 처리
큰 수 곱셈 (예: 48,793 x 7,604) 자릿수 올림 전파 불일관
다단계 수학 추론 각 단계에서 오류 누적
MATH 테스트 결과 (2024-2025)
25%
Gemini-2.5-PRO도 평균 25%에 불과, 다른 유명 모델은 5% 미만
해결 방안
  • 외부 계산기 도구 연동: 모델이 공식/단계를 계획하고, 실제 계산은 계산기가 수행
  • 기호 추론 엔진 통합: 신경망과 기호 추론의 하이브리드 접근
  • 수학 데이터셋 파인튜닝: 특화 훈련으로 성능 향상
SUMMARY

핵심 요약

  • GSM-Symbolic 발견 - 숫자만 바꿔도 성능 하락, 무관한 정보 추가 시 최대 65% 성능 저하
  • 추론의 환상 - AI는 진정한 논리적 추론이 아닌, 훈련 데이터의 추론 단계를 복제
  • 패턴 매칭 한계 - 새로운 변형이나 조건 변경에 취약, 일관성 부재
  • 토큰화 문제 - 숫자를 토큰으로 분리하여 처리하므로 수학 계산에 체계적 오류 발생
  • 실용적 조언 - 수학/계산 작업은 외부 도구와 연동, AI 추론 결과는 반드시 검증