Chain-of-Thought의 "왜"
단계적 추론이 효과적인 기술적 이유와 모델 규모의 중요성
Chain-of-Thought (CoT)란?
단계별 추론을 유도하는 프롬프팅 기법
Chain-of-Thought는 LLM에게 최종 답변 전에 중간 추론 과정을 명시적으로 생성하도록 유도하는 기법입니다. Jason Wei 등의 2022년 논문 "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models"에서 체계적으로 연구되었습니다.
Q: 가게에 사과 23개가 있었습니다. 15개를 팔고 8개를 더 받았습니다. 몇 개가 남았나요?
A: 16개
Q: 가게에 사과 23개가 있었습니다. 15개를 팔고 8개를 더 받았습니다. 몇 개가 남았나요?
A: 16개
Zero-shot CoT: "단계별로 생각해보세요" (Let's think step by step)
Few-shot CoT: 추론 과정이 포함된 예시를 프롬프트에 제공
CoT가 효과적인 이유
Attention 집중과 문제 분해의 메커니즘
Attention 집중
추론 단계가 모델의 attention을 현재 처리 중인 문제 부분에 집중시킵니다.
문제 분해
복잡한 문제를 작은 단계로 나눠 한 번에 하나씩 처리합니다.
중간 결과 활용
이전 단계의 출력이 다음 단계의 맥락으로 작용합니다.
"CoT가 효과적인 이유는 LLM의 attention 메커니즘을 집중시키는 데 도움이 되기 때문입니다. 추론 과정의 분해가 모델이 한 번에 문제의 한 부분에만 집중하게 하여, 너무 많은 정보를 동시에 처리할 때 발생할 수 있는 오류 위험을 최소화합니다."
Google의 "Towards Understanding Chain-of-Thought Prompting" (ACL 2023) 연구에서 흥미로운 사실이 밝혀졌습니다:
- 무효한 추론 단계로도 CoT 성능의 80-90%를 달성 가능
- 추론의 "정확성"보다 "관련성"과 "순서"가 더 중요
- 단계별로 "생각하는 것처럼 보이는" 구조 자체가 효과를 냄
"CoT 프롬프트가 LLM에서 이끌어내는 추론의 겉모습이 모델이 생각하고 있다는 것을 의미하지는 않습니다. 모델은 확률에 기반하여 텍스트 시퀀스를 예측하도록 훈련된 딥러닝 신경망이라는 것을 기억하세요."
모델 규모의 중요성
~100B+ 파라미터에서만 효과적
CoT는 모든 모델에서 효과적인 것이 아닙니다. 연구에 따르면 약 100B 파라미터 이상의 모델에서만 의미 있는 성능 향상이 나타납니다.
모델 규모별 CoT 효과
"CoT는 ~100B 파라미터 모델에서만 성능 향상을 가져옵니다. 더 작은 모델은 비논리적인 사고 연쇄를 작성하여 표준 프롬프팅보다 더 낮은 정확도를 보입니다."
- GPT-4, Claude 3, Gemini Pro 등 대형 모델에서 CoT 활용
- 소형 모델에서는 오히려 직접적인 프롬프트가 효과적일 수 있음
- 모델 크기를 모르는 경우 두 방식 모두 테스트 권장
- 최신 "추론 특화 모델" (o1, Claude thinking)은 내부적으로 CoT 수행
효과적인 CoT 사용법
언제, 어떻게 사용해야 하는가
CoT가 효과적인 태스크
| 태스크 유형 | 예시 | CoT 효과 |
|---|---|---|
| 산술 추론 | 다단계 수학 문제 | 매우 효과적 |
| 상식 추론 | 인과관계 분석 | 효과적 |
| 논리 퍼즐 | 추리, 제약 조건 문제 | 효과적 |
| 단순 분류 | 감성 분석, 카테고리 분류 | 불필요 |
| 창의적 글쓰기 | 시, 스토리 생성 | 무관 |
CoT 프롬프트 작성 팁
문제: [문제 내용]
풀이 과정:
1단계: 주어진 정보 파악
2단계: 필요한 계산/추론 수행
3단계: 결과 도출
최종 답:
• 순서를 명시: "1단계, 2단계..."로 구조화
• 관련성 유지: 각 단계가 문제와 관련되도록
• 불필요한 복잡성 피하기: 단순한 문제에는 사용하지 않음
핵심 요약
- Chain-of-Thought: 최종 답변 전 중간 추론 과정을 명시적으로 생성하도록 유도
- 효과 원리: Attention 집중, 문제 분해, 중간 결과 맥락 활용
- 모델 규모: ~100B 파라미터 이상에서만 유의미한 효과
- 연구 발견: 추론의 "정확성"보다 "관련성"과 "순서"가 더 중요
- 적합한 태스크: 산술 추론, 논리 퍼즐 등 다단계 추론이 필요한 문제