PART 3 · 강의 1/6

프롬프트가 작동하는 원리

토큰화, 임베딩, Self-Attention, 그리고 In-Context Learning의 메커니즘

01

LLM이 프롬프트를 처리하는 방식

텍스트에서 응답까지의 여정

프롬프트가 LLM에 입력되면 여러 처리 단계를 거칩니다. 이 과정을 이해하면 왜 특정 프롬프트 기법이 효과적인지 알 수 있습니다.

텍스트 입력
"요약해줘"
토큰화
단어 조각으로 분해
임베딩
숫자 벡터로 변환
Self-Attention
관계 분석
다음 토큰 예측
확률 기반 생성

"입력을 모델이 이해하고 처리할 수 있는 형식으로 변환해야 합니다. 임베딩이 바로 이 역할을 합니다: 텍스트를 모델이 작업할 수 있는 수치적 표현으로 변환합니다."

- Transformer Explainer
📌 핵심 단계
  • 토큰화 — 텍스트를 토큰(단어 조각)으로 분해
  • 임베딩 — 토큰을 고차원 벡터로 변환하여 의미 표현
  • 위치 정보 추가 — 토큰의 순서 정보 인코딩
  • Self-Attention — 토큰 간 관계를 분석하여 맥락 이해
  • 다음 토큰 예측 — 확률 분포에서 가장 적절한 다음 토큰 선택
02

Self-Attention 메커니즘

LLM이 문맥을 이해하는 방법

Self-Attention은 Transformer의 핵심 혁신입니다. 각 단어에 현재 태스크와의 관련성에 따라 가중치를 부여하여, 중요한 정보에 더 집중할 수 있게 합니다.

"고양이"를 예측할 때 Attention 가중치
"그 작고 귀여운 동물은 야옹하고 울었다."
작고 귀여운 동물은 야옹 하고 울었다

→ "작고 귀여운", "야옹"에 높은 가중치 → "고양이" 예측

장거리 의존성 포착

문장에서 멀리 떨어진 단어들 사이의 관계도 파악할 수 있습니다. 예: "그녀는... 그녀의"에서 대명사와 선행사 연결

맥락 기반 의미 파악

"bank"가 "은행"인지 "강둑"인지를 주변 단어들(돈, 물)을 통해 결정합니다.

병렬 처리 가능

RNN과 달리 모든 위치를 동시에 처리할 수 있어 훈련 속도가 빠릅니다.

프롬프트 위치의 중요성

긴 프롬프트에서 모델은 시작과 끝에 더 많은 가중치를 부여하는 경향이 있습니다.

💡 실무 팁: 지시문 배치

긴 프롬프트에서 중요한 지시는 맨 앞이나 맨 뒤에 배치하세요. 중간에 있는 정보는 상대적으로 덜 주목받을 수 있습니다.

03

In-Context Learning (ICL)

프롬프트 안에서 학습하는 능력

In-Context Learning은 LLM이 프롬프트에 제공된 예시로부터 파라미터 변경 없이 새로운 태스크를 수행하는 능력입니다. GPT-3 논문 "Language Models are Few-Shot Learners"에서 도입된 핵심 개념입니다.

ICL 예시: 감성 분류
리뷰: "정말 최고의 영화였어요!" → 긍정
리뷰: "시간 낭비였습니다." → 부정
리뷰: "배우 연기가 훌륭했어요" →
긍정

→ 예시 패턴을 학습하여 새로운 입력에 적용

ICL이 작동하는 이유

패턴 위치 지정

프롬프트가 사전 학습된 방대한 패턴 중 관련된 것을 "위치 지정(locate)"하여 활성화합니다.

Induction Heads

Anthropic 연구에 따르면, Transformer 내부의 "induction head"라는 회로가 패턴 매칭을 수행합니다.

"사전 학습된 모델이 충분히 큰 규모의 사전 학습 단계나 모델 파라미터에 도달할 때 emergent ICL 능력을 획득합니다. 연구에 따르면 LLM의 파라미터가 0.1B에서 175B로 증가함에 따라 ICL 능력이 성장합니다."

- Hopsworks MLOps Dictionary
📌 ICL 성능에 영향을 미치는 요소
  • 입력 분포 — 예시의 입력이 어떤 분포에서 오는가
  • 출력 공간 — 태스크의 가능한 출력(클래스, 선택지)의 집합
  • 데모 형식 — 예시가 어떻게 구조화되어 있는가
  • 모델 규모 — 일정 규모 이상에서만 효과적
04

왜 명확한 지시가 더 좋은 결과를 내는가

모호성이 성능을 저하시키는 기술적 이유

LLM은 확률적으로 다음 토큰을 예측합니다. 프롬프트가 모호하면 확률 분포가 넓게 퍼져 원하는 결과를 얻기 어렵습니다.

확률 분포 집중

명확한 지시는 모델의 출력 확률 분포를 원하는 응답 유형으로 좁힙니다.

관련 패턴 활성화

구체적인 맥락이 학습 데이터에서 관련 패턴을 더 정확하게 활성화합니다.

해석 범위 축소

일반적인 지시는 무한한 해석 가능성을 열어두어 예측 불가능한 결과를 초래합니다.

오류 감소

모호함이 줄어들면 모델이 잘못된 방향으로 가는 확률이 낮아집니다.

"불명확한 지시가 AI 모델을 혼란스럽게 하면 오류나 다양한 응답으로 이어집니다. Qwen1.5-7B나 Flan-PaLM 2 같은 모델은 모호한 프롬프트에서 저조한 성능을 보이지만, 명확한 표현으로 크게 개선됩니다."

- Lakera Prompt Engineering Guide
⚠️ 핵심 인사이트

대부분의 프롬프트 실패는 모델의 한계가 아닌 지시의 모호함에서 비롯됩니다. "마법의 문구"를 찾기보다 명확하게 소통하는 것이 훨씬 효과적입니다.

SUMMARY

핵심 요약

  • 프롬프트 처리 과정: 토큰화 → 임베딩 → Self-Attention → 다음 토큰 예측
  • Self-Attention: 각 단어에 관련성 기반 가중치를 부여하여 맥락 이해
  • In-Context Learning: 프롬프트 내 예시로부터 파라미터 변경 없이 학습
  • 명확한 지시: 확률 분포를 좁혀 원하는 결과 확률 증가
  • 중요한 지시 배치: 긴 프롬프트에서 시작과 끝에 핵심 내용 배치