PART 4 · 강의 1/5
품질 판단의 4대 기준
AI 결과물을 체계적으로 평가하는 핵심 프레임워크
01
왜 평가가 중요한가
AI 결과물을 무비판적으로 수용하면 안 되는 이유
1/3
의 AI 사용자가 이미 부정확한 답변을 경험 (2025 Deloitte)
"AI 모델은 종종 과신(overconfidence) 상태에서 틀린 답변을 제공합니다. GPT-4의 경우 응답의 87%에 최고 신뢰도 점수를 부여했지만, 그중 상당수가 사실과 달랐습니다."
- AI 아웃풋 평가 리서치 (2026)
핵심 인사이트
- 환각(Hallucination)은 불가피 - 최신 모델도 0.8~0.9% 환각률 존재
- AI는 "모른다"고 말하지 않음 - 항상 무언가를 생성하도록 훈련됨
- 검증 시간 필요 - 업계 모범 사례는 개발 시간의 30~40%를 검증에 할당
핵심 마인드셋
AI를 "완벽한 도구"가 아닌 "검증이 필요한 초안 생성기"로 인식하세요.
02
4대 평가 기준
정확성, 관련성, 완전성, 일관성
1
정확성 (Accuracy)
정보가 신뢰할 수 있는 출처에 의해 검증 가능한가?
AI가 제시한 사실, 수치, 인용이 실제와 일치하는지 확인합니다. 특히 통계, 날짜, 이름 등 구체적 정보에 주의가 필요합니다.
외부 출처 대조
팩트체크 도구 사용
원본 문서 확인
2
관련성 (Relevance)
응답이 사용자의 질문에 직접적으로 대응하는가?
AI가 질문과 무관한 내용을 포함하거나, 핵심을 벗어난 답변을 하지 않았는지 확인합니다. 정확하더라도 관련 없으면 무용합니다.
질문-응답 정렬 확인
주제 이탈 여부 체크
핵심 요점 포함 확인
3
완전성 (Completeness)
모든 관련 부분을 빠짐없이 다루었는가?
복잡한 질문의 경우 AI가 일부만 답하고 나머지를 누락하는 경우가 있습니다. 다중 부분 쿼리의 모든 요소가 충족되었는지 확인하세요.
체크리스트 검토
다중 요소 확인
후속 질문 필요성 평가
4
일관성 (Coherence)
논리적 흐름과 일관된 톤을 유지하는가?
문장 간 논리적 연결이 자연스럽고, 전체 텍스트가 모순 없이 일관된 메시지를 전달하는지 확인합니다.
전체 구조 검토
내부 모순 확인
톤 일관성 체크
03
분야별 정확도 요구 수준
모든 분야에 같은 기준을 적용하지 마세요
| 분야 | 요구 정확도 | 비고 |
|---|---|---|
| 의료/법률 | 거의 완벽 | 규정 준수 필수, 오류 시 심각한 결과 |
| 금융 서비스 | 높음 | 규제 컴플라이언스 체크 필요 |
| 고객 서비스 | 중간 | 의도 이해와 맥락 유지에 초점 |
| 창작/마케팅 | 유연함 | 창의성과 정확성 균형 |
주의: 고위험 분야
의료, 법률, 금융 분야에서 AI 결과물을 검증 없이 사용하면 법적 책임과 심각한 피해로 이어질 수 있습니다. 반드시 전문가 검토를 거치세요.
04
평가 프레임워크
체계적인 평가를 위한 검증된 방법론
G-Eval 접근법
- Chain-of-Thought 추론으로 평가 기준 생성
- 1~5점 척도로 출력물 점수화
- 완전성, 정확성, 관련성을 별도 평가자로 분리 권장
RAGAS 프레임워크 (RAG 시스템용)
- Faithfulness(충실성): 제공된 문서에 의해 지지되는 주장의 비율
- Context Relevancy(맥락 관련성): 검색된 맥락 중 쿼리와 관련된 비율
- Answer Relevancy(답변 관련성): 답변이 주제에 맞는지 평가
Criteria-Eval (복잡한 장문 답변용)
- 도메인 전문가가 작성한 Yes/No 체크리스트 사용
- 사실적 정확성, 완전성, 포맷 등을 객관적으로 평가
- 주관적 판단을 최소화한 구조화된 평가
SUMMARY
핵심 요약
- 4대 기준 - 정확성, 관련성, 완전성, 일관성으로 체계적 평가
- 분야별 수준 - 고위험 분야일수록 더 엄격한 검증 필요
- 검증 시간 투자 - 개발 시간의 30~40%를 검증에 할당
- 마인드셋 - AI 결과물은 "검증 필요한 초안"으로 취급
Quick Checklist
정확성: 출처로 검증 가능? | 관련성: 질문에 답했나? | 완전성: 빠진 부분 없나? | 일관성: 논리적 흐름?