4-1. 품질 판단의 4대 기준

01

왜 평가가 중요한가

AI 결과물을 무비판적으로 수용하면 안 되는 이유

1/3 의 AI 사용자가 이미 부정확한 답변을 경험 (2025 Deloitte)

"AI 모델은 종종 과신(overconfidence) 상태에서 틀린 답변을 제공합니다. GPT-4의 경우 응답의 87%에 최고 신뢰도 점수를 부여했지만, 그중 상당수가 사실과 달랐습니다."

- AI 아웃풋 평가 리서치 (2026)

핵심 인사이트

핵심 마인드셋

AI를 "완벽한 도구"가 아닌 "검증이 필요한 초안 생성기"로 인식하세요.

02

정확성, 관련성, 완전성, 일관성

1

정확성 (Accuracy)

정보가 신뢰할 수 있는 출처에 의해 검증 가능한가?

AI가 제시한 사실, 수치, 인용이 실제와 일치하는지 확인합니다. 특히 통계, 날짜, 이름 등 구체적 정보에 주의가 필요합니다.

외부 출처 대조 팩트체크 도구 사용 원본 문서 확인

2

모든 분야에 같은 기준을 적용하지 마세요

주의: 고위험 분야

의료, 법률, 금융 분야에서 AI 결과물을 검증 없이 사용하면 법적 책임과 심각한 피해로 이어질 수 있습니다. 반드시 전문가 검토를 거치세요.

04

체계적인 평가를 위한 검증된 방법론

G-Eval 접근법

RAGAS 프레임워크 (RAG 시스템용)

Criteria-Eval (복잡한 장문 답변용)

SUMMARY

Quick Checklist

정확성: 출처로 검증 가능? | 관련성: 질문에 답했나? | 완전성: 빠진 부분 없나? | 일관성: 논리적 흐름?