PART 4 · 강의 5/5

분야별 평가 기준

글쓰기, 코드, 리서치, 창작물 각각의 체크리스트

01

글쓰기 결과물 평가

콘텐츠 품질과 E-E-A-T 기준

기준 설명 체크 방법
명확성 메시지가 명확하게 전달되는가 소리 내어 읽기 테스트
일관성 논리적 흐름과 톤 유지 전체 구조 검토
독창성 표절 없이 고유한 관점 제시 표절 검사 도구 사용
목적 정렬 의도한 목표를 달성하는가 원래 요구사항과 대조
정확성 사실이 올바른가 팩트체크 수행

E-E-A-T 기준 (SEO 관점)

E
Experience (경험)
직접적인 경험이 반영되어 있는가?
E
Expertise (전문성)
주제에 대한 깊은 이해가 드러나는가?
A
Authoritativeness (권위)
신뢰할 수 있는 출처와 저자인가?
T
Trust (신뢰)
전반적으로 신뢰할 수 있는 콘텐츠인가?
"AI 콘텐츠는 인간이 직접 경험을 추가하고, 사실을 검증하고, 편집 책임을 질 때 E-E-A-T 기준을 충족할 수 있다."
- TrustedAI SEO, "AI Content Quality E-E-A-T Checklist"
*
글쓰기 평가 체크리스트
메시지가 명확하고 이해하기 쉬운가?
처음부터 끝까지 일관된 톤을 유지하는가?
표절 검사를 통과했는가?
원래 요구사항을 충족하는가?
모든 사실적 주장이 검증되었는가?
인간의 경험과 관점이 추가되었는가?
02

코드 결과물 평가

10가지 핵심 평가 차원

기능적 정확성
코드가 의도대로 작동하는가
효율성/성능
리소스를 효율적으로 사용하는가
보안
보안 취약점이 없는가
유지보수성
나중에 수정하기 쉬운가
가독성
다른 개발자가 이해하기 쉬운가
재사용성
다른 곳에서 재사용 가능한가
테스트 용이성
테스트 작성이 쉬운가
확장성
규모 확대에 대응 가능한가
표준 준수
코딩 표준을 따르는가
문서화
적절히 문서화되어 있는가
"기능적으로 올바른 코드에서도 품질 이슈가 일관되게 발견된다는 것은, 기능적 성능 벤치마크에만 의존하여 LLM 생성 코드를 평가하는 것이 불충분함을 시사한다."
- arXiv, "Quality In, Quality Out"
주의: 기술 부채 축적

AI 생성 코드가 기능적으로 작동하더라도, 유지보수성과 가독성이 낮으면 기술 부채가 빠르게 축적될 수 있습니다. 학계는 보안과 성능에, 업계는 유지보수성과 가독성에 더 관심을 둡니다.

*
코드 평가 체크리스트
단위 테스트를 통과하는가? (pass@k 확인)
보안 취약점 스캔을 통과했는가? (SonarQube, Bandit)
코딩 표준과 스타일 가이드를 따르는가?
코드 리뷰에서 가독성이 확인되었는가?
순환 복잡도가 적정 수준인가?
적절한 주석과 문서화가 있는가?
03

분석/리서치 결과물 평가

출처 검증과 ROBOT 테스트

학술 AI 도구 기준 (ROBOT 테스트)

R - References
검증 가능한 출처를 공개하는가?
O - Output
재현 가능한 출력을 생성하는가?
B - Bias
GDPR 하에 데이터를 보호하는가?
O - Omissions
환각을 줄이는가?
T - Transparency
귀속과 공개를 지원하는가?
인용 조작 경고

AI가 제시한 논문의 39%까지 조작될 수 있습니다. 저자, 저널, 출판 날짜가 정확해 보여도 반드시 DOI나 ISBN으로 실제 존재 여부를 확인하세요.

검증에 도움이 되는 도구

Elicit
AI 생성 주장에 문장 수준 인용 제공, 1억 3800만+ 학술 논문 검색
Scite
Smart Citations로 연구가 지지/반박되는지 표시
Paperguide
각 출처의 지지 인용문과 원본 텍스트 제공
*
리서치 평가 체크리스트
AI가 인용한 논문이 실제로 존재하는가?
저자, 저널, 출판 날짜가 정확한가?
DOI나 ISBN으로 확인할 수 있는가?
원본 출처를 직접 확인했는가?
AI의 요약이 원본 내용과 일치하는가?
분석 방법이 적절하고 결론이 증거에 의해 지지되는가?
04

창작물 평가

주관적인 창의성을 어떻게 평가할 것인가

"창의성과 같이 주관적인 것을 평가하는 것은 엄청난 도전이다. 어떻게 독창성을 정량화하고, 서사적 일관성을 측정하고, 캐릭터 아크의 깊이를 점수화할 수 있는가?"
- Skywork, "LLM Creative Story-Writing Benchmark"

창작물 평가 접근법

1
루브릭 기반 점수

절대적 품질 측정 방식

  • 미리 정의된 기준에 따라 개별 평가
  • 캐릭터 진정성, 독창성, 플롯 일관성 등
  • 1-5점 또는 1-10점 척도 사용
2
Elo 점수

상대적 비교 방식

  • 동일 프롬프트에 대한 두 출력을 비교
  • LLM 심판이 여러 기준에서 승자 결정
  • 다수의 비교를 통해 순위 도출
3
인간 평가

여전히 황금 표준

  • 자동화된 메트릭은 창의성을 제대로 포착하지 못함
  • 맥락, 뉘앙스, 상식은 인간만 인식 가능
  • 최종 품질 판단은 인간이 담당

창작물 평가 기준

서사적 일관성
스토리가 논리적으로 전개되는가
캐릭터 개발
캐릭터가 입체적이고 성장하는가
독창성/창의성
새롭고 흥미로운 아이디어가 있는가
감정적 영향
독자의 감정을 움직이는가
문체적 적절성
목적에 맞는 문체를 사용하는가
장르 규약 준수
장르의 기대를 충족하는가
*
창작물 평가 체크리스트
스토리가 처음부터 끝까지 논리적으로 연결되는가?
캐릭터가 일관되게 행동하고 성장하는가?
독자의 관심을 끄는 독창적인 요소가 있는가?
의도한 감정적 반응을 이끌어내는가?
목적과 독자에게 맞는 문체를 사용하는가?
장르의 기본적인 규약을 따르는가?
SUMMARY

핵심 요약

  • 글쓰기 - 명확성, 일관성, 독창성, 목적 정렬, 정확성 + E-E-A-T 기준
  • 코드 - 기능적 정확성만으로 불충분, 10가지 차원(보안, 유지보수성, 가독성 등) 평가
  • 리서치 - 인용 39% 조작 가능, ROBOT 테스트와 DOI/ISBN 검증 필수
  • 창작물 - 인간 평가가 황금 표준, 자동 메트릭은 창의성 포착 어려움
  • 공통 원칙 - 분야마다 다른 기준 적용, 체크리스트로 체계화
Part 4 마무리

AI 결과물 평가의 핵심은 "분야에 맞는 기준""체계적인 검증 프로세스"입니다. 체크리스트를 팀 내 공유하고, 지속적으로 개선하세요.