PART 3 · 강의 4/6

음성 AI

GPT-Realtime(232ms), ElevenLabs v3, Whisper v3

01

음성 AI의 세 가지 영역

STT, TTS, 실시간 대화

STT (Speech-to-Text)

음성을 텍스트로 변환. Whisper v3가 대표적.

TTS (Text-to-Speech)

텍스트를 자연스러운 음성으로 변환. ElevenLabs 선도.

실시간 대화

음성 입력→이해→응답 생성→음성 출력을 실시간으로.

02

주요 음성 AI 모델

2025-2026 최신 모델 비교

모델 유형 핵심 특징
GPT-Realtime API 실시간 대화 232ms 응답 속도, 인간 수준 자연스러움
Whisper v3 STT 99개 언어 지원, 오픈소스, 높은 정확도
ElevenLabs v3 TTS 최고 품질 음성, 감정 표현, 음성 클로닝
Claude Voice 실시간 대화 Anthropic 음성 인터페이스, 안전성 강조
💡 232ms의 의미

GPT-Realtime API의 232ms 응답 속도는 인간 대화의 자연스러운 턴테이킹(200-300ms)과 동등한 수준입니다. 이는 진정한 실시간 AI 대화를 가능하게 합니다.

03

실무 활용 사례

음성 AI의 비즈니스 적용

📌 활용 분야
  • 고객 서비스 — AI 음성 상담원, 24/7 콜센터
  • 콘텐츠 제작 — 팟캐스트, 오디오북, 동영상 나레이션
  • 접근성 — 시각 장애인용 스크린 리더, 문서 음성 변환
  • 교육 — 언어 학습, 발음 교정, 인터랙티브 튜터
  • 게임/엔터테인먼트 — NPC 음성, 실시간 더빙
SUMMARY

핵심 요약

  • 음성 AI는 STT, TTS, 실시간 대화 3개 영역으로 구분
  • GPT-Realtime: 232ms 응답 속도로 인간 수준 대화 가능
  • Whisper v3: 99개 언어, 오픈소스 STT
  • ElevenLabs v3: 최고 품질 TTS, 음성 클로닝