PART 3 · 강의 4/6
음성 AI
GPT-Realtime(232ms), ElevenLabs v3, Whisper v3
01
음성 AI의 세 가지 영역
STT, TTS, 실시간 대화
STT (Speech-to-Text)
음성을 텍스트로 변환. Whisper v3가 대표적.
TTS (Text-to-Speech)
텍스트를 자연스러운 음성으로 변환. ElevenLabs 선도.
실시간 대화
음성 입력→이해→응답 생성→음성 출력을 실시간으로.
02
주요 음성 AI 모델
2025-2026 최신 모델 비교
| 모델 | 유형 | 핵심 특징 |
|---|---|---|
| GPT-Realtime API | 실시간 대화 | 232ms 응답 속도, 인간 수준 자연스러움 |
| Whisper v3 | STT | 99개 언어 지원, 오픈소스, 높은 정확도 |
| ElevenLabs v3 | TTS | 최고 품질 음성, 감정 표현, 음성 클로닝 |
| Claude Voice | 실시간 대화 | Anthropic 음성 인터페이스, 안전성 강조 |
💡 232ms의 의미
GPT-Realtime API의 232ms 응답 속도는 인간 대화의 자연스러운 턴테이킹(200-300ms)과 동등한 수준입니다. 이는 진정한 실시간 AI 대화를 가능하게 합니다.
03
실무 활용 사례
음성 AI의 비즈니스 적용
📌 활용 분야
- 고객 서비스 — AI 음성 상담원, 24/7 콜센터
- 콘텐츠 제작 — 팟캐스트, 오디오북, 동영상 나레이션
- 접근성 — 시각 장애인용 스크린 리더, 문서 음성 변환
- 교육 — 언어 학습, 발음 교정, 인터랙티브 튜터
- 게임/엔터테인먼트 — NPC 음성, 실시간 더빙
SUMMARY
핵심 요약
- 음성 AI는 STT, TTS, 실시간 대화 3개 영역으로 구분
- GPT-Realtime: 232ms 응답 속도로 인간 수준 대화 가능
- Whisper v3: 99개 언어, 오픈소스 STT
- ElevenLabs v3: 최고 품질 TTS, 음성 클로닝