PART 3 · 강의 5/6
멀티모달 통합 아키텍처
Early Fusion, Llama 4, Emu3와 네이티브 멀티모달
01
멀티모달 아키텍처 유형
Late Fusion vs Early Fusion
Late Fusion
각 모달리티를 개별 인코더로 처리 후 마지막에 결합. 초기 GPT-4V 방식.
장점: 구현 용이 / 단점: 모달리티 간 상호작용 제한
Early Fusion (네이티브)
처음부터 모든 모달리티를 통합 처리. Llama 4, Emu3의 접근.
장점: 깊은 상호작용 / 단점: 학습 복잡성
💡 2025-2026 트렌드
네이티브 멀티모달(Early Fusion)이 주류로 부상 중입니다. Llama 4, Emu3 등 최신 모델들은 처음부터 여러 모달리티를 통합 학습하여 더 자연스러운 멀티모달 이해를 달성합니다.
02
네이티브 멀티모달 모델
Early Fusion 기반 최신 모델
| 모델 | 개발사 | 특징 |
|---|---|---|
| Llama 4 | Meta | 네이티브 멀티모달, Scout/Maverick 버전 |
| Emu3 | Meta | 이미지/영상/텍스트 통합 생성 |
| Gemini 2 | 100만 토큰 컨텍스트, 멀티모달 추론 | |
| GPT-4o | OpenAI | 텍스트/이미지/음성 통합, 실시간 처리 |
SUMMARY
핵심 요약
- Early Fusion(네이티브)이 Late Fusion을 대체하는 추세
- Llama 4, Emu3: Meta의 네이티브 멀티모달 모델
- 모달리티 간 깊은 상호작용으로 더 자연스러운 이해
- 2026년 이후 모든 주요 모델이 네이티브 멀티모달로 전환 예상