멀티모달 AI & 생성형 AI
별점: ★★★★★ | ★135회, ★136회 기출
답안.
Ⅰ. 개요
정의: 텍스트, 이미지, 오디오, 비디오 등 여러 모달리티를 GPT-4o: 텍스트+이미지+오디오 통합 → 실시간 음성 대화, 이미지 분석
Ⅱ. 핵심 구성요소
정의: 텍스트, 이미지, 오디오, 비디오 등 여러 모달리티를
동시에 처리하는 AI 모델
[주요 멀티모달 모델]
GPT-4o: 텍스트+이미지+오디오 통합
→ 실시간 음성 대화, 이미지 분석
Gemini Ultra (Google):
텍스트+이미지+비디오+오디오+코드
Claude 3: 텍스트+이미지 (PDF 분석)
DALL-E 3 / Imagen: 텍스트 → 이미지 생성
Stable Diffusion: 오픈소스 이미지 생성
Sora (OpenAI): 텍스트 → 비디오 생성
[기술 기반]
Vision Transformer (ViT): 이미지를 패치로 처리
CLIP: 이미지-텍스트 공동 임베딩
Flamingo: 멀티모달 Few-shot
[확산 모델 (Diffusion Model)]
이미지 생성 핵심 기술
Forward: 이미지에 점진적 노이즈 추가
Reverse: 노이즈에서 이미지 복원 (학습)
[GAN vs 확산 모델]
GAN (생성적 적대 신경망):
해당 키워드의 기술적 구성요소와 동작 원리를 서술한다.
### Ⅲ. 특징 및 비교
핵심 기술의 장단점과 유사 기술과의 차이를 분석한다.
### Ⅳ. 적용 사례
실무 환경에서의 적용 사례와 기대효과를 제시한다.
### Ⅴ. 전망
최신 기술 동향과 향후 발전 방향을 서술한다.