멀티모달 AI & 생성형 AI

별점: ★★★★★ | ★135회, ★136회 기출

답안.

Ⅰ. 개요

정의: 텍스트, 이미지, 오디오, 비디오 등 여러 모달리티를 GPT-4o: 텍스트+이미지+오디오 통합 → 실시간 음성 대화, 이미지 분석

Ⅱ. 핵심 구성요소

정의: 텍스트, 이미지, 오디오, 비디오 등 여러 모달리티를
     동시에 처리하는 AI 모델

[주요 멀티모달 모델]
GPT-4o: 텍스트+이미지+오디오 통합
  → 실시간 음성 대화, 이미지 분석

Gemini Ultra (Google):
  텍스트+이미지+비디오+오디오+코드
  
Claude 3: 텍스트+이미지 (PDF 분석)

DALL-E 3 / Imagen: 텍스트 → 이미지 생성
Stable Diffusion: 오픈소스 이미지 생성
Sora (OpenAI): 텍스트 → 비디오 생성

[기술 기반]
Vision Transformer (ViT): 이미지를 패치로 처리
CLIP: 이미지-텍스트 공동 임베딩
Flamingo: 멀티모달 Few-shot

[확산 모델 (Diffusion Model)]
이미지 생성 핵심 기술
Forward: 이미지에 점진적 노이즈 추가
Reverse: 노이즈에서 이미지 복원 (학습)

[GAN vs 확산 모델]
GAN (생성적 적대 신경망):


해당 키워드의 기술적 구성요소와 동작 원리를 서술한다.

### Ⅲ. 특징 및 비교

핵심 기술의 장단점과 유사 기술과의 차이를 분석한다.

### Ⅳ. 적용 사례

실무 환경에서의 적용 사례와 기대효과를 제시한다.

### Ⅴ. 전망

최신 기술 동향과 향후 발전 방향을 서술한다.