벡터 데이터베이스 (Vector DB) & RAG 파이프라인

별점: ★★★★★ | ★135회 기출

답안.

Ⅰ. 개요

벡터 DB: 텍스트·이미지·음성을 수치 벡터(임베딩)로 변환하여 저장하고, 의미 기반 유사도 검색(ANN)을 고속 수행하는 데이터베이스.

Ⅱ. 핵심 구성요소

[임베딩 & 유사도 검색]
텍스트 → 임베딩 모델 → 벡터 [0.2, -0.5, 0.8, ...]
                               ↓ 벡터 DB 저장
질의 벡터 → ANN 검색 → 가장 유사한 벡터 Top-K 반환

유사도 측정:
- 코사인 유사도: 방향 유사성 (텍스트에 가장 많이 사용)
- 유클리드 거리: 좌표 거리
- 내적(Dot Product): 크기+방향

[ANN 인덱스 알고리즘]
HNSW: 계층적 소세계 그래프 → 빠른 검색, 메모리 多
IVF: 역파일 인덱스 → 클러스터 기반, 대규모
PQ: 제품 양자화 → 압축, 메모리 절약

[주요 벡터 DB]
Pinecone: 완전 관리형, 클라우드
Weaviate: 오픈소스, 멀티모달
Chroma: 로컬/경량, 개발 친화
pgvector: PostgreSQL 확장 (기존 RDBMS 활용)
Qdrant: Rust 기반, 고성능

[문서 수집] → [청크 분할] → [임베딩 변환] → [벡터 DB]
                                                    ↓ (오프라인)
질문 → 질문 임베딩 → 유사도 검색 → Top-K 컨텍스트
                                        ↓ + 질문
                                   LLM 프롬프트 → 최종 답변

해당 키워드의 기술적 구성요소와 동작 원리를 서술한다.

Ⅲ. 특징 및 비교

핵심 기술의 장단점과 유사 기술과의 차이를 분석한다.

Ⅳ. 적용 사례

실무 환경에서의 적용 사례와 기대효과를 제시한다.

Ⅴ. 전망

최신 기술 동향과 향후 발전 방향을 서술한다.