222. RAG (Retrieval-Augmented Generation)

핵심 인사이트

본질: RAG (Retrieval-Augmented Generation, 검색 증강 생성) 는 LLM의 고정된 파라메트릭 지식 한계를 외부 지식 베이스 실시간 검색으로 보완하여, 최신·도메인 특화 정보를 환각(Hallucination) 없이 생성할 수 있게 하는 아키텍처 패턴이다.

가치: LLM을 재훈련하지 않고도 사내 문서·최신 데이터를 근거로 정확한 답변을 생성할 수 있어, 도메인 특화 AI 서비스의 개발 비용과 데이터 최신성 문제를 동시에 해결한다.

판단 포인트: RAG 품질은 검색(Retrieval)의 정밀도에 달려 있다. 청킹(Chunking) 전략, 임베딩(Embedding) 모델 품질, 리랭킹(Re-ranking) 로직이 잘못되면 LLM이 아무리 좋아도 오답을 생성한다.

Ⅰ. 개요 및 필요성

LLM은 훈련 데이터 마감일(Knowledge Cutoff) 이후의 정보를 모른다. 또한 사내 기밀 문서, 특정 기업의 규정, 의료 기관의 최신 프로토콜 같은 도메인 특화 지식은 공개 학습 데이터에 포함되지 않는다. 이 한계를 극복하기 위해 모델 전체를 재훈련하는 것은 수억~수십억 원의 비용과 수 주의 시간이 든다.

RAG는 이 문제를 "검색 + 생성"의 분리로 해결한다. 사용자 쿼리와 관련된 문서를 벡터DB에서 실시간 검색하고, 그 결과를 프롬프트에 컨텍스트로 주입한 뒤 LLM이 이를 근거로 답변을 생성한다. LLM은 검색된 컨텍스트 내에서만 답하도록 유도되므로, 파라메트릭 지식에 의존한 환각이 대폭 감소한다.

RAG의 또 다른 강점은 증거 추적(Evidence Tracing)이다. 생성된 답변이 어떤 문서의 어느 청크를 근거로 했는지 출처를 명시할 수 있어, 금융·법률·의료 등 감사 추적이 필요한 규제 산업에서 신뢰성을 높인다.

📢 섹션 요약 비유: RAG는 오픈북 시험과 같다. AI가 모든 것을 암기(파라메트릭 지식)하는 대신, 시험 중 도서관(벡터DB)에서 관련 책(문서 청크)을 찾아 읽고 답을 쓴다. 책에서 찾은 내용이기 때문에 거짓말(환각)이 줄어든다.

Ⅱ. 아키텍처 및 핵심 원리

RAG 파이프라인은 오프라인 인덱싱 단계와 온라인 쿼리 단계로 나뉜다.

단계	구성 요소	역할
문서 로딩	PDF, HTML, DOCX 파서	원본 문서를 텍스트로 변환
청킹 (Chunking)	고정 크기/의미 기반 분할	임베딩에 적합한 단위로 텍스트 분할
임베딩 (Embedding)	임베딩 모델 (OpenAI, BGE 등)	텍스트를 고차원 벡터로 변환
벡터 저장	벡터DB (Pinecone, Weaviate)	임베딩 벡터 인덱싱 및 저장
쿼리 임베딩	사용자 쿼리 벡터화	검색을 위한 쿼리 벡터 생성
유사도 검색	ANN (Approximate Nearest Neighbor)	코사인 유사도 상위 K개 청크 검색
리랭킹 (Re-ranking)	Cross-Encoder 모델	검색 결과 관련성 재정렬
생성 (Generation)	LLM + 컨텍스트 프롬프트	검색 청크 기반 답변 생성

┌─────────────────────────────────────────────────────────────────────┐
│                   RAG 파이프라인 전체 흐름                            │
├──────────────────────────┬──────────────────────────────────────────┤
│   오프라인 인덱싱 단계     │          온라인 쿼리 단계                  │
│                          │                                          │
│ ┌──────────┐             │  사용자 쿼리                              │
│ │ 원본 문서  │             │       │                                  │
│ │ (PDF/HTML)│             │       ▼                                  │
│ └────┬─────┘             │  ┌──────────────┐                         │
│      ▼ 청킹(Chunking)     │  │ 쿼리 임베딩   │                         │
│ ┌──────────┐             │  └──────┬───────┘                         │
│ │ 텍스트    │             │         │ 코사인 유사도 검색                 │
│ │ 청크들    │             │         ▼                                  │
│ └────┬─────┘             │  ┌──────────────┐   ┌──────────────────┐  │
│      ▼ 임베딩 변환         │  │  벡터DB      │──▶│  Top-K 청크 검색  │  │
│ ┌──────────┐             │  │ (ANN Index)  │   └──────┬───────────┘  │
│ │ 임베딩   │             │  └──────────────┘          │ 리랭킹         │
│ │ 벡터들   │──▶ 벡터DB   │                             ▼              │
│ └──────────┘   저장       │  ┌──────────────────────────────────────┐ │
│                          │  │  LLM: [시스템 프롬프트] + [컨텍스트]    │ │
└──────────────────────────┘  │  + [사용자 쿼리] → 답변 생성             │ │
                              └──────────────────────────────────────┘ │
                                                                       │

청킹 전략: 청크가 너무 작으면 컨텍스트가 부족하고, 너무 크면 관련 없는 내용이 포함되어 LLM을 혼란시킨다. 의미 기반 청킹(Semantic Chunking)은 문장 경계와 단락 구조를 활용하여 더 자연스러운 단위로 분할한다.

리랭킹(Re-ranking): 벡터 유사도 검색은 빠르지만 의미적 정밀도가 낮을 수 있다. Cross-Encoder 기반 리랭커가 쿼리와 각 청크의 관련성을 재계산하여 최종 상위 청크를 선정한다.

📢 섹션 요약 비유: RAG 파이프라인은 도서관 사서 시스템이다. 책(문서)을 잘게 나눠 카드 목록(벡터 인덱스)을 만들고, 질문이 오면 가장 관련된 책 페이지(청크)를 찾아 독자(LLM)에게 건네준다.

Ⅲ. 비교 및 연결

구분	RAG	파인튜닝 (Fine-tuning)	프롬프트 엔지니어링
지식 최신성	실시간 업데이트 가능	훈련 시점 고정	프롬프트 내 직접 제공
도입 비용	중간 (벡터DB + 인덱싱)	높음 (GPU 훈련 비용)	낮음
환각 감소 효과	높음 (출처 기반 생성)	중간	낮음
도메인 스타일 습득	낮음	높음	중간
데이터 프라이버시	벡터DB 접근 제어 가능	모델 내 학습 (위험)	프롬프트 노출 위험

Advanced RAG 기법: 기본 RAG(Naive RAG)의 한계를 보완하는 고급 기법으로 HyDE (Hypothetical Document Embeddings, 가상 문서 임베딩), 멀티 쿼리(Multi-Query), 자기 반성 RAG(Self-RAG), 그래프 RAG(GraphRAG)가 있다.

📢 섹션 요약 비유: RAG는 최신 교과서로 공부하는 학생, 파인튜닝은 특정 분야 전문 훈련을 받은 전문가, 프롬프트 엔지니어링은 시험지에 참고 자료가 인쇄된 형태다. 최신 정보가 중요하면 RAG, 전문 언어 스타일이 중요하면 파인튜닝이 적합하다.

Ⅳ. 실무 적용 및 기술사 판단

엔터프라이즈 RAG 설계 고려사항

청킹 전략 선택: 고정 크기 청킹은 구현이 단순하지만 문장이 중간에 잘린다. 재귀적 문자 분할(Recursive Character Splitting)이나 문서 구조 기반(HTML/마크다운 헤더 기준) 청킹이 일반적으로 더 나은 품질을 제공한다.
임베딩 모델 선택: OpenAI text-embedding-3-large는 성능이 높지만 호출 비용이 발생한다. 자체 호스팅 가능한 BGE-M3나 E5-large 모델이 비용 절감과 데이터 보안을 동시에 충족한다.
하이브리드 검색: 벡터 유사도 검색(시맨틱)과 키워드 기반 BM25 검색을 결합하는 하이브리드 검색이 단일 방식보다 대부분의 쿼리에서 더 높은 리콜(Recall)을 달성한다.
RAGAS 평가: Faithfulness(생성 답변이 검색 컨텍스트에 충실한가), Answer Relevancy(답변이 질문에 관련 있는가), Context Recall(정답에 필요한 컨텍스트가 검색되었는가) 3지표로 파이프라인 품질을 정량 평가한다.

📢 섹션 요약 비유: 엔터프라이즈 RAG 설계는 회사 법무팀 구축과 같다. 계약서 데이터베이스(벡터DB)를 잘 분류해 놓고, 법무 질문이 오면 가장 관련된 조항(Top-K 청크)을 찾아 변호사(LLM)가 정확한 자문을 제공하게 만든다.

Ⅴ. 기대효과 및 결론

RAG를 도입한 조직은 LLM 기반 서비스의 환각률을 40~70% 감소시키고, 도메인 특화 질문에 대한 정확도를 크게 향상시킬 수 있다. 모델 전체를 재훈련하지 않아도 새 문서만 인덱싱하면 즉시 지식이 반영되므로, 빠르게 변하는 비즈니스 환경에 민첩하게 대응할 수 있다.

향후 RAG는 멀티모달(Multi-modal) 문서 검색(이미지·표·수식 포함), 에이전트가 필요에 따라 검색 전략을 스스로 결정하는 Agentic RAG로 진화한다. 기술사는 RAG를 엔터프라이즈 AI 서비스의 기본 아키텍처 패턴으로 이해하고, 파인튜닝·프롬프트 엔지니어링과의 조합 전략을 상황에 맞게 제안해야 한다.

📢 섹션 요약 비유: RAG가 성숙하면 AI는 자신이 무엇을 모르는지 알고, 모를 때는 도서관에서 찾아 답한다. "모른다"고 거짓말하지 않는 정직한 AI 비서가 탄생하는 것이다.

📌 관련 개념 맵

개념	설명	연관 키워드
청킹 (Chunking)	문서를 임베딩 단위로 분할하는 전략	고정 크기, 의미 기반, 재귀 분할
임베딩 (Embedding)	텍스트를 고차원 벡터로 수치화	OpenAI, BGE, Cosine Similarity
벡터DB	임베딩 벡터 인덱싱 및 ANN 검색	Pinecone, Weaviate, Qdrant, HNSW
리랭킹 (Re-ranking)	검색 결과를 Cross-Encoder로 재정렬	Cohere Rerank, BGE Reranker
RAGAS	RAG 품질 평가 프레임워크	Faithfulness, Answer Relevancy
하이브리드 검색	벡터 검색 + BM25 키워드 검색 결합	RRF (Reciprocal Rank Fusion)

👶 어린이를 위한 3줄 비유 설명

AI가 모르는 것을 물어보면, 도서관에 달려가 관련된 책 페이지를 찾아 읽고 답해준다.
책을 잘게 잘라 카드에 정리(청킹/인덱싱)해야 나중에 원하는 정보를 빠르게 찾을 수 있다.
AI가 책에서 찾은 내용을 바탕으로 답하기 때문에, 그냥 외운 것만으로 답할 때보다 훨씬 거짓말을 적게 한다.