454. 할루시네이션 (Hallucination, 환각)의 발생 원인과 방어

핵심 인사이트 (3줄 요약)

본질: 할루시네이션(환각)은 생성형 AI(LLM)가 사실이 아닌 내용을 마치 진짜인 것처럼 아주 그럴싸하고 당당하게 지어내어 대답하는 현상으로, AI가 팩트(Fact)를 아는 것이 아니라 단순히 "다음 단어의 통계적 확률"만을 맹목적으로 이어붙이는 자가 회귀(Auto-regressive) 구조를 가졌기 때문에 발생하는 필연적인 태생적 버그다.

가치: 이 환각 현상은 챗GPT를 일상 대화용으로는 재밌게 만들었지만, 단 1%의 거짓말도 허용되지 않는 의료, 법률, 기업 금융 등 미션 크리티컬(Mission-Critical) B2B 산업으로 AI가 진출하는 것을 가로막는 가장 치명적인 철벽이 되었다.

판단 포인트: 환각은 모델의 파라미터를 키운다고 영원히 고쳐지지 않으므로, 환각을 억제하려면 **RAG(검색 증강)**를 붙이거나 프롬프트의 **Temperature(온도)**를 0으로 맞추는 등 '모델 밖에서의 엔지니어링 통제' 파이프라인이 100% 수반되어야 한다.

Ⅰ. 개요 및 필요성

챗GPT에게 물었다. "세종대왕이 맥북을 집어던진 사건에 대해 설명해 줘." 정상적인 사람이라면 "그런 사건은 없었어"라고 하겠지만, 챗GPT는 "네, 1443년 세종대왕이 훈민정음 코딩 중 맥북 프로가 멈추자 화가 나서 집현전 밖으로 던진 유명한 사건입니다"라고 엄청나게 진지하고 논리적으로 헛소리를 뱉는다.

우리는 AI가 구글 검색처럼 팩트(Fact)를 찾아서 보여준다고 착각한다. 하지만 LLM의 뇌 구조는 백과사전이 아니라, 방금 자기가 뱉은 단어 뒤에 "가장 그럴싸하게 이어질 다음 단어(통계)"를 무한히 이어 붙이는 주사위 게임이다. "기계가 자기가 무슨 말을 하는지도 모르고 확률에 취해 거짓말을 지어내는 병!" 이 치명적인 증상을 인공지능 학계에서는 **할루시네이션(Hallucination)**이라고 부른다.

📢 섹션 요약 비유: 할루시네이션은 뇌를 다쳐 진짜 기억과 상상이 뒤섞인 리플리 증후군 환자다. 이 환자는 자기가 하는 말이 거짓말이라는 인식조차 없기 때문에, 거짓말 탐지기를 통과할 정도로 당당하고 논리정연하게 가짜 세계를 묘사한다.

Ⅱ. 아키텍처 및 핵심 원리

환각이 발생하는 원인은 데이터, 모델 구조, 그리고 추론 방식이라는 3단계 파이프라인 전반에 걸쳐 넓게 퍼져 있다.

┌────────────────────────────────────────────────────────┐
│             [ 할루시네이션(환각)을 일으키는 3대 치명적 원인 ]     │
├────────────────────────────────────────────────────────┤
│ 1. 데이터의 오염 (Data Poisoning / Bias)                │
│    - 인터넷에서 긁어모은 수조 개의 텍스트 안에는 진실도 있지만    │
│      음모론, 소설, 가짜 뉴스, 헛소리들이 어마어마하게 섞여 있음    │
│    - 모델은 이 똥물(데이터)을 그대로 마시고 상식으로 굳어버림     │
│                                                        │
│ 2. 정보 압축의 한계 (Information Compression)           │
│    - 수천 TB의 텍스트를 수십 GB의 가중치 행렬(W)로 강제 압축함  │
│    - 구체적인 팩트(연도, 숫자)는 뭉개지고, 두루뭉술한 '문맥'만 남음│
│    - 그래서 세부 정보를 물어보면 확률로 대충 채워 넣음(환각 발생) │
│                                                        │
│ 3. 자가 회귀 디코더의 꼬리물기 (Auto-regressive)           │
│    - 첫 단어를 거짓말로 잘못 뱉으면, 그다음 단어는 그 거짓말에    │
│      맞춰서 계속 확률을 계산해야 함! (거짓말의 스노우볼링 현상)   │
└────────────────────────────────────────────────────────┘

내재적 환각 (Intrinsic Hallucination): 프롬프트에 주어진 문장을 요약하라고 했는데, 원본 문장과 앞뒤 논리가 아예 안 맞는 엉터리 내용을 출력하는 가장 악질적인 환각이다. 모델의 문해력 부족이다.
외재적 환각 (Extrinsic Hallucination): 원본에는 없는 내용이지만 자기가 인터넷에서 배운 외부 상식(하지만 틀린 상식)을 억지로 끌고 들어와서 사실처럼 섞어버리는 현상이다. LLM에서 가장 많이 발생하는 패턴이다.

📢 섹션 요약 비유: 수만 권의 백과사전을 통째로 갈아서 한 컵의 주스(가중치)로 압축해 마신 사람에게 특정 페이지 내용을 물어보면, 전체적인 맛(문맥)은 기억하지만 정확한 팩트는 기억나지 않아 대충 지어내서 말하게 되는 현상이다.

Ⅲ. 비교 및 연결

환각을 방어하기 위해 엔터프라이즈 환경에서 도입하는 3단계 방어벽을 비교해 본다.

방어 전략	작동 원리	효과	한계
Temperature 튜닝	`Temp=0.0`으로 설정해 주사위 굴리기를 금지하고 1등 단어만 뽑음	미친 상상력이 사라지고 팩트만 말함	너무 딱딱하고 똑같은 대답만 함
시스템 프롬프팅	"제공된 문서 안에서만 찾고, 모르면 모른다고 말해라"고 강제함	환각 발생률 절반 이하로 급감	해커의 프롬프트 인젝션에 쉽게 뚫림
RAG (검색 증강)	회사 DB 문서를 강제로 쥐여주고 그것만 보고 대답하게 만듦	가장 완벽한 환각 방어막 (엔터프라이즈 표준)	벡터 DB 연동 및 검색 비용 발생

초창기 모델은 모르는 것도 무조건 아는 척했다. 이를 막기 위해 OpenAI는 RLHF (인간 피드백 기반 강화학습) 단계에서 인간 알바생들을 고용해 "AI가 지어낸 말을 하면 몽둥이를 때리고, 솔직하게 '모릅니다'라고 하면 사탕을 주는" 가혹한 교정 작업을 통해 GPT-4의 환각을 기적적으로 줄여냈다.

📢 섹션 요약 비유: 허풍쟁이 신입사원(LLM)을 통제하는 3단계다. 1단계: "회식에서 술 마시지 마(Temp=0)." 2단계: "모르면 모른다고 당당하게 보고해(시스템 프롬프트)." 3단계: "네 머리 믿지 말고, 회사 매뉴얼(RAG) 보고 그대로 읽어!"

Ⅳ. 실무 적용 및 기술사 판단

실무 적용 시나리오: 제약 회사에서 항암제 성분 분석 AI를 배포했다. 의사들이 약을 처방할 때 AI의 조언을 듣는다. 그런데 AI가 "A 약과 B 약을 섞어 먹으면 아주 좋습니다"라고 환각(Hallucination)을 뱉었다. 실제로는 치사율이 높은 조합이었다. 기술사는 즉시 2중 안전장치 파이프라인을 짠다. 첫째, AI가 답변을 뱉기 전 사내 FDA 금기 약물 DB를 조회하게 강제하는 RAG 아키텍처를 연동한다. 둘째, AI가 내놓은 최종 답변을 유저에게 바로 보여주지 않고, 뒤에 숨겨둔 **환각 탐지용 작은 AI(Cross-Encoder)**에게 넘겨 "이 답변이 RAG 문서 내용과 100% 모순 없이 일치하는가(Faithfulness)?"를 한 번 더 체크하게 한 뒤에만 답변을 모니터에 뿌린다. (LLM-as-a-Judge).

기술사 판단 포인트 (Trade-off): 아키텍처 설계 시 기술사는 **'창의성(Creativity)'과 '신뢰성(Faithfulness)'**의 도메인 분리 딜레마를 관리해야 한다.

마케팅 문구, 소설, 아이디어 기획(Brainstorming) 도메인에서는 환각이 오히려 축복이다. 있지도 않은 상상을 끌어와야 하므로 기술사는 Temperature를 0.8로 올리고 RAG를 꺼서 AI가 마음껏 허풍을 떨게 놔둬야 한다.
하지만 의료, 법률, 콜센터, 코드 리뷰 같은 규제 도메인에서는 환각이 0.1%만 터져도 소송에 걸려 회사가 파산한다.
기술사는 트래픽 앞단에 **의도 분류 라우터(Semantic Router)**를 세워서, "일상 대화"면 상상력 봇으로, "팩트 질문"이면 Temperature 0과 RAG가 결합된 팩트 봇으로 트래픽을 분기(Routing)시키는 동적 방어벽을 설계해야 한다.

📢 섹션 요약 비유: 환각은 '예술가의 영감'이자 '회계사의 치명적 오류'다. 기술사는 무대에 오르는 예술가에게는 대본(RAG)을 뺏고 술(Temperature)을 먹여 마음껏 애드리브(환각)를 치게 하고, 장부를 적는 회계사에게는 맑은 정신에 계산기만 주어 한 치의 거짓말도 못 하게 통제해야 한다.

Ⅴ. 기대효과 및 결론

할루시네이션(환각)은 생성형 AI가 단순히 '지식의 복사기'가 아니라, 스스로 단어들을 엮어 '새로운 세계를 창조하는 지능'을 가졌음을 역설적으로 증명하는 아름다운 버그(Bug)이자 피처(Feature)다. 기계가 거짓말을 할 줄 안다는 것은, 곧 기계가 인간처럼 상상(Imagination)할 수 있다는 뜻이기 때문이다.

결론적으로 환각을 100% 완벽하게 없애는 알고리즘은 수학적으로 존재하지 않는다. 자가 회귀(Auto-regressive) 모델의 태생적 한계이기 때문이다. 기술사는 모델 안에서 병을 고치려는 삽질을 멈추고, 모델 밖에서 프롬프트 체인(Chain of Thought)과 외부 검색망(RAG), 그리고 자기 검증(Self-Correction) 에이전트들을 파이프라인으로 정교하게 엮어, 환각이 사용자 눈앞에 튀어나오기 전에 멱살을 잡고 차단하는 '시스템 엔지니어'가 되어야 한다.

📢 섹션 요약 비유: 아이의 엉뚱한 상상력(환각)을 매만 때려서 완벽하게 없애버리면 창의성이 죽은 바보가 된다. 진짜 좋은 교육(MLOps)은 상상력을 죽이는 게 아니라, "소설을 쓸 땐 마음껏 상상하고, 수학 문제를 풀 땐 사실만 적어야 해"라고 때와 장소를 구분하는 통제력(시스템 아키텍처)을 심어주는 것이다.

📌 관련 개념 맵

상위 개념: 거대 언어 모델 (LLM), 자연어 생성 (NLG)
하위 개념: Temperature 튜닝, 내재적/외재적 환각, 정보 압축
연결 개념: RAG (검색 증강 생성), RLHF (인간 피드백 강화학습), 프롬프트 인젝션

👶 어린이를 위한 3줄 비유 설명

챗GPT 앵무새에게 아주 어려운 질문을 했더니, 앵무새가 모른다고 하면 혼날까 봐 아는 척하면서 뻔뻔하게 거짓말을 지어냈어요!
앵무새는 자기가 거짓말을 하는 줄도 모르고, 그냥 사람들이 좋아할 만한 말들을 아무 말 대잔치로 이어 붙인 거예요. (이게 할루시네이션, 환각이에요)
앵무새가 거짓말을 못 하게 하려면, 거짓말 탐지기(RAG)를 달아주고 "모르면 당당하게 모른다고 해!"라고 약속을 정해줘야 한답니다!