208. 기계 독해 (MRC, Machine Reading Comprehension)

핵심 인사이트 (3줄 요약)

본질: 기계 독해 (MRC, Machine Reading Comprehension)는 인공지능이 인간처럼 수백 장짜리 교과서(Context 본문)를 쭉 훑어 읽은 뒤, 사용자가 질문(Question)을 던지면 **본문 속에서 정확한 정답이 있는 텍스트 구역의 '시작점과 끝점(Start/End Span)'을 빨간펜으로 쫙 밑줄 그어 발췌(Extraction)**해 내는 고도의 텍스트 추론 아키텍처다.

가치: 기존 챗봇이 자기가 아는 통계적 지식으로 헛소리(할루시네이션)를 뱉었다면, 순수 MRC 모델은 **"오직 주어진 본문 문서 안에서만 정답을 칼같이 잘라내서 대답"**하므로 법률 판례나 사내 매뉴얼 검색처럼 단 한 글자의 거짓말도 용납되지 않는 엔터프라이즈(B2B) 검색 인프라의 완벽한 수호신이다.

판단 포인트: 최근 거대 언어 모델(LLM)이 문장을 새로 지어내는 RAG(검색 증강 생성)에 왕좌를 넘겨주었으나, 수천억 개 파라미터를 돌릴 GPU 돈이 없는 가난한 인프라에서는 여전히 3억 개짜리 가벼운 MRC 전용 모델(BERT)이 100배 빠른 속도와 압도적 가성비로 팩트 추출(Extraction)의 최전선을 방어하는 1군 백엔드 기술이다.

Ⅰ. 개요 및 필요성

수십 년간 구글 같은 검색 엔진(Search Engine)은 우리가 질문을 던지면 "이 웹페이지 10개에 네가 찾는 단어가 많이 들어있어"라며 파란색 링크 문서 목록만 던져주고 도망갔다. 결국 수백 페이지 문서 안에서 진짜 내가 원하는 정답 1줄을 찾는 끔찍한 막일(Reading)은 또다시 사용자의 몫이었다.

이 분노에서 탄생한 것이 **기계 독해 (MRC)**다. "인공지능아, 네가 검색된 문서 100장을 다 읽어봐. 그리고 내가 **'스티브 잡스가 창업한 년도가 언제야?'**라고 물어보면, 문서 링크를 주지 말고 문서 3페이지 5번째 줄에 적힌 **'1976년'**이라는 단어 딱 4글자만 형광펜으로 칠해서 나한테 정답으로 뱉어내!"

MRC는 딥러닝(NLP)이 단순한 단어 번역기를 넘어, 문맥(Context)의 흐름과 인과관계를 인간의 수능 비문학 독해(국어 영역) 수준으로 이해하게 만드는 인지 능력의 퀀텀 점프였다. 이 모델들의 지능을 채점하기 위해 스탠퍼드 대학이 위키백과를 긁어 만든 **SQuAD (Stanford Question Answering Dataset)**라는 수능 모의고사 벤치마크가 등장했고, 인간의 평균 독해 점수(82점)를 AI 모델(BERT)이 90점으로 짓밟아버리며 자연어 처리의 황금기를 열어젖혔다.

📢 섹션 요약 비유: 기존 검색 엔진이 도서관 사서다. "공룡 멸종 이유 찾아주세요" 하면 관련 책 10권을 내 책상에 쿵 하고 던져주고 사라진다(책 읽기는 내 몫). MRC 인공지능은 책을 다 읽은 초천재 비서다. 책 10권을 1초 만에 스캔하더니 책 3권 15페이지 딱 한 줄에 형광펜을 쫙 그어 내밀며 "소행성 충돌 때문입니다"라고 정답의 알맹이만 입에 떠먹여 주는 기적의 서비스다.

Ⅱ. 아키텍처 및 핵심 원리

순수 MRC 딥러닝 파이프라인의 심장부에는 텍스트를 생성(Generation)하는 게 아니라, 텍스트의 확률표를 찢어서 찾아내는 Extractive (추출형) 아키텍처가 박혀 있다.

┌──────────────────────────────────────────────────────────────┐
│           기계 독해 (MRC)의 정답 밑줄 긋기 (Span Extraction) 수학적 뇌 구조 │
├──────────────────────────────────────────────────────────────┤
│  [1. 융합 입력 (Input Formulation)]                            │
│   * (질문 Question): "이순신이 태어난 해는?"                       │
│   * (본문 Context) : "조선의 명장 이순신은 한양에서 1545년에 태어났다." │
│   * 트랜스포머 뇌에 주입: [CLS] 이순신이 태어난 해는? [SEP] 조선의 명장... │
│                                                              │
│  [2. 딥러닝 뇌(BERT)의 문맥 파악 연산 (Self-Attention)]            │
│   * '태어난'이라는 단어 텐서와 '1545년'이라는 단어 텐서가 3차원 우주 공간에서 │
│     서로 강력하게 달라붙으며(Attention) 강한 문맥적 교집합을 형성함!      │
│                                                              │
│  [3. 정답 색출 (Start/End Pointer Network) - 핵심 마법!]         │
│   * 모델은 말을 지어내지 않음. 오직 본문의 모든 단어 위에 2개의 확률 화살표를 던짐.│
│   * 화살표 1 (Start): "정답의 시작 단어일 확률은?" ─▶ '1545년' 단어에 99% 확신!│
│   * 화살표 2 (End): "정답이 끝나는 단어일 확률은?" ─▶ '1545년에' 단어에 99% 확신!│
│   * 결과 렌더링: 본문에서 딱 [1545년] 부분만 가위로 싹둑 잘라서 유저에게 뱉어냄!│
└──────────────────────────────────────────────────────────────┘

핵심 원리 (추출형 포인터 네트워크): 챗GPT처럼 말을 유창하게 새로 창조하는(Generative) 방식이 아니라, 주어진 본문 텍스트 1,000자(Token)의 머리 위에 각각 **"네가 정답의 시작점(Start)이냐?"**와 **"네가 정답의 끝점(End)이냐?"**를 묻는 독립적인 두 개의 확률 분포(Softmax)를 뿌린다. 그리고 이 두 확률이 가장 뾰족하게 치솟는 구간을 수학적 가위(Span)로 싹둑 오려내는 것이다. 이 멍청해 보일 정도로 완고한 수식 구조 덕분에, 모델은 본문에 존재하지 않는 단어를 절대 지어낼 수 없으므로 팩트 조작(할루시네이션) 방어력이 100%에 달하는 우주 최강의 팩트 체크 방패가 완성된다.

📢 섹션 요약 비유: 추출형(Extractive) MRC 훈련은 숨은그림찾기 교재에 빨간펜 동그라미를 치게 하는 훈련이다. 딥러닝 뇌에게 그림(본문)을 주고 토끼(정답)를 찾으라고 하면, AI가 붓으로 직접 가짜 토끼를 그리는 게(Generative) 아니라, 돋보기 화살표를 들고 원본 그림 위에 있는 진짜 토끼의 왼쪽 귀(시작점)와 오른쪽 발(끝점)에 빨간 네모 칸(Span)을 정확히 쳐서 보여주는 철저한 '팩트 발췌' 마법이다.

Ⅲ. 비교 및 연결

MRC의 패러다임은 고객의 니즈에 따라 팩트 추출(Extractive) 방식에서, 문장을 매끄럽게 새로 써주는 생성형(Generative) 방식으로 진화하며 대충돌을 일으켰다.

MRC 아키텍처 분파	추출형 기계 독해 (Extractive QA)	생성형 기계 독해 (Generative QA / RAG)
정답을 뱉는 방식	본문에 있는 글자를 토씨 하나 안 틀리고 그대로 가위로 오려서 뱉어냄 (Start/End 포인터).	본문을 읽고 이해한 뒤, 자기만의 새로운 자연스러운 문장으로 요약해서 새로 글을 씀.
대표적인 딥러닝 모델	BERT, RoBERTa, ALBERT (인코더 중심 모델)	GPT-4, BART, T5, Llama 3 (디코더 중심 LLM)
할루시네이션(거짓말)	사실상 0%. 본문에 답이 없으면 "정답 없음(No Answer)"이라고 말할 수 있는 강건함.	위험함. 본문에 답이 없는데도 아는 척하며 자기 뇌(파라미터) 찌꺼기 상식으로 거짓말을 지어낼 확률 존재.
인프라 비용(서버비)	1억 개 파라미터 수준. 일반 CPU나 싼 GPU에서도 1초에 1,000명 처리 가능. 가성비 킹.	1,000억 개 파라미터 수준. 초비싼 H100 서버 도배 필수. 답변 생성 시 병목(Latency) 끔찍함.
실무 적용 타겟	사내 규정 검색, 법률 판례 팩트 체크, 은행 약관 무결성 답변(B2B)	고객센터 친절한 챗봇, 블로그 요약, 감성적인 아이디어 브레인스토밍(B2C)

최근 RAG(검색 증강 생성) 시스템이 세상을 휩쓸고 있지만, 실무 금융권이나 국방 망에서는 RAG의 유창한 거짓말 리스크를 짊어지느니, 답변은 조금 뻣뻣하더라도 100% 팩트 문장만 칼같이 오려주는 **추출형 MRC(BERT 기반)**를 메인 모듈로 꽂아 넣거나 둘을 하이브리드로 섞어 쓰는(하단 방어막) 아키텍처가 굳건히 살아 숨 쉬고 있다.

📢 섹션 요약 비유: 추출형 MRC(BERT)는 딱딱하고 융통성 없는 공무원이다. "대출 조건이 뭡니까?" 물어보면 규정집 제3조 2항의 "신용 1등급 이상"이라는 문장을 가위로 오려서 툭 던져주지만 절대 틀린 말은 안 한다. 생성형 MRC(GPT)는 엄청 친절한 영업 사원이다. "고객님, 신용 1등급이시면 어쩌고저쩌고~" 하며 예쁜 말로 포장해 주지만, 가끔 안 되는 대출도 된다고 미친 헛소리(환각)를 해서 회사를 소송에 휘말리게 하는 위험한 천재다.

Ⅳ. 실무 적용 및 기술사 판단

수십만 장의 사내 위키(Confluence) PDF 문서를 뒤져서 임직원 질문에 0.1초 만에 대답하는 엔터프라이즈 MRC 파이프라인을 짤 때, 주니어들이 가장 많이 터트리는 구조적 병목이 있다.

실무 아키텍처 판단 (체크리스트)

Retriever-Reader (투-스테이지 쾌속 검색) 파이프라인 필수 구축: 10만 장짜리 사내 문서를 통째로 딥러닝 MRC(BERT 뇌)에 한 번에 다 쑤셔 넣으면 GPU 메모리가 즉사하고 대답에 3일이 걸린다. 무조건 파이프라인을 2개로 찢어야 한다. 1단계(Retriever)에서 엘라스틱서치(BM25)나 가벼운 벡터 DB로 질문과 관련된 "가장 유력한 용의자 문서 딱 5장(Top-K)"만 번개처럼 1차로 긁어온다. 2단계(Reader)에서 아주 무겁고 똑똑한 MRC 딥러닝 모델이 그 5장만 현미경으로 딥다이브로 뚫어져라 읽어내어 최종 정답(Span) 1줄을 오려내는 **2-Stage 아키텍처 (검색 + 독해 분리)**가 대용량 실시간 서빙의 유일한 해답이다.
거절할 줄 아는 용기 (Unanswerable Question) 임계치 세팅: SQuAD 2.0 벤치마크부터 도입된 가장 끔찍한 난이도다. 유저가 "아인슈타인이 아이폰을 만든 해는?"이라고 본문에 아예 없는 악의적인 질문을 던졌다. 멍청한 MRC는 본문에서 억지로 숫자를 찾아 "1955년"이라고 엉터리로 빨간 줄을 쳐준다. 훈련 시킬 때 반드시 "정답이 없는 함정 질문" 데이터를 30% 이상 강제로 섞여 먹여서, 모델이 "이 본문엔 정답이 없습니다(No Answer 클래스)"라고 0점 처리하고 당당하게 대답을 포기하는 회피 기동(Threshold 튜닝)을 가중치에 뼛속 깊이 박아 넣어야만 상용 서비스 클레임을 막는다.

안티패턴

문서 토큰(Token) 쪼개기 시 문단 허리 절단 버그: BERT 모델의 뇌 용량은 한 번에 512글자(Token)밖에 못 읽는다. 1만 글자짜리 PDF를 넣으려면 512글자씩 깍두기 썰듯 잘라야 한다. 이때 코딩을 대충 짜서 512글자 위치에서 문장의 허리를 두 동강 내버리면("나는 어제 사과를 먹 / 었다"), 정답이 딱 잘린 부위에 걸쳐 있을 경우 MRC 뇌가 맥락을 잃고 붕괴한다. 무조건 깍두기를 썰 때 앞뒤 문단이 50글자씩 겹치게(Overlap/Stride) 슬라이딩 윈도우로 안전하게 비스듬히 썰어 겹쳐서 모델 입에 밀어 넣어주는 전처리 방어벽이 필수다.
📢 섹션 요약 비유: 2-Stage 검색(Retriever-Reader)은 거대한 10만 명 용의자 중에서 범인을 잡는 경찰 수사다. 1단계(Retriever)에서는 파출소 순경들이 인상착의(키워드)만 대충 보고 빠르게 5명의 유력 용의자를 파출소로 잡아 온다. 2단계(Reader MRC)에서는 서울지방경찰청 최고 엘리트 형사가 그 5명만 골방에 가둬놓고 땀구멍까지 현미경으로 털어서 진짜 진범 1명(정답)을 완벽하게 핀포인트로 잡아내는 소름 돋는 분업 시스템이다. 엘리트 형사(MRC) 혼자 10만 명을 다 심문하려 들면 과로사로 죽는다.

Ⅴ. 기대효과 및 결론

기계 독해(MRC)의 성취는 컴퓨터가 단순히 글자를 기계적으로 매칭(검색)하던 원시 시대에서 벗어나, 문맥의 숨겨진 의미와 인과관계를 인간의 수능 시험처럼 입체적으로 파악하는 **'인지적 문해력(Reading Comprehension)'**의 1차 임계점을 돌파한 위대한 역사적 마일스톤이다.

비록 창의적인 글짓기 능력은 거대 언어 모델(GPT)에게 왕좌를 내어주었지만, MRC의 뼈대였던 어텐션(Attention) 기반의 토큰 매핑 수학과 2-Stage 검색-독해(Retriever-Reader) 파이프라인 아키텍처는 고스란히 RAG(검색 증강 생성) 시스템의 척추뼈로 이식되어 살아 숨 쉬고 있다.

현재도 기업 내부망(On-premise) 환경에서는 보안 유출 우려 때문에 외부 API(OpenAI)를 쓸 수 없거나 값비싼 GPU 랙을 살 돈이 없는 수많은 스타트업과 공공기관이 존재한다. 이 극한의 가성비와 보안, 그리고 "절대 거짓말을 하지 않는다"는 100% 추출형 팩트 무결성이 결합 된 환경에서, MRC는 가장 빠르고 가벼우며 절대 실패하지 않는 B2B 지식 검색의 백엔드 수호신으로 영원히 현역에서 군림할 것이다.

📢 섹션 요약 비유: 거대 언어 모델(LLM)이 우주의 지식을 다 아는 화려하고 비싼 '만능 교수님'이라면, 기계 독해(MRC)는 내 책상 위에 올려진 책 더미 속에서 내가 원하는 문장 딱 1줄만 1초 만에 형광펜으로 그어주는 극강의 가성비 '조교'다. 교수님을 모실 돈이 없거나, 교수님이 가끔 헛소리하는 게 치명적으로 무서운 회사라면, 묵묵하고 정확하게 책 안에서만 답을 찾는 이 가벼운 조교가 훨씬 더 위대하고 든든한 일꾼이다.

📌 관련 개념 맵

개념	연결 포인트
SQuAD (스탠퍼드 질의응답 데이터셋)	인공지능의 독해력을 인간 고3 수험생 수준과 비교하기 위해 만든 전 세계에서 가장 유명한 영어 시험지 벤치마크. 모델 성능 평가의 절대 기준
BERT (Bidirectional Encoder Representations)	트랜스포머의 앞단(인코더)만 떼어내 만든 모델로, 문맥을 양방향으로 미친 듯이 정밀하게 읽어내어 추출형 MRC 시장의 생태계를 평정한 황제 딥러닝 뇌
Retriever-Reader 파이프라인	10만 장 문서에서 거칠게 5장만 대충 긁어오는 놈(Retriever)과, 그 5장을 돋보기로 파헤쳐서 정답 1줄을 뽑아내는 놈(Reader)이 융합된 실무 대용량 MLOps 검색 아키텍처
RAG (검색 증강 생성)	MRC의 "찾아내기" 기술과 거대 언어 모델(LLM)의 "말 지어내기" 기술을 섞어, 팩트를 찾은 뒤 예쁜 말로 포장해서 뱉어주는 현대 챗봇 시스템의 완전체 융합

👶 어린이를 위한 3줄 비유 설명

기계 독해(MRC)는 100장짜리 두꺼운 동화책을 통째로 꿀꺽 삼킨 다음, 우리가 궁금한 걸 물어보면 대답해 주는 **'슈퍼 스피드 독서 천재 로봇'**이에요.
옛날 검색 로봇은 "주인공 이름 어딨어?" 물으면 "3페이지랑 5페이지에 이름 비슷해 보이는 글자 있어!" 하고 책만 툭 던져주고 도망갔어요.
하지만 MRC 로봇은 책을 쫙 스캔하더니 3페이지 5번째 줄의 [백설 공주] 딱 네 글자에만 시뻘건 형광펜을 쫙 쳐서 정답만 우리 입에 쏙 넣어주는 최고의 비서랍니다!