451. GPT와 단방향 (Uni-directional) 자가 회귀 (Auto-regressive) 생성

핵심 인사이트 (3줄 요약)

본질: GPT(Generative Pre-trained Transformer)는 트랜스포머의 인코더를 버리고 오직 디코더(Decoder)만 사용하여, 문장을 왼쪽에서 오른쪽으로 한 방향(Uni-directional)으로만 읽으며 "그다음 단어는 뭘까?"를 끊임없이 예측하고 뱉어내는 릴레이 텍스트 생성기다.

가치: BERT처럼 문맥을 완벽하게 이해하기 위해 뒤의 내용을 몰래 훔쳐보는 짓(양방향)을 금지하고 오직 철저하게 과거의 단어들만 보고 미래를 창조하게 만들었더니, 오히려 기계가 해리포터 소설부터 파이썬 코드까지 세상에 없는 새로운 문장을 지어내는 창조(Generation)의 신이 되었다.

판단 포인트: GPT가 말을 만들어내는 자가 회귀(Auto-regressive) 방식은 방금 자신이 뱉은 단어를 다시 입력으로 집어넣는 꼬리물기 연산이므로 문장이 길어질수록 속도가 느려진다. 따라서 챗봇의 응답 속도(Latency)를 높이려면 KV 캐싱과 하드웨어 스펙이 극한으로 요구된다.

Ⅰ. 개요 및 필요성

"옛날 옛적에 어느 마을에 예쁜 ___" 이 문장을 주고 빈칸을 채우라고 하면 사람들은 "공주가", "소녀가"라고 쉽게 다음 말을 이어간다. 이것이 인간이 말을 하는 본질적인 방식이다. 우리는 문장을 끝까지 다 써놓고 빈칸을 뚫어 연습(BERT)하지 않는다. 오직 지금까지 뱉은 단어(과거)만 머릿속에 기억한 채로, 1초 뒤에 뱉을 다음 단어(미래)를 무의식적으로 예측하며 입 밖으로 내뱉는다.

"인공지능에게도 꼼수(양방향 컨닝)를 쓰지 말고, 인간처럼 오직 앞에서부터 읽은 단어들만 가지고 '다음 단어 맞추기 놀이'를 무한 반복 시키면 완벽한 대화를 할 수 있지 않을까?" 이 단순무식한 철학 하나로 트랜스포머의 절반(디코더)만 떼어내어 인터넷 전체를 달달 외우게 만든 것이 OpenAI의 걸작, GPT다.

📢 섹션 요약 비유: BERT가 이미 다 쓰인 소설책 중간의 찢어진 글자를 유추해 내는 '국어 교사'라면, GPT는 빈 원고지 위에 방금 자신이 쓴 글자까지만 쳐다보고 다음엔 무슨 글자를 쓸까 고민하며 이야기를 지어내는 '소설가'다.

Ⅱ. 아키텍처 및 핵심 원리

GPT는 트랜스포머 디코더 내부의 **마스크드 셀프 어텐션(Masked Self-Attention)**이라는 핵심 부품 하나로 돌아간다.

┌────────────────────────────────────────────────────────┐
│             [ GPT의 단방향(Uni-directional) 생성 파이프라인 ]  │
├────────────────────────────────────────────────────────┤
│ 1. 자가 회귀 (Auto-regressive) 릴레이                  │
│    - Step 1: 입력 [옛날] -> 예측 "옛적에"                 │
│    - Step 2: 입력 [옛날, 옛적에] -> 예측 "어느"            │
│    - Step 3: 입력 [옛날, 옛적에, 어느] -> 예측 "마을에"       │
│    - 자기가 방금 뱉어낸 단어를 다시 꼬리에 물고 입력으로 집어넣음!│
│                                                        │
│ 2. 마스크드 셀프 어텐션 (Masked Self-Attention)         │
│    - 100단어를 한 번에 GPU에 넣고 병렬 학습을 시킬 때 문제 발생   │
│    - 5번째 단어를 학습할 때 6, 7번째 단어(미래)가 눈에 보임! (컨닝)│
│    - 해결책: 대각선 위쪽 행렬(미래 단어들)을 무한대 음수(-∞)로  │
│             가려버림(Masking)! "절대 미래를 보지 마라!" 강제함 │
│                                                        │
│ 3. 스케일 업 (Scale Up) : 양치기 작전                    │
│    - 뼈대는 GPT-1부터 GPT-4까지 사실상 똑같음                 │
│    - 오직 파라미터 개수(1억 -> 1750억)와 데이터양만 미친 듯이 키움│
└────────────────────────────────────────────────────────┘

디코더 전용 (Decoder Only): 원래 트랜스포머 디코더에는 인코더가 보내온 정보를 받는 층(Encoder-Decoder Attention)이 있다. GPT는 인코더를 아예 안 쓰므로 이 층을 과감하게 뜯어버리고, 오직 자기 자신의 단어들끼리만 엮이는 셀프 어텐션 층만 수백 개를 쌓아 올린 극단적 다이어트 모델이다.
환각 (Hallucination)의 필연성: GPT는 자기가 방금 한 말의 확률적 흐름을 타고 다음 단어를 뱉기 때문에, 중간에 한 단어라도 거짓말을 뱉어버리면 "내가 한 말이 맞다"고 세뇌되어 그다음부터는 걷잡을 수 없이 뻔뻔한 거짓말(환각) 소설을 지어내게 되는 태생적 한계를 갖는다.

📢 섹션 요약 비유: GPT가 글을 쓰는 과정은 눈가리개를 한 경주마와 같다. 양옆과 뒤(과거)는 확실히 기억하지만, 눈가리개(Mask) 때문에 자기 앞에 무슨 말이 올지(미래)는 절대 볼 수 없다. 오직 자신의 과거 걸음걸이만 믿고 다음 한 발짝을 맹목적으로 내디디는 경주마 시스템이다.

Ⅲ. 비교 및 연결

구글(BERT)과 OpenAI(GPT)가 트랜스포머를 어떻게 반쪽씩 잘라서 다르게 진화시켰는지 비교해 본다.

비교 항목	구글 BERT	OpenAI GPT
트랜스포머 부품	앞쪽의 Encoder 블록만 떼어 옴	뒤쪽의 Decoder 블록만 떼어 옴
읽는 방향	문장 전체를 양방향으로 한 번에 읽음	단방향 (왼쪽에서 오른쪽으로만)
학습 목표	중간에 구멍 난 단어 맞추기 (MLM)	마지막 단어 다음 올 단어 맞추기 (NWP)
핵심 장점	문장의 문맥(Context) 이해도가 우주 최강	새로운 문장을 창조(생성)해 내는 능력 우주 최강
주요 활용 도메인	스팸 분류, 감성 분석, 구글 검색 엔진	챗봇 (ChatGPT), 소설 쓰기, 코드 생성

"BERT가 더 똑똑해 보이는데 왜 챗GPT가 세상을 지배했을까?" BERT는 완성된 문장을 던져주고 그 뜻을 분석하는(이해, NLU) 데는 최고지만, 텅 빈 백지를 주고 "옛날 옛적에..."라며 이야기를 시작해서 끝까지 이어나가는(생성, NLG) 구조가 아예 막혀있다. 반면 GPT는 "다음 단어, 그다음 단어"를 끝없이 뱉어내는 생성의 스페셜리스트라서 인간과 티키타카(채팅)를 할 수 있었던 것이다.

📢 섹션 요약 비유: BERT는 다른 사람이 쓴 난해한 시나 법률 문서를 읽고 그 뜻이 뭔지 완벽하게 해석해 내는 최고의 '평론가'다. 반면 GPT는 빈 종이와 펜을 쥐여주면 그 자리에서 해리포터 1권을 술술 써 내려가는 최고의 '소설가'다.

Ⅳ. 실무 적용 및 기술사 판단

실무 적용 시나리오: 회사 고객센터의 채팅 로그를 학습시켜 "고객의 컴플레인 메일에 자동으로 사과 답장을 써주는 AI"를 만든다. 이때 BERT를 쓰면 문장의 감정(화남)은 분류할 수 있어도 답장은 한 글자도 쓰지 못한다. 데이터 과학자는 허깅페이스에서 GPT-2나 LLaMA 같은 디코더 기반(Auto-regressive) 모델을 다운받아 파인 튜닝한다. 프롬프트로 "고객이 배송 지연에 화가 났어. 답장 써줘:"라고 던져주면, GPT 모델은 이 프롬프트를 꼬리에 물고 "죄송합니다", "고객님", "빠른", "시일 내에"라는 단어를 연쇄적으로(자가 회귀) 뱉어내며 완벽한 사과 메일을 3초 만에 생성해 낸다.

기술사 판단 포인트 (Trade-off): 자가 회귀(Auto-regressive) 기반의 LLM 아키텍처를 운영할 때 기술사는 **'TTFT(Time To First Token)'와 '디코딩 속도 병목'**을 제어해야 한다.

질문을 입력하고 첫 단어가 튀어나올 때까지 걸리는 시간(TTFT)은 입력 길이(프롬프트)에 비례한다.
하지만 첫 단어가 나온 뒤, 다음 단어들을 쭈르륵 뱉어내는 디코딩 단계는 병렬 연산(GPU)이 불가능하고 무조건 앞 단어가 나와야 다음 단어를 계산할 수 있는 극악의 **순차 병목(Sequential Bottleneck)**을 겪는다.
기술사는 이 생성 속도를 끌어올리기 위해, 디코더가 매번 앞 단어들의 행렬을 처음부터 다시 곱하지 않게 메모리에 캐싱하는 KV Cache 기술과, 여러 명의 유저가 동시에 질문했을 때 텐서를 합쳐서 한 번에 디코딩해 버리는 연속 배칭(Continuous Batching) 스케줄러(vLLM 등)를 도입해 챗봇의 렉(응답 지연)을 방어해야 한다.

📢 섹션 요약 비유: 공장에서 벽돌을 한 줄로 쌓을 때, 로봇 100대를 투입해도 밑에 벽돌이 없으면 위층 벽돌을 못 쌓는다(자가 회귀의 병목). 이 순차적 병목을 해결하려면, 로봇들을 놀게 놔두지 말고 A건물 벽돌을 쌓는 1초의 틈을 타서 B건물 벽돌도 같이 쌓게 하는 지능적인 작업 스케줄링(연속 배칭)이 필수적이다.

Ⅴ. 기대효과 및 결론

GPT(Generative Pre-trained Transformer)는 "어차피 세상의 모든 말과 글은 결국 과거의 단어들이 모여 미래의 단어 하나를 뱉어내는 인과 법칙(Causality)이다"라는 것을 수천억 개의 파라미터로 증명한 언어 모델의 결정체다. 미래를 컨닝하는 것을 포기(마스킹)한 대가로, 기계는 미래를 스스로 개척하는 진짜 언어 생성의 지능을 얻었다.

결론적으로 오늘날 챗GPT, 클로드(Claude), 제미나이(Gemini) 등 전 세계를 뒤흔드는 모든 챗봇 AI는 예외 없이 이 GPT의 단방향 디코더 아키텍처를 그대로 똑같이 사용하고 있다. 기술사는 사용자와 티키타카를 주고받는 모든 생성형 AI 시스템의 심장에는, "내가 방금 한 말을 다시 내 뇌로 집어넣어 다음 1단어를 찍어내는" 이 고단하고 무한한 꼬리물기(Auto-regressive) 노가다가 돌고 있음을 직시해야 한다.

📢 섹션 요약 비유: 끝말잇기 게임과 똑같다. 앞사람이 무슨 단어를 말했는지가 유일한 규칙이고, 그다음 나올 단어는 오직 내 머릿속의 어휘력(파라미터)과 상상력에 달렸다. GPT는 전 세계 모든 책을 읽고 끝말잇기를 연습해서, 인간이 던진 어떤 단어에도 막힘없이 1만 단어를 술술 이어가는 끝말잇기의 신이다.

📌 관련 개념 맵

상위 개념: 트랜스포머 (Transformer), 거대 언어 모델 (LLM)
하위 개념: 디코더 (Decoder), 마스크드 셀프 어텐션 (Masked Self-Attention), 자가 회귀 (Auto-regressive)
연결 개념: BERT (양방향 인코더), KV Cache, 할루시네이션 (환각)

👶 어린이를 위한 3줄 비유 설명

"옛날 옛적에"라는 말을 들려주면, 그다음엔 무슨 말이 올까요?
GPT 앵무새는 책의 뒷부분을 몰래 훔쳐보지 않고, 오직 자기가 들은 말만 곰곰이 생각해서 "어느 마을에..."라고 1초 만에 다음 단어를 던져요.
그리고 자기가 뱉은 말을 다시 귀로 듣고 "옛날 옛적에 어느 마을에... 아! 예쁜 공주가!"라며 꼬리에 꼬리를 물고 무한대로 동화책을 써 내려가는 천재 소설가 앵무새랍니다!