GPT (Generative Pre-trained Transformer)

핵심 인사이트 (3줄 요약)

문장 생성의 혁명: 트랜스포머의 디코더 구조를 활용하여 이전 단어들을 보고 다음 단어를 예측하는 '자가 회귀(Auto-Regressive)' 방식의 생성 모델입니다.
사전 학습의 확장성: 별도의 미세 조정 없이도 질문에 답하거나 요약하는 등 다양한 작업을 수행할 수 있는 범용 인공지능(AGI)의 가능성을 제시했습니다.
거대화의 승리: 모델의 크기와 데이터양을 기하급수적으로 늘림으로써(GPT-3, GPT-4), 인간 수준의 자연스러운 대화와 논리적 추론 능력을 확보했습니다.

Ⅰ. 개요 (Context & Background)

OpenAI가 2018년 처음 발표한 GPT는 "언어 모델링 자체가 곧 학습이다"라는 철학 아래 탄생했습니다. BERT가 문장 내부의 관계 파악(NLU)에 집중했다면, GPT는 다음에 올 가장 확률 높은 단어를 찾아내는 '생성(NLG)'에 특화되었습니다. 특히 GPT-3 이후로는 단순히 말을 잘하는 수준을 넘어, 인간의 지식을 통계적으로 압축한 '지식 거울'로서의 역할을 수행하고 있습니다.

Ⅱ. 아키텍처 및 핵심 원리 (Deep Dive)

GPT는 트랜스포머의 디코더(Decoder) 구조를 기반으로 하며, 미래의 단어를 보지 못하도록 가리는 'Masked Self-Attention'을 핵심으로 합니다.

[ GPT Architecture & Generation Flow ]

Input Tokens: [ <So>, <it>, <is> ]
                  |     |      |
      [ Masked Self-Attention Layer ]  <-- 미래 토큰(next) 차단
                  |     |      |
      [ Feed Forward & Layer Norm ]
                  |     |      |
Output (Prob):  [ it,  is,  <good> ]   <-- "good"을 다음 단어로 생성

<Bilingual Components>
- Auto-Regressive (자가 회귀): 생성한 단어를 다시 입력으로 넣어 다음 단어를 만듦 (Uses past output as input)
- Zero-shot / Few-shot Learning: 학습 없이 혹은 예시 몇 개만으로 결과 도출 (Task inference)
- Scaling Law (스케일링 법칙): 모델 크기와 데이터가 늘면 성능은 예측 가능하게 향상됨 (Power law)

핵심 메커니즘:

Pre-training: 인터넷의 방대한 텍스트 데이터를 통해 단어 간의 통계적 확률 분포를 학습합니다.
In-context Learning: 프롬프트에 주어진 몇 가지 예시나 지시사항만으로도 실시간으로 새로운 작업을 수행합니다.
RLHF (RL from Human Feedback): 인간의 선호도를 반영하여 모델이 더 유익하고 안전하게 답변하도록 강화 학습을 적용합니다 (ChatGPT의 핵심).

Ⅲ. 융합 비교 및 다각도 분석 (Comparison & Synergy)

비교 항목	GPT (Decoder-only)	BERT (Encoder-only)	T5 (Encoder-Decoder)
주요 작업	문장 생성, 대화, 창작	분류, 요약, 문맥 파악	번역, 요약 (Sequence 변환)
학습 방식	다음 단어 예측 (Causal LM)	빈칸 채우기 (Masked LM)	입력 → 출력 변환
추론 방식	순차적 (느림)	일시적 (빠름)	하이브리드
일반화 능력	최상 (In-context learning)	중간 (Fine-tuning 필수)	높음
대표 모델	GPT-4, Llama, Claude	RoBERTa, ELECTRA	T5, BART

Ⅳ. 실무 적용 및 기술사적 판단 (Strategy & Decision)

실무 적용 전략:

대화형 AI (Chatbots): 고객 응대, 비서 업무 등 인간과의 상호작용이 필요한 서비스의 핵심 엔진으로 사용됩니다.
콘텐츠 생성: 기사 작성, 코드 생성, 창의적 글쓰기 등 생산성 도구로 활용됩니다.
범용 추론 도구: 데이터 분석, 논리적 결론 도출, 복잡한 지시 이행 등 지식 노동의 자동화를 이끕니다.

기술사적 판단: "GPT는 AI 개발의 문법을 '코딩'에서 '프롬프팅'으로 바꿨습니다. 이제는 모델을 새로 만드는 것보다, 거대 모델(LLM)을 어떻게 우리 도메인에 안전하고 정확하게 연결할 것인가(RAG, Agent)가 더 중요한 기술사적 과제입니다. 특히 할루시네이션(Hallucination) 제어가 실무 성공의 성패를 가를 것입니다."

Ⅴ. 기대효과 및 결론 (Future & Standard)

GPT는 인간의 언어 지능을 디지털화하는 데 성공했습니다. 앞으로는 텍스트를 넘어 이미지, 비디오, 오디오를 동시에 처리하는 멀티모달(Multimodal) AI로 진화하며, 우리 삶의 모든 디지털 접점에서 인간과 협업하는 '지능형 에이전트'의 표준이 될 것입니다.

📌 관련 개념 맵 (Knowledge Graph)

상위 개념: Generative AI, Large Language Model (LLM)
유사 개념: Llama, PaLM, Gemini
하위 기술: RLHF, In-context Learning, Self-Attention

👶 어린이를 위한 3줄 비유 설명

다음에 올 단어를 척척 맞히는 '끝말잇기 대장' AI예요.
세상의 거의 모든 책을 다 읽어서, 어떤 질문을 해도 대답할 수 있는 '걸어 다니는 백과사전'이죠.
우리가 시키는 대로 멋진 이야기를 지어내거나 숙제를 도와주는 똑똑한 로봇 친구랍니다!