마스크드 셀프 어텐션 (Masked Self-Attention)

핵심 인사이트 (3줄 요약)

트랜스포머의 **디코더(Decoder)**가 단어를 생성할 때, 현재 시점 이후의 '미래 단어'를 미리 보지 못하도록 차단하는 메커니즘이다.
어텐션 스코어 행렬에서 미래 위치의 값을 **음의 무한대(-∞)**로 마스킹하여, 소프트맥스 결과값이 0이 되게 함으로써 정보 유출(Information Leakage)을 방지한다.
이를 통해 모델은 '과거'와 '현재'의 정보만을 활용하여 다음 단어를 예측하는 자기 회귀(Auto-regressive) 속성을 유지하게 된다.

Ⅰ. 개요 (Context & Background)

트랜스포머의 인코더는 문장 전체를 한꺼번에 보고 문맥을 파악하지만, 무언가를 '생성'해야 하는 디코더는 한 단계씩 순차적으로 동작해야 한다. 훈련 단계에서 디코더는 정답 문장 전체를 입력받는데, 마스킹 처리가 없다면 모델은 다음 단어를 예측하는 법을 배우는 대신 '다음에 올 정답'을 컨닝하는 방식으로 학습하게 된다. 마스크드 셀프 어텐션(Masked Self-Attention)은 이러한 컨닝을 물리적으로 차단하여 실전(추론)과 동일한 환경을 훈련 시에 강제한다.

Ⅱ. 아키텍처 및 핵심 원리 (Deep Dive)

마스킹은 어텐션 스코어 계산 직후, 소프트맥스(Softmax) 적용 직전에 수행된다.

[ Masked Self-Attention Process ]

1. Query x Key^T 행렬 계산 (Scaled Dot-Product)
2. Look-ahead Mask 적용 (삼각형 모양)
3. Softmax 적용하여 가중치 산출

[ Mask Matrix (Look-ahead) ]
    Col: 1  2  3  4
Row 1: [0 -∞ -∞ -∞]  <-- 단어 1은 본인만 봄
Row 2: [0  0 -∞ -∞]  <-- 단어 2는 1, 2만 봄
Row 3: [0  0  0 -∞]  <-- 단어 3은 1, 2, 3만 봄
Row 4: [0  0  0  0]  <-- 단어 4는 전체를 봄

* 0: 허용 (Keep)
* -∞: 차단 (Masked) -> exp(-∞) = 0

Ⅲ. 융합 비교 및 다각도 분석 (Comparison & Synergy)

구분	셀프 어텐션 (Self-Attention)	마스크드 셀프 어텐션 (Masked)
적용 위치	트랜스포머 인코더 (Encoder)	트랜스포머 디코더 (Decoder)
정보 가용성	문장 전체 (양방향)	이전 단어들만 (단방향/인과적)
목적	전체 문맥 이해	다음 토큰 생성 (Generative)
대표 모델	BERT, RoBERTa	GPT 패밀리 (Generative Pre-trained)

Ⅳ. 실무 적용 및 기술사적 판단 (Strategy & Decision)

기술사적 관점에서 마스킹은 인과성(Causality) 보존 기술이다.

Causal Language Modeling (CLM): GPT와 같은 생성형 모델의 핵심이며, 훈련 데이터의 양과 비례하여 모델의 추론 성능이 비약적으로 상승하는 원동력이 된다.
병렬 훈련의 마법: 마스크 행렬 덕분에 디코더는 순차적 데이터(Time-step)임에도 불구하고, 훈련 시에는 모든 단어의 손실(Loss)을 한 번의 행렬 연산으로 계산할 수 있어 학습 속도가 획기적으로 향상된다.
패딩 마스크(Padding Mask): 문장 길이를 맞추기 위한 무의미한 [PAD] 토큰을 어텐션에서 제외할 때도 유사한 마스킹 기법이 사용된다.

Ⅴ. 기대효과 및 결론 (Future & Standard)

마스크드 셀프 어텐션은 트랜스포머가 인코더-디코더 구조뿐만 아니라, 오직 디코더만으로 구성된 강력한 생성 AI(LLM) 시대를 여는 결정적 열쇠가 되었다. '미래를 보지 못하게 하는 제약'이 역설적으로 AI의 '예측 능력'을 극대화한 사례이다. 현대의 모든 거대 언어 모델(Llama, GPT-4 등)의 근간이 되는 원리로서, 생성형 AI 아키텍처의 불변하는 표준으로 자리 잡았다.

📌 관련 개념 맵 (Knowledge Graph)

상위 개념: 어텐션 메커니즘, 트랜스포머 디코더
하위/파생 개념: Look-ahead Mask, Padding Mask, Causal LM
연관 기술: GPT (Decoder-only), 어텐션 스코어링

👶 어린이를 위한 3줄 비유 설명

끝말잇기 게임을 할 때, 다음에 올 단어를 미리 알고 있으면 재미가 없겠죠?
AI가 공부할 때 다음 단어를 미리 보고 정답을 맞히지 못하게, 뒷부분을 가려버리는 거예요.
마치 시험을 볼 때 뒷장을 못 보게 종이로 가려두고 한 문제씩 푸는 것과 같답니다!