인코더-디코더 어텐션 (Cross Attention)

핵심 인사이트 (3줄 요약)

이종 정보의 결합: 트랜스포머(Transformer) 디코더가 인코더에서 생성된 문맥 정보를 참조하여 타겟 시퀀스를 생성하는 핵심 연결 기법임.
Q-K-V의 분리원천: 쿼리(Query)는 디코더에서, 키(Key)와 값(Value)은 인코더의 출력에서 가져와 두 시퀀스 간의 정렬(Alignment)을 수행함.
병목 해결 및 정보 주입: 고정된 컨텍스트 벡터의 한계를 넘어, 생성 시점마다 필요한 입력 정보를 동적으로 선택하여 정확도를 극대화함.

Ⅰ. 개요 (Context & Background)

개념: Seq2Seq 모델의 인코더와 디코더 사이의 다리 역할을 수행하는 어텐션 매커니즘으로, 번역 등 생성 태스크에서 입력어와 출력어 사이의 관계를 모델링함.
필요성: 디코더는 현재 생성 중인 단어만 알고 있으므로, 입력 문장의 어떤 단어에 집중해야 할지 결정하기 위해 인코더의 정보가 필요함.

Ⅱ. 아키텍처 및 핵심 원리 (Deep Dive)

1. Cross Attention 메커니즘

입력 소스:
- Query (Q): 이전 디코더 레이어의 출력 (현재 생성하려는 문맥).
- Key (K) & Value (V): 인코더의 최종 출력 (입력 문장 전체의 의미 정보).

[ Transformer Cross Attention Architecture ]
       (Decoder Side)                     (Encoder Side)
             |                                  |
     [ Masked Self-Attn ]               [ Self-Attention ]
             |                                  |
             V                                  V
     +---------------+                  +---------------+
     |     Query     | <--------------  | Key / Value   |
     +---------------+                  +---------------+
             |                                  |
             +------------> [ Attention ] <-----+
                                   |
                                   V
                          [ Weighted Sum (V) ]
                                   |
                                   V
                         (Next Decoder Layer)

2. 연산 과정

디코더의 $Q$와 인코더의 모든 $K$ 사이의 유사도(Dot-product)를 계산함.
소프트맥스(Softmax)를 거쳐 가중치 분포를 얻음.
이 가중치를 인코더의 $V$에 곱하여 최종적인 '입력 문맥 정보'를 추출함.

Ⅲ. 융합 비교 및 다각도 분석 (Comparison & Synergy)

비교 항목	셀프 어텐션 (Self-Attention)	크로스 어텐션 (Cross Attention)
Q, K, V 출처	동일한 입력 시퀀스	Q: 디코더 / K, V: 인코더
주요 목적	시퀀스 내부의 문맥 파악	두 시퀀스 간의 상관관계(정렬) 파악
적용 위치	인코더 전체, 디코더 하단	디코더 중간 (Encoder-Decoder 블록)
예시	"it"이 무엇을 가리키는지 파악	영단어 "Apple"이 "사과"에 대응됨을 파악

Ⅳ. 실무 적용 및 기술사적 판단 (Strategy & Decision)

실무 적용: 기계 번역(NMT), 요약, 이미지 캡셔닝(Image → Text), 음성 인식(Speech → Text) 등 복합 시퀀스 처리.
기술사적 판단: 셀프 어텐션이 '내적 의미'를 다룬다면, 크로스 어텐션은 '외적 연관성'을 다룸. 최근 LLM(GPT 계열)은 디코더 전용(Decoder-only) 구조를 사용하여 크로스 어텐션 대신 마스크드 셀프 어텐션에 의존하지만, 멀티모달(Vision-Language) 모델에서는 다시 핵심적인 연결고리로 부상하고 있음.

Ⅴ. 기대효과 및 결론 (Future & Standard)

기대효과: 인코더의 방대한 정보를 손실 없이 디코더에 주입하여, 긴 문장에서도 정확한 문맥 유지를 가능케 함.
결론: 크로스 어텐션은 트랜스포머 아키텍처를 '범용 시퀀스 변환기'로 만든 일등 공신이며, 서로 다른 도메인의 데이터를 통합하는 표준 인터페이스 역할을 함.

📌 관련 개념 맵 (Knowledge Graph)

상위 개념: Transformer, Attention Mechanism
하위 개념: Scaled Dot-Product Attention, Alignment
확장 개념: Multi-modal Attention, Co-attention

👶 어린이를 위한 3줄 비유 설명

번역가가 영어를 한국어로 바꿀 때, 방금 쓴 한국어 단어($Q$)와 원본 영어 문장($K, V$)을 번갈아 보는 것과 같아요.
"사과"라는 단어를 쓸 때 영어 책의 "Apple" 부분을 뚫어지게 쳐다보며 힌트를 얻는 거죠.
내가 지금 하는 말과 상대방이 한 말을 서로 맞춰보며 대답을 준비하는 영리한 귀와 같아요.