핵심 인사이트 (3줄 요약)
- 순차적으로 데이터를 처리하는 RNN과 달리, 모든 단어를 병렬로 한꺼번에 처리하는 트랜스포머(Transformer) 아키텍처에서 단어의 위치 정보를 주입하기 위한 기법이다.
- 각 단어의 임베딩 벡터에 고유한 위치 값을 가진 벡터를 더함으로써, 모델이 문장 내 단어의 순서와 거리를 인식하게 한다.
- 주로 사인(Sine)과 코사인(Cosine) 함수를 이용한 주기적 함수를 사용하여, 가변적인 문장 길이에도 유연하게 대응하고 상대적 위치 정보를 보존한다.
Ⅰ. 개요 (Context & Background)
트랜스포머는 RNN의 순차적 연산 한계를 극복하고 병렬화를 실현했지만, '어느 단어가 앞에 오고 뒤에 오는지'에 대한 정보(Sequence)가 소실되는 치명적 단점이 있었다. 이를 해결하기 위해 입력 임베딩에 위치 정보를 나타내는 벡터를 더해주는 방식이 고안되었다. 학습 가능한 파라미터(Positional Embedding)를 쓸 수도 있지만, "Attention Is All You Need" 논문에서는 수학적 함수 기반의 포지셔널 인코딩을 제안하여 미학습 문장 길이에 대한 일반화 성능을 확보했다.
Ⅱ. 아키텍처 및 핵심 원리 (Deep Dive)
포지셔널 인코딩은 단어 임베딩 벡터와 동일한 차원을 가지며, 각 차원마다 다른 주기의 삼각함수를 적용한다.
[ Positional Encoding Mechanism ]
( Input Tokens ) ( Word Embeddings ) ( Positional Encoding )
[ I ] [ love ] [ AI ] --> [ E1 ] [ E2 ] [ E3 ] + [ PE1 ] [ PE2 ] [ PE3 ]
| |
v v
[ Final Input Vector for Transformer ]
1. PE(pos, 2i) = sin(pos / 10000^(2i/d_model))
2. PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model))
* pos: 단어의 위치 (0, 1, 2, ...)
* i: 벡터 내의 차원 인덱스
* d_model: 전체 모델 차원 (임베딩 차원)
[왜 삼각함수인가?]
- 상대적 위치 표현: 선형 변환을 통해 특정 거리(k)만큼 떨어진 두 단어의 관계를 쉽게 학습할 수 있음.
- 무한 확장성: 훈련 시보다 긴 문장이 들어와도 주기적 특성 덕분에 일관된 패턴을 제공함.
Ⅲ. 융합 비교 및 다각도 분석 (Comparison & Synergy)
| 구분 | RNN의 순서 처리 | 고정 포지셔널 인코딩 (Sin/Cos) | 학습용 포지셔널 임베딩 (Learned) |
|---|---|---|---|
| 처리 방식 | 순차적 (Hidden State) | 임베딩에 벡터 합산 | 학습을 통해 가중치 결정 |
| 병렬성 | 불가능 | 가능 (병렬 입력) | 가능 |
| 문장 길이 | 가변적 대응 가능 | 매우 유연함 (추론 시 확장) | 고정된 최대 길이 내에서만 작동 |
| 특징 | 장기 의존성 문제 발생 | 수학적 상대 거리 보존 | 모델 데이터에 최적화 가능 |
Ⅳ. 실무 적용 및 기술사적 판단 (Strategy & Decision)
기술사적 관점에서 포지셔널 인코딩은 구조적 정보(Structural Information)의 주입 기술이다.
- RoPE (Rotary Positional Embedding): 최신 모델(Llama 등)에서는 절대적 합산 대신 회전 행렬을 적용하여 상대적 거리에 따른 감쇠 효과를 극대화하는 기법을 채택하고 있다.
- ALiBi (Attention with Linear Biases): 어텐션 스코어에 직접 위치 페널티를 부여하여 무한한 길이의 문맥을 처리하려는 시도들이 이어지고 있다.
- 최적화: 단순히 더하는 방식에서 나아가, 고차원 공간에서 단어의 의미와 위치를 어떻게 분리하거나 결합할지가 모델 성능의 핵심이다.
Ⅴ. 기대효과 및 결론 (Future & Standard)
포지셔널 인코딩은 '병렬성'과 '순서 정보'라는 두 마리 토끼를 잡은 혁신적인 아이디어이다. 이는 자연어 처리를 넘어 이미지(ViT), 오디오 등 모든 순차적 데이터 아키텍처의 표준이 되었다. 최근에는 긴 문맥(Long Context) 처리 능력이 LLM의 핵심 경쟁력이 됨에 따라, 더욱 정교하고 효율적인 위치 표현 기법들이 AI 아키텍처의 고도화를 이끌고 있다.
📌 관련 개념 맵 (Knowledge Graph)
- 상위 개념: 트랜스포머 (Transformer), 자기 지도 학습
- 하위/파생 개념: RoPE (Rotary), ALiBi, Relative Positional Encoding
- 연관 기술: 어텐션 (Attention), 임베딩 (Embedding)
👶 어린이를 위한 3줄 비유 설명
- 트랜스포머는 친구들이 한꺼번에 말을 하면 누가 먼저 말했는지 헷갈려해요.
- 그래서 각 단어한테 "나는 1번 단어야!", "나는 2번 단어야!"라고 이름표를 붙여주는 거예요.
- 물결 모양의 노래(삼각함수) 리듬에 맞춰 번호를 적어두면, 섞여 있어도 순서를 금방 알 수 있답니다!