핵심 인사이트 (3줄 요약)
- 본질: NVLink / NVSwitch는 여러 GPU (Graphics Processing Unit)가 거대한 AI (Artificial Intelligence) 모델의 파라미터와 활성값을 주고받을 때, 범용 버스인 PCIe (Peripheral Component Interconnect Express)의 병목을 피하도록 만든 고대역폭 GPU 전용 인터커넥트 패브릭이다.
- 가치: 단일 GPU의 연산 성능이 아니라 GPU 집합 전체의 통신 효율을 끌어올려, 분산 학습에서 All-Reduce·All-Gather 같은 집단 통신이 연산을 멈추게 하지 않도록 만든다.
- 판단 포인트: NVLink가 있다고 항상 유리한 것은 아니며, 워크로드가 실제로 GPU 간 대량 동기화를 요구하는지, 그리고 토폴로지가 NVSwitch 기반의 완전 연결인지가 도입 판단의 핵심이다.
Ⅰ. 개요 및 필요성
NVLink / NVSwitch는 다중 GPU 서버 내부에서 GPU끼리 데이터를 직접, 빠르게, 반복적으로 교환하기 위해 설계된 NVIDIA 전용 고속 연결 구조다. 대형 언어 모델 (LLM, Large Language Model) 학습이나 초대형 추천 모델 학습에서는 한 장의 GPU 메모리만으로 모델을 담기 어렵고, 텐서 병렬화와 파이프라인 병렬화 때문에 매 스텝마다 막대한 중간 결과와 그래디언트가 오간다. 이때 통신이 PCIe에만 의존하면 연산 코어는 계산보다 대기를 더 오래 하게 되고, 비싼 GPU가 실질적으로는 "버스를 기다리는 장치"로 전락한다.
문제의 본질은 GPU 수가 늘수록 계산량만 선형으로 늘지 않는다는 데 있다. 8장의 GPU를 묶으면 연산 자원은 8배가 되지만, 파라미터 동기화·텐서 조각 교환·집단 통신 때문에 통신 패턴은 훨씬 복잡해진다. 따라서 AI 가속기 시대의 병목은 "GPU가 얼마나 빠른가"보다 "GPU들이 서로 얼마나 빨리 합의하는가"로 이동했고, 그 답으로 나온 것이 NVLink와 NVSwitch다.
┌──────────────────────────────────────────────────────────────────────┐
│ 다중 GPU 학습의 병목 이동: 계산 부족이 아니라 통신 정체 │
├──────────────────────────────────────────────────────────────────────┤
│ GPU0 계산 ─┐ │
│ GPU1 계산 ─┼─▶ 결과 교환 / 그래디언트 동기화 / 파라미터 집계 ─▶ 다음 스텝 │
│ GPU2 계산 ─┤ │
│ GPU3 계산 ─┘ │
│ │
│ 계산이 빨라질수록 다음 스텝의 시작 시점은 "가장 느린 통신"이 결정한다. │
└──────────────────────────────────────────────────────────────────────┘
따라서 NVLink / NVSwitch는 단순한 케이블 기술이 아니라, 멀티 GPU 시스템에서 연산 자원을 실제 성능으로 바꾸기 위한 필수 인프라로 이해해야 한다. GPU를 더 꽂는 행위와 GPU를 더 잘 연결하는 행위는 전혀 다른 투자다.
- 📢 섹션 요약 비유: 고성능 주방에 요리사 8명을 더 배치해도, 재료를 주고받는 통로가 좁으면 모두 도마 앞에서 기다리게 된다. NVLink는 주방 사이의 넓은 통로이고, NVSwitch는 여러 주방이 동시에 막히지 않게 동선을 정리하는 중앙 허브다.
Ⅱ. 아키텍처 및 핵심 원리
NVLink는 GPU와 GPU, 혹은 GPU와 CPU (Central Processing Unit) 사이를 잇는 고속 링크이며, NVSwitch는 여러 NVLink 경로를 스위칭하여 다수의 GPU가 동시에 높은 대역폭으로 통신하도록 만드는 패브릭 칩이다. 쉽게 말해 NVLink가 "도로"라면, NVSwitch는 여러 도로를 충돌 없이 연결해 주는 "비차단 교차로"에 가깝다. 최신 NVIDIA HGX 보드에서는 각 GPU가 여러 개의 NVLink 포트를 가지고 NVSwitch에 연결되며, 소프트웨어는 이를 통해 특정 GPU 쌍만 빠른 것이 아니라 전체 집합이 고르게 통신할 수 있는 토폴로지를 얻는다.
| 구성 요소 | 역할 | 성능 관점 핵심 | 설계 포인트 |
|---|---|---|---|
| NVLink | GPU 간 점대점 고속 링크 | 세대별로 대역폭 증가, H100 계열 기준 GPU당 최대 900 GB/s급 집계 대역폭 제공 | 링크 수와 세대가 전체 성능을 좌우 |
| NVSwitch | 다수 GPU를 연결하는 스위치 패브릭 | GPU 쌍 간 통신 편차를 줄이고 집단 통신 성능을 안정화 | 비차단에 가까운 내부 스위칭 구조가 중요 |
| HGX / DGX 보드 | NVLink·NVSwitch가 집적된 서버 보드 | 단순 8-GPU 조립 서버와 다른 통신 특성을 제공 | 슬롯 수보다 토폴로지 확인이 우선 |
| NCCL (NVIDIA Collective Communications Library) | 하드웨어 패브릭을 활용하는 집단 통신 라이브러리 | All-Reduce, Broadcast, All-Gather 성능을 좌우 | 링크를 잘 쓰는 소프트웨어 스택이 필요 |
다음 그림은 "PCIe 중심 경로"와 "NVSwitch 중심 경로"의 차이를 보여준다.
┌──────────────────────── PCIe 중심 멀티 GPU ─────────────────────────┐
│ GPU0 ─┐ │
│ GPU1 ─┼─▶ PCIe Switch / CPU Root Complex ─▶ 메모리 / 타 GPU │
│ GPU2 ─┤ │
│ GPU3 ─┘ │
│ 병목 지점이 중앙 버스와 호스트 경로에 몰리기 쉽다. │
└──────────────────────────────────────────────────────────────────────┘
┌─────────────────────── NVSwitch 중심 멀티 GPU ──────────────────────┐
│ GPU0 ─┐ ┌──────────────┐ ┌─ GPU4 │
│ GPU1 ─┼────────┤ ├────────┼─ GPU5 │
│ GPU2 ─┼────────┤ NVSwitch ├────────┼─ GPU6 │
│ GPU3 ─┘ └──────────────┘ └─ GPU7 │
│ 여러 GPU가 동시에 패브릭을 통해 직접 교환하며 집단 통신을 수행한다. │
└──────────────────────────────────────────────────────────────────────┘
핵심은 "메모리를 완전히 하나로 합친다"가 아니라, 원격 GPU 메모리에 대한 접근과 데이터 교환의 비용을 크게 낮춘다는 점이다. Unified Virtual Addressing이나 GPUDirect 계열 기술이 소프트웨어 관점에서 주소 공간과 전송 경로를 단순화하더라도, 실제 데이터는 여전히 어느 GPU 메모리에 있는지와 어떤 토폴로지를 타는지의 영향을 받는다. 즉 NVLink / NVSwitch는 마법처럼 물리 제약을 없애는 기술이 아니라, 물리 제약을 충분히 완화해 분산 학습을 실용화하는 기술이다.
또한 NVSwitch의 가치는 대역폭 총량만이 아니라 대역폭의 균일성에도 있다. 일부 GPU 쌍만 빠르고 나머지는 우회해야 하는 구조에서는 링(Ring) 기반 집단 통신이 특정 구간에 묶여 전체 스텝 시간이 늘어난다. NVSwitch는 이런 편차를 줄여 "가장 느린 링크가 전체 학습을 멈추는 상황"을 완화한다.
- 📢 섹션 요약 비유: NVLink는 도시 사이를 잇는 고속도로이고, NVSwitch는 어느 방향에서 차가 몰려와도 특정 톨게이트 하나에만 막히지 않게 설계된 입체 분기점이다. 중요한 것은 차가 빠르게 달리는 것뿐 아니라, 어느 도시에서 출발하든 비슷한 시간 안에 도착하는 균일한 도로망이라는 점이다.
Ⅲ. 비교 및 연결
NVLink / NVSwitch의 위치를 정확히 이해하려면 PCIe, CXL (Compute Express Link), UCIe (Universal Chiplet Interconnect Express)와의 경계를 구분해야 한다. PCIe는 범용 I/O 버스라서 호환성과 생태계가 강점이지만, AI 학습에 필요한 초고빈도 GPU 집단 통신에 맞춰 설계된 것은 아니다. CXL은 메모리 확장과 메모리 공유를 위한 개방형 표준으로 중요하지만, 현재의 핵심 가치는 CPU-메모리 계층 확장에 더 가깝다. UCIe는 패키지 내부 칩렛 연결 규격이므로, 서버 보드 내부의 다중 GPU 패브릭과는 적용 계층이 다르다.
| 항목 | PCIe | CXL | NVLink / NVSwitch |
|---|---|---|---|
| 주 용도 | 범용 장치 연결 | 메모리 확장·일관성 기반 확장 | GPU 집단 통신 최적화 |
| 강점 | 폭넓은 호환성 | 개방형 메모리 생태계 | 매우 높은 GPU 간 대역폭 |
| 약점 | 멀티 GPU 통신에선 병목 가능 | 아직 GPU 간 패브릭 대체는 제한적 | 폐쇄형 생태계 |
| 적합한 질문 | "장치를 어떻게 연결할까?" | "메모리를 어떻게 공유·확장할까?" | "GPU를 어떻게 하나의 학습 집단처럼 묶을까?" |
이 기술은 네트워크와 분산 시스템 관점에서도 연결된다. 노드 내부에서는 NVLink / NVSwitch가 GPU 집단을 묶고, 노드 외부에서는 InfiniBand와 GPUDirect RDMA (Remote Direct Memory Access)가 서버 간 전송을 맡는다. 즉 대규모 AI 클러스터는 "서버 내부 패브릭"과 "서버 외부 패브릭"이 계층적으로 결합된 구조이며, 내부 패브릭이 약하면 외부 네트워크가 아무리 빨라도 전체 효율은 오르지 않는다.
소프트웨어 측면에서는 NCCL이 이 구조를 가장 잘 활용한다. 분산 학습 프레임워크는 All-Reduce나 Reduce-Scatter를 호출하지만, 실제 성능은 하부 토폴로지와 집단 통신 알고리즘의 궁합에 의해 결정된다. 따라서 NVLink / NVSwitch는 하드웨어 기술이면서 동시에, 분산 AI 소프트웨어 설계의 전제조건이다.
- 📢 섹션 요약 비유: PCIe는 모든 차종이 다니는 일반 도로, CXL은 창고를 서로 빌려 쓰게 해 주는 물류 규약, NVLink는 레이싱 팀 전용 피트레인에 가깝다. 같은 "길"처럼 보여도, 누구를 위해 설계됐는지가 다르면 최고 성능이 나오는 상황도 달라진다.
Ⅳ. 실무 적용 및 기술사 판단
실무에서 가장 중요한 판단은 "GPU 개수"가 아니라 "GPU 간 통신 패턴"이다. 초거대 모델 학습처럼 텐서 병렬화와 잦은 동기화가 필요한 워크로드는 NVLink / NVSwitch 기반 HGX 계열 구성이 사실상 필수에 가깝다. 반대로 독립 요청을 여러 GPU가 나눠 처리하는 추론 서비스는 GPU 간 대용량 교환이 적으므로, PCIe 기반 서버가 비용 대비 효율이 더 좋을 수 있다.
도입 판단 기준
- 학습 중심 워크로드
- 모델 병렬화, MoE (Mixture of Experts), 대규모 All-Reduce가 잦다면 NVLink / NVSwitch 우선 검토
- GPU 메모리 총량보다 GPU 간 교환량이 병목인지 먼저 측정
- 추론 중심 워크로드
- 요청 단위 독립성이 높고 GPU 간 교환이 적다면 고가 패브릭의 투자 대비 효과가 낮음
- 배치 추론, 모델 복제 서빙은 PCIe 기반도 충분할 수 있음
- 토폴로지 검증
- "8 GPU"라는 숫자만 보지 말고
nvidia-smi topo -m수준의 실제 연결 구조 확인 - 일부 링크만 NVLink이고 나머지가 PCIe 우회라면 기대 성능이 크게 달라짐
- "8 GPU"라는 숫자만 보지 말고
운영 체크리스트
- 분산 학습 백엔드가 NCCL로 설정되어 있는가?
- 서버 내부 토폴로지가 NVSwitch 기반인지, 부분 연결인지 확인했는가?
- 학습 스텝 시간에서 통신 비중이 몇 %인지 프로파일링했는가?
- GPUDirect RDMA와 외부 네트워크까지 포함해 병목 위치를 계층별로 구분했는가?
안티패턴
- GPU 수만 보고 구매하고, 실제 토폴로지는 확인하지 않는 행위
- 추론 서버에 과도한 NVSwitch 구성을 넣어 비용만 올리는 행위
- NVLink 하드웨어는 갖췄지만 소프트웨어가 비효율적인 집단 통신 경로를 타게 방치하는 행위
┌──────────────────────── 도입 판단 간이 트리 ────────────────────────┐
│ 워크로드가 대규모 학습인가? │
├──────────────────────────────────────────────────────────────────────┤
│ Yes ─▶ GPU 간 동기화가 잦은가? ─▶ Yes ─▶ NVLink / NVSwitch 우선 검토 │
│ │ │ │
│ │ └▶ No ─▶ PCIe 기반도 가능 │
│ └▶ No ─▶ 요청이 GPU별로 독립적인가? ─▶ Yes ─▶ 추론형 Scale-out 적합 │
│ └▶ No ─▶ 통신 패턴 재측정 │
└──────────────────────────────────────────────────────────────────────┘
기술사 관점에서 기억할 문장은 명확하다. NVLink / NVSwitch는 "항상 빠른 장치"가 아니라 "통신이 성능을 결정하는 멀티 GPU 문제를 풀기 위한 특화 장치"다. 따라서 비용, 전력, 확장성, 소프트웨어 스택까지 포함한 총체적 판단이 필요하다.
- 📢 섹션 요약 비유: 대형 공연을 준비할 때 모든 출연진이 한 무대에서 동시에 호흡을 맞춰야 하면 넓은 무대 뒤 통로가 필수다. 하지만 각자가 다른 방에서 따로 녹음만 하면 굳이 비싼 중앙 무대를 지을 필요는 없다.
Ⅴ. 기대효과 및 결론
NVLink / NVSwitch의 가장 큰 효과는 멀티 GPU 시스템을 단순한 "GPU 묶음"이 아니라, 통신까지 고려된 "학습용 컴퓨팅 집합"으로 바꾸는 데 있다. 이 구조는 대규모 AI 학습의 스텝 시간을 줄이고, GPU 활용률을 높이며, 더 큰 모델을 실용적인 시간 안에 다루게 만든다. 다시 말해 성능 향상의 주체는 개별 GPU 코어가 아니라, GPU 집단 전체의 협업 효율이다.
다만 한계도 분명하다. 첫째, 폐쇄형 생태계이므로 벤더 종속성이 크다. 둘째, 서버 내부 패브릭이 강해도 서버 간 네트워크가 약하면 클러스터 전체 확장성은 다시 외부 인터커넥트에 묶인다. 셋째, 추론·가벼운 학습처럼 통신이 적은 작업에서는 투자 대비 효과가 제한적이다. 따라서 NVLink / NVSwitch는 "모든 AI 서버의 정답"이 아니라, "통신 집약형 멀티 GPU 문제의 정답"으로 기억해야 한다.
앞으로의 방향은 세 가지로 정리할 수 있다. 첫째, GPU-CPU 결합 패키지와의 통합이 더 강화된다. 둘째, 서버 내부 패브릭과 데이터센터 외부 패브릭이 더 긴밀히 연동된다. 셋째, 소프트웨어는 토폴로지를 더 적극적으로 인식해 통신 알고리즘을 최적화하는 방향으로 진화한다. 결국 NVLink / NVSwitch의 의미는 "더 빠른 선"이 아니라, AI 시대에 시스템 성능의 중심이 연산기 자체에서 연결 구조로 이동했음을 보여 주는 증거다.
- 📢 섹션 요약 비유: 뛰어난 선수만 모았다고 우승하는 팀이 되지는 않는다. 패스가 막히지 않는 전술과 경기장이 함께 갖춰져야 강팀이 되듯, NVLink / NVSwitch는 GPU라는 선수들을 진짜 팀으로 만들어 주는 연결 전술이다.
📌 관련 개념 맵
| 개념 | 연결 포인트 |
|---|---|
| PCIe (Peripheral Component Interconnect Express) | 범용 버스이며 NVLink가 해결하려는 기본 병목 비교 대상 |
| NCCL (NVIDIA Collective Communications Library) | NVLink / NVSwitch 위에서 집단 통신 성능을 끌어내는 핵심 소프트웨어 계층 |
| GPUDirect RDMA (Remote Direct Memory Access) | 서버 외부 네트워크까지 CPU 우회를 확장하는 기술 |
| 텐서 병렬화 (Tensor Parallelism) | 멀티 GPU 간 중간 결과 교환을 많이 발생시키는 대표 패턴 |
| HBM (High Bandwidth Memory) | GPU 내부 메모리 대역폭을 담당하며, NVLink는 GPU 간 대역폭을 담당 |
📈 관련 키워드 및 발전 흐름도
PCIe 기반 다중 GPU
│
▼
GPU 간 병목 인식
│
▼
NVLink 기반 점대점 고속 연결
│
▼
NVSwitch 기반 멀티 GPU 패브릭
│
▼
NCCL · GPUDirect RDMA 최적화
│
▼
노드 내부 패브릭 + 데이터센터 패브릭 통합
이 흐름은 "범용 연결 → GPU 특화 연결 → 패브릭화 → 소프트웨어/네트워크 통합"으로 진화하는 방향을 보여 준다.
👶 어린이를 위한 3줄 비유 설명
- 큰 숙제를 친구 8명이 나눠 하려면, 서로 답안을 빨리 주고받는 길이 넓어야 해요.
- NVLink는 친구들 책상 사이에 만든 빠른 통로이고, NVSwitch는 모두가 동시에 움직여도 안 막히게 해 주는 큰 복도예요.
- 그래서 아주 큰 숙제는 훨씬 빨리 끝나지만, 각자 따로 하는 작은 숙제라면 그렇게 큰 복도까지는 필요 없어요.