NVLink / NVSwitch
핵심 인사이트 (3줄 요약)
- 본질: 엔비디아(NVIDIA)가 대규모 AI 딥러닝 학습 시 여러 대의 GPU가 서로 행렬 파라미터 데이터를 쉴 새 없이 주고받을 때 터지는 끔찍한 PCIe 버스 병목을 피해 가기 위해, 오직 자사 GPU들만을 직접 연결하도록 독자적으로 뚫어버린 초고속/초광대역 폐쇄형 전용 통신망이다.
- 가치: 8개, 나아가 수백 개의 쪼개진 물리적 GPU가 마치 하나의 거대한 '메가 GPU(Single System Image)'처럼 동작하도록 1초에 무려 900GB 이상의 데이터를 섞어버리며(All-to-All 통신), 챗GPT 같은 초거대 언어 모델(LLM)의 분산 학습 시간을 몇 달에서 며칠로 압살하는 진정한 1등 공신이다.
- 융합: 단순히 GPU 칩끼리의 직접 연결(P2P)을 넘어서, 서버 박스를 벗어나 네트워크 랜카드(InfiniBand/DPU)와 메모리까지 CPU 개입 없이 다이렉트로 융합 관통해 버리는 'GPUDirect RDMA' 아키텍처의 필수 뼈대로 진화하며 엔비디아의 데이터센터 생태계 독점을 완성했다.
Ⅰ. 개요 및 필요성 (Context & Necessity)
NVLink와 NVSwitch는 딥러닝 혁명이 가져온 "데이터 덩어리의 미친듯한 비대함"이 폰 노이만 아키텍처의 낡은 고속도로(PCIe)를 완전히 박살 내면서 등장한 독재적 구원자다.
AI 학습(Training)은 무지막지한 노동이다. 모델 크기가 100GB를 넘어가면 1개의 GPU VRAM(80GB)에 다 들어가지 않는다. 그래서 GPU 8대짜리 서버를 사서 모델을 8조각으로 찢어 각 GPU에 나눠 담는다(텐서 병렬화, Tensor Parallelism). 문제는 1번 GPU가 자기가 계산한 결과를 2, 3, 4번 GPU에게 1초에 수천 번씩 실시간으로 공유(동기화)해야 한다는 점이다.
기존 컴퓨터에서는 이 데이터를 어떻게 옮겼을까?
[GPU 1] -> (좁고 느린 PCIe 버스) -> [메인보드 CPU 메모리] -> (다시 PCIe 버스) -> [GPU 2]
이 멍청한 과정을 거치며 데이터가 병목에 걸려, GPU 코어 1만 개가 일을 안 하고 파이프라인이 100% 멈춰 서서 택배(데이터)만 기다리는 끔찍한 재앙이 터졌다.
엔비디아는 분노했다. "야! 왜 잘난 우리 GPU들끼리 얘기하는데, 저기 멍청하고 느려빠진 메인보드 CPU랑 PCIe 버스한테 허락을 맡고 통신해야 해? PCIe 선 다 뽑아버려! 그냥 우리 GPU 머리통끼리 수백 개의 초고속 전선을 납땜으로 다이렉트로 직결(Point-to-Point)시켜버려! 딴 놈들 개입 없이 우리끼리 1초에 900GB씩 데이터를 퍼 나르자!"
이 오만하고도 완벽한 철학으로 탄생한 전용 고속도로가 NVLink이고, 이 도로 8개를 엉키지 않게 뚫어주는 전용 교차로가 NVSwitch다.
📢 섹션 요약 비유: 기존 PCIe 방식은 서울 지사(GPU 1)에서 부산 지사(GPU 2)로 매일 서류 수만 장을 보낼 때, 굳이 대전 본사(CPU)에 들러서 우체국 검사(PCIe)를 받고 다시 부산으로 내려가는 미친 행정 낭비입니다. NVLink는 아예 서울과 부산 지사 사이에 직통 초고속 KTX 지하 터널을 파버려서, 본사(CPU) 모르게 지사들끼리 1초 만에 서류를 다 던져버리는 극강의 꼼수이자 혁명입니다.
Ⅱ. 아키텍처 및 핵심 원리 (Deep Dive)
NVLink는 칩과 칩을 잇는 '선(Wire)'이고, NVSwitch는 그 선들이 엉키지 않게 모든 칩을 1:1로 이어주는 '크로스바 스위치(Crossbar Switch)' 하드웨어 칩이다.
| 하드웨어 구성 요소 | 아키텍처적 역할 및 성능 (Hopper H100 기준) | 극복해 낸 한계점 | 비유 |
|---|---|---|---|
| NVLink (선) | GPU 다이(Die) 가장자리에 꽂히는 초고속 통신 핀과 프로토콜. 단방향 450GB/s, 양방향 총 900GB/s 대역폭. | 구형 PCIe 5.0(128GB/s) 대비 무려 7배 이상 빠름. 대역폭 장벽 원천 파괴 | 차선이 100개인 초광폭 다이렉트 고속도로 |
| NVSwitch (교차로 칩) | 여러 대의 GPU가 서로 점대점(P2P)으로 통신할 때 교통정리를 해주는 비차단(Non-blocking) 스위치 칩. | GPU 8개가 서로 엉키지 않고 1클럭에 동시에 모든 방향으로 텐서를 흩뿌림 (All-to-All 통신 완성) | 8개 도시를 동시다발적으로 이어주는 완벽한 입체 고가도로 교차로 |
| HGX / DGX (서버 보드) | GPU 8장과 NVSwitch 4장 등을 하나의 거대한 은색 철판(Baseboard) 위에 공장 출고 상태로 완벽히 용접해 놓은 노드 덩어리 | 소프트웨어가 볼 땐 GPU 8개가 아니라, 괴물같이 거대한 '1개의 단일 메가 GPU(1 덩어리)'로 착각하게 됨 | 8명의 뇌를 하나로 묶어놓은 프랑켄슈타인 보드 |
NVLink가 AI 시장을 평정한 진정한 마법의 기술은 **멀티 GPU 환경에서의 '메모리 통합 추상화(Memory Pooling/Unified Memory)'**다.
[NVLink를 통한 VRAM 통합의 마법 (Software-defined Single GPU)]
* 상황: 80GB VRAM을 가진 GPU 8대 장착. 500GB짜리 거대 LLM 모델 로딩 필요.
(1) NVLink가 없는 낡은 멀티 GPU (PCIe 기반)
- 개발자의 고통: 500GB를 8개로 손수 찢어서, `cudaMemcpy` 함수로 GPU 1번 램에 60GB 복사하고,
GPU 2번 램에 60GB 복사하는 생지옥 S/W 코딩을 짜야 함. 코딩하다 토 나옴.
(2) NVLink + NVSwitch 융합 아키텍처의 기적
- 하드웨어의 마법: NVSwitch가 8대의 GPU 램(80GB x 8)을 캐시 일관성(Coherence)으로 완벽히 묶어버림.
- 개발자의 행복: OS와 파이토치(S/W) 눈에는 이게 그냥 **"640GB짜리 VRAM을 가진 거대한 GPU 1대"**로 보임!
- 그냥 아무 생각 없이 500GB 모델을 메모리에 툭 던지면, 하드웨어가 알아서 NVLink를 통해
8대의 램으로 찢어서 빛의 속도로 담아버림! (개발자 난이도 수직 하락)
이 극강의 투명성(Transparency) 덕분에 전 세계 AI 연구자들은 아무런 병렬 코딩 지식 없이도 파이토치 모델을 8개의 GPU에서 1개의 GPU처럼 편안하게 훈련시킬 수 있게 되었다.
📢 섹션 요약 비유: 8개의 작은 컵(VRAM)이 있습니다. 예전엔 주전자 물(데이터)을 8개 컵에 찰랑거리지 않게 사람이 눈금을 재며 일일이 똑같이 나눠 따라야(수동 파티셔닝) 했습니다. NVLink는 이 8개의 컵 바닥에 구멍을 뚫어 굵은 파이프(NVSwitch)로 다 연결해 버린 겁니다. 그냥 아무 컵에나 물을 콸콸 부으면 수위 법칙에 의해 1초 만에 8개 컵 전체에 쫙 퍼져서 꽉 차게 되는 궁극의 편리함을 제공합니다.
Ⅲ. 융합 비교 및 다각도 분석 (Comparison & Synergy)
엔비디아가 굳이 범용 표준인 PCIe나 최신 CXL 연합군을 무시하고, 자신들만의 독자 규격(NVLink)을 미친 듯이 고집하며 데이터센터를 장악한 이유를 철학적으로 분석해야 한다.
인터커넥트 3국지: 범용 PCIe vs 오픈 CXL vs 폐쇄 NVLink
| 비교 척도 | PCIe 5.0 / 6.0 (메인보드 기본 버스) | CXL (오픈 메모리 공유 연합 표준) | NVLink (엔비디아 제국의 족쇄) |
|---|---|---|---|
| 설계 철학 | "모든 이기종 기기를 다 연결해 주마" (범용) | "서버와 서버의 남는 램을 공유하자" (용량 풀링) | "남들은 다 꺼져! 오직 내 GPU들끼리만 텐서를 곱할 거다!" (극단적 목적 특화) |
| 대역폭 (Speed) | 약 128 GB/s (답답함) | 아직 PCIe 위에서 돌아가서 제한적 속도 | 무려 900 GB/s (타의 추종을 불허하는 압살) |
| 호환성 생태계 | 인텔, AMD, SSD, 랜카드 등 우주 만물 | 전 세계 모든 반도체 회사가 참여 | 오직 NVIDIA GPU, 자체 Grace CPU만 가능 |
| 시장 지배력 | 평범한 PC/서버의 표준 혈관 | 차세대 클라우드 데이터센터의 램 비용 구원자 | 초거대 AI 학습 클러스터 시장(LLM) 100% 독점 원인 |
타 과목 관점의 융합 시너지
- 네트워크 공학 (GPUDirect RDMA와의 극한 융합): 8대의 GPU를 묶는 건 NVSwitch로 했다. 그럼 서버 박스 1,000대를 묶을 땐 어떡할까? 엔비디아는 이스라엘 랜카드 회사(Mellanox)를 인수해 인피니밴드(InfiniBand)와 스마트 랜카드(DPU) 기술을 통째로 먹어버렸다. 그리고 랜카드를 아예 NVLink에 직결해 버렸다. 결과적으로 서버 A의 GPU 메모리 텐서 데이터가 CPU나 OS 커널(TCP/IP)을 1%도 거치지 않고, NVLink -> 랜카드 -> 광케이블 -> 서버 B의 랜카드 -> NVLink -> 서버 B의 GPU VRAM으로 다이렉트로 빛의 속도로 꽂혀버리는 기적(GPUDirect RDMA)을 완성했다. 세상에서 가장 완벽한 폰 노이만 병목의 파괴다.
- 분산 시스템 알고리즘 (Ring All-Reduce 융합): 수만 대의 GPU가 각자 학습한 인공지능 뇌세포(Gradient) 데이터를 어떻게 1초마다 똑같이 동기화시킬 것인가? 만약 중앙 서버로 다 모으면 병목이 터진다. AI 진영은 데이터를 둥글게 원형 릴레이로 돌리며 섞는 'Ring All-Reduce' 알고리즘(소프트웨어)을 창안했다. NVLink와 NVSwitch는 이 소프트웨어 알고리즘의 모양(원형/트리 릴레이)이 하드웨어 선 배선 구조와 100% 완벽하게 물리적으로 겹쳐지도록(Isomorphic Co-design) 설계되어, 동기화 과정에서 낭비되는 대역폭(Overhead)을 완전히 '0'으로 수렴시켰다.
[소프트웨어(AI 분산 알고리즘)와 하드웨어(NVLink)의 소름 돋는 프랙탈 융합]
* 소프트웨어 요구사항 (NCCL 라이브러리의 All-Reduce)
"GPU 1, 2, 3, 4가 자기가 학습한 가중치를 서로 전부 교환해서 완벽히 똑같은 복사본을 만들어야 해!"
(이때 중앙 스위치에 몰리면 네트워크 터짐 -> 둥글게 릴레이로 패스해!)
* 하드웨어 융합 (NVLink Topology)
[GPU 1] ──(NVLink)──> [GPU 2] ──(NVLink)──> [GPU 3] ──(NVLink)──> [GPU 4]
▲ │
└──────────────────────(NVLink 랩어라운드)─────────────────────┘
=> 소프트웨어가 원하는 둥근 릴레이 논리(Ring) 구조 그대로 하드웨어 선(NVLink)이
동그랗게 이중 삼중으로 물리적으로 꿰매져 있다!
=> OS 커널이나 CPU를 아예 쳐다보지도 않고, 칩 밑바닥의 선만 타고 데이터가
빛의 속도로 회전하며 거대 AI 뇌(LLM)를 동기화시킨다.
📢 섹션 요약 비유: 수만 명의 병사(GPU)가 한 줄로 서서 양동이로 물을 나릅니다(All-Reduce 동기화). 이때 병사들이 손을 뻗어 물통을 건넬 때, 팔의 길이와 건네는 타이밍이 0.1초도 안 맞으면 물이 다 쏟아집니다(PCIe 병목). NVLink는 아예 병사 8명의 팔뚝을 쇠사슬로 하나의 거대한 팔처럼 용접(융합)해버린 겁니다. 생각할 필요도 없이 기계적으로 물이 한 방울도 안 새고 초광속으로 옆으로 넘어가는 미친듯한 인프라 공학입니다.
Ⅳ. 실무 적용 및 기술사적 판단 (Strategy & Decision)
실무 AI 인프라 아키텍트가 클라우드(AWS, GCP)에서 GPU 인스턴스를 빌리거나 온프레미스 장비를 살 때, NVLink의 유무와 토폴로지를 확인하지 않으면 수천만 원짜리 GPU가 연산은 안 하고 하루 종일 데이터만 기다리는 깡통이 된다.
실무 클라우드 AI 인프라(GPU 서버) 도입 및 튜닝 시나리오
-
LLM 분산 학습(Training) 환경의 무조건적 NVLink 강제
- 상황: Llama-3 급의 거대 언어 모델 파인튜닝(Fine-tuning)을 위해 회사에서 H100 GPU 8장을 사려고 함. A업체는 PCIe 슬롯에 H100 8장을 꽂은 조립 서버를 싸게 제안했고, B업체는 NVSwitch로 8장이 팩토리 용접된 'HGX H100' 보드(비쌈)를 제안함.
- 의사결정: 뒤도 돌아보지 말고 수천만 원이 비싸더라도 B업체의 NVSwitch 기반 통합 보드(HGX)를 구매하거나, 클라우드에서는 무조건
p4d나p5같이 'NVLink가 활성화된 통짜 8장짜리(xLarge) 인스턴스'를 임대한다. - 이유: LLM 학습은 텐서 모델 병렬화(Tensor Parallelism, 모델의 행렬을 세로로 찢어서 나눠 가짐)가 필수다. GPU 1번이 행렬 절반을 곱하고, 2번이 절반을 곱한 뒤 매 스텝(Step)마다 그 결과를 합쳐야(All-Gather) 다음 계산으로 넘어간다. 이 미친듯한 핑퐁 트래픽을 PCIe 버스(128GB/s)에 태우면 파이프라인이 즉시 마비되어 학습에 1달 걸릴 게 6달이 걸린다. NVLink(900GB/s)가 없는 8-GPU 묶음은 거대한 쓰레기에 불과하다.
-
추론(Inference) 서버 구성 시 NVLink 낭비 방지 (가성비 세팅)
- 상황: 학습은 다 끝났고, 유저들에게 AI 챗봇 답변을 뿌려주는 서비스(Inference) 서빙 서버를 세팅하려 함.
- 의사결정: 이럴 땐 비싼 NVSwitch가 달린 H100 8장 묶음(HGX)을 살 필요가 전혀 없다. 일반 PCIe 슬롯에 값싼 GPU(L40S 등)를 4장, 8장씩 독립적으로 꽂아둔 서버(Scale-out)를 사고, vLLM을 띄워 로드밸런서로 1번 유저의 질문은 1번 GPU가, 2번 유저 질문은 2번 GPU가 각각 따로따로(독고다이로) 처리하게 아키텍처를 짠다.
- 이유: 추론 서비스는 1개의 질문을 처리할 때 GPU끼리 데이터를 주고받으며(All-Reduce) 토론할 일이 거의 없다. 각자 자기 VRAM에 모델만 복사해서 들고 있으면 혼자서 답을 찍어낼 수 있는 'Embarrassingly Parallel(완전 독립 병렬)' 워크로드다. GPU끼리 소통할 일이 없으니 NVLink 고속도로는 차 한 대 안 다니는 텅 빈 아스팔트가 된다. 추론 단계에서는 통신 대역폭(NVLink)에 돈을 쓰지 말고 순수 칩 개수(연산력)에 돈을 써야 마진이 남는다.
[실무 AI 클러스터(GPU) 서버 스펙 도입 판독 트리]
[질문 1] 하려는 작업이 초거대 파라미터(100B 이상) 모델의 '학습/파인튜닝(Training)'인가?
├─ Yes ──> GPU 간 파라미터 동기화(All-Reduce) 트래픽이 지옥처럼 쏟아짐.
│ => 망설임 없이 서버 1대 내부는 [NVSwitch/NVLink]로 통일하고,
│ 서버 간 랙(Rack) 연결은 [Infiniband 400G] + GPUDirect RDMA로 도배해야
│ 수백억짜리 GPU가 놀지 않고 연산을 뽑아낸다! (엔비디아의 돈줄)
│
└─ No ───> [질문 2] 소규모 모델이거나, 여러 유저의 질문을 응답만 하는 '추론(Inference)'인가?
└──> 굳이 통신망(NVLink)에 비싼 세금을 낼 필요 없음.
각자도생하는 PCIe 기반의 일반 저가형 GPU 묶음 서버나
가성비 클라우드 인스턴스로 수평 확장(Scale-out)하여 서버비를 극단적으로 방어하라.
운영 및 아키텍처 도입 체크리스트
-
파이토치(PyTorch) 코드의 분산 학습(
DistributedDataParallel, DDP)을 띄울 때, 백엔드 통신 모듈(Backend) 설정이 멍청한 이더넷(Gloo/TCP)을 타서 통신이 터지는 참사를 막기 위해, 반드시 하드웨어 NVLink와 InfiniBand를 100% 인식하여 직통으로 쏘아버리는 NCCL (NVIDIA Collective Communication Library) 백엔드로 명시적 융합 바인딩이 되어 있는지 더블 체크했는가?
안티패턴: "우리 회사도 GPU 8개짜리 서버 샀어!"라며 자랑하지만, 코드를 까보면 파이토치의 낡은 DataParallel (DP) 모듈을 써서 매 스텝마다 데이터를 1번 GPU(마스터)로 전부 긁어모아 1번이 혼자 평균을 내고 다시 2~8번에 뿌리는 무식한 마스터-슬레이브 직렬 구조로 짜놓은 개발자. 이는 NVLink의 대칭적 그물망(Ring)을 박살 내고 1번 GPU에만 병목을 터뜨리는 최악의 하드웨어 혐오 코딩이다. (반드시 분산 병렬 DDP와 NCCL을 써야 함)
📢 섹션 요약 비유: NVLink 서버(HGX)는 8명의 뇌가 완전히 하나로 융합된(Singularity) 외계 생명체입니다. 이 생명체에게 "너희 각자 따로 8개짜리 쉬운 수학 문제 풀어라(추론)"라고 시키면 이 괴물을 만든 돈이 아깝습니다. 이 괴물에게는 오직 "우주선의 궤도를 시뮬레이션하는 초거대 방정식 1개(초거대 LLM 학습)"를 턱 던져주어 8명의 뇌가 하나의 머리로 묶여 1밀리초도 쉬지 않고 토론(NVLink 통신)하게 만들어야만 제값을 뽑습니다.
Ⅴ. 기대효과 및 결론 (Future & Standard)
NVLink와 NVSwitch는 엔비디아가 단순한 '반도체(칩) 제조사'를 넘어, 세계의 모든 데이터센터를 통째로 팔아치우는 **'거대 인프라(시스템) 지배자'**로 거듭나게 만든 결정적이고 폭력적인 해자(Moat)다.
| 패러다임 극복 과제 | 과거 PCIe 기반 조립 서버 시대 | 현대 NVLink 기반 융합(Appliance) 시대 | 딥러닝/AI 산업 기형적 파급 효과 |
|---|---|---|---|
| GPU 간 통신 (Interconnect) | 메인보드 CPU를 거치느라 병목 폭발 | NVSwitch를 통한 10배 넓은 다이렉트 고속도로 | 수백 GB의 거대 LLM 모델이 1개의 메모리에 있는 것처럼 학습 가능(SSI) |
| 인프라 벤더의 권력 이동 | HP, 델(Dell) 등이 CPU/부품 사서 조립해 팖 | 엔비디아가 통짜 보드(HGX)로 용접해서 독점 공급 | 데이터센터의 설계 권력(표준)이 완전히 엔비디아의 손아귀로 넘어감 |
미래 전망: 엔비디아는 여기서 멈추지 않고, 이제 칩 외부를 넘어 **칩셋 내부(Die-to-Die)**로 NVLink를 끌고 들어왔다. 그레이스 호퍼(Grace Hopper) 슈퍼칩에서 보듯, 아예 거대한 ARM CPU 칩과 H100 GPU 칩을 하나의 기판 위에서 900GB/s의 NVLink로 용접(C2C)해 버려, CPU의 램(LPDDR5)과 GPU의 VRAM(HBM)이 1바이트의 핑퐁 렉도 없이 완벽한 **통합 메모리 아키텍처(UMA)**로 진화했다. 앞으로 랙(Rack) 스케일을 넘어 수만 대의 데이터센터 서버가 모조리 이 핏줄(NVLink)과 척수(InfiniBand)로 한 몸처럼 이어지는 진정한 단일 지구급 AI 두뇌가 탄생할 것이다.
📢 섹션 요약 비유: 처음엔 그래픽 카드(GPU)라는 조그만 부품 장사꾼이었습니다. 그러다 부품끼리 말하는 전화선(NVLink)을 자기가 깔더니, 이제는 전화국(NVSwitch)을 차리고 나아가 도시 전체의 통신망(InfiniBand)과 뇌(Grace CPU)까지 전부 다 자기들 규격으로 용접해 버렸습니다. 한 번 이 엔비디아 생태계의 편안한 고속도로에 발을 들이면, 다른 회사의 값싼 국도(오픈소스 PCIe/CXL)로는 영원히 돌아갈 수 없는 무시무시한 기술적 감옥이 완성된 것입니다.
📌 관련 개념 맵 (Knowledge Graph)
- PCIe (Peripheral Component Interconnect Express) | 낡고 느린 범용 메인보드 고속도로. NVLink가 탄생하게 된 근본 원인이자 타파의 대상 (GPU 간 통신에 쓰면 끔찍한 병목 유발)
- GPUDirect RDMA | NVLink의 철학이 데이터센터 전체로 뻗어나간 기술. CPU와 OS를 무시하고 1번 서버 랜카드가 2번 서버 랜카드를 거쳐 2번 GPU VRAM에 데이터를 광속으로 다이렉트로 꽂아버리는 궁극의 분산 학습 융합
- 텐서 병렬화 (Tensor Parallelism) | 모델이 너무 커서 GPU 1장(80GB)에 안 들어갈 때, 모델의 거대 행렬을 세로/가로로 찢어서 8장의 GPU에 나눠 담은 뒤, 8장이 NVLink를 통해 쉴 새 없이 정답을 맞추며 1장처럼 계산하는 S/W-H/W 코디자인 기술
- UMA (통합 메모리 아키텍처) / 제로 카피 | NVLink C2C 기술을 통해 최신 칩(Grace Hopper)에서 CPU 램과 GPU VRAM의 장벽을 허물어, 데이터를 복사(Copy)하지 않고 포인터만으로 즉시 연산하게 만드는 마법
- 링 올-리듀스 (Ring All-Reduce) | 8대의 GPU가 자기가 계산한 AI 가중치를 중앙 서버에 모으지 않고, NVLink를 타고 둥그렇게 원(Ring)을 그리며 옆 사람에게 릴레이로 패스해 가며 합산하여 스위치 병목을 완전히 '0'으로 만드는 마법의 수학 알고리즘
👶 어린이를 위한 3줄 비유 설명
- 개념: NVLink는 엄청나게 똑똑한 8명의 쌍둥이 천재(GPU)들이 어려운 수학 숙제를 나눠서 풀 때, 중간에 선생님(CPU)을 거치지 않고 자기들끼리 1초 만에 텔레파시로 정답을 주고받게 해주는 '마법의 핫라인 전화기'예요.
- 원리: 옛날엔 1번 천재가 2번 천재한테 쪽지를 주려면 교무실(메인보드)을 거쳐 뺑뺑 돌아가야 해서(PCIe) 복장이 터졌어요. 엔비디아는 이 8명의 천재들 책상을 하나로 합쳐버리고 책상 밑에 수백 가닥의 다이렉트 튜브(NVLink)를 뚫어줬어요.
- 효과: 쪽지가 순식간에 휙휙 오가니까, 8명의 천재가 마치 '수백 배 똑똑한 1명의 초거대 거인'처럼 움직이면서, 챗GPT 같은 어마어마한 인공지능을 세계에서 제일 빨리 가르칠 수 있게 되었답니다.