1050. RDMA / RoCE 스토리지 서버 네트워킹 - 커널 바이패스 초저지연 메모리 직접 접근 InfiniBand 이더넷 통합 고성능 데이터센터 패브릭 아키텍처

핵심 인사이트: (639번 OS 커널 바이패스 복습 및 네트워크 심화) 데이터센터에 서버 A와 서버 B가 있다. A가 B의 메모리에 있는 100GB 영화 파일을 가져오고 싶다. 기존 TCP/IP 랜선을 타려면 끔찍하다. 서버 A의 뇌(CPU)가 패킷을 1,000개로 자르고(TCP), 운영체제(커널) 커튼을 통과해서 랜카드로 복사하고, B의 랜카드에 도착하면 다시 B의 CPU가 그걸 다 조립해서 메모리에 올려야 한다. CPU는 뻗어버리고 딜레이는 폭발한다. "야! 네트워킹할 때 CPU랑 운영체제(커널) 다 무시하고 건너뛰어(커널 바이패스)! A의 랜카드(하드웨어)가 직접 B의 랜카드를 향해 텔레파시를 쏴서, B의 CPU 몰래 B의 메모리(RAM) 방에다 다이렉트로 영화 파일을 박아 넣고 와버려!!" CPU 오버헤드를 0으로 만들어버린 궁극의 초고속 데이터센터 신경망, RDMA와 RoCE다.

Ⅰ. 기존 TCP/IP 네트워킹의 끔찍한 오버헤드 (병목의 원인)

AI 딥러닝(GPU 서버)과 NVMe 초고속 스토리지 시대가 오면서 옛날 방식이 무너졌습니다.

  • 커널 스택 통과: 데이터가 랜선으로 나가려면 무조건 OS 커널(TCP/IP 스택)을 거쳐야 합니다. 이 과정에서 메모리 복사(Context Switch)가 수차례 일어납니다.
  • CPU 혹사: 100Gbps 랜카드로 쏟아지는 패킷을 조립하느라 정작 AI 연산을 해야 할 비싼 CPU가 패킷 까대기(인터럽트 처리)를 하다가 100% 과부하로 서버가 기절해버립니다.

Ⅱ. 구원자: RDMA (Remote Direct Memory Access)의 탄생 🌟

  • 개념: 서버 A의 메인 메모리(RAM)에서 서버 B의 메인 메모리로, 양쪽 서버의 CPU, 캐시, 운영체제(OS 커널)의 개입을 100% 무시하고 랜카드(RNIC) 하드웨어끼리 다이렉트로 메모리에 데이터를 꽂아 넣는(Zero-Copy, Kernel Bypass) 초고속/초저지연 메모리 전송 기술입니다.

Ⅲ. RDMA를 실현하는 3대 인프라 아키텍처 전쟁 🌟 핵심 기출 🌟

RDMA 텔레파시를 쏘려면 전용 랜카드와 스위치(인프라)가 필요합니다. 어떤 랜선을 쓸까요?

1. 인피니밴드 (InfiniBand, IB) - "금수저 귀족 전용망"

  • 애초에 슈퍼컴퓨터들의 RDMA 통신을 위해 만들어진 오리지널 순혈 초고속 네트워크망입니다.
  • 일반 랜선(이더넷)을 안 쓰고, 스위치, 랜카드, 케이블을 모조리 수천만 원짜리 '인피니밴드 전용 하드웨어'로 싹 갈아엎어야 합니다. 지연 시간이 나노초 단위로 가장 미친 듯이 빠르고 완벽하지만, 너무 비싸고 일반 인터넷망과 호환이 안 되는 폐쇄망입니다.

2. RoCE (RDMA over Converged Ethernet) 🌟 대세 🌟

  • 개념: 통신사 빡침 방지법입니다. "야! 우리가 수천억 들여 데이터센터에 이더넷(일반 랜선과 스위치)을 다 깔아놨는데, 언제 그 비싼 인피니밴드를 또 깔아! 우리가 흔히 쓰는 일반 이더넷(Ethernet, 802.3) 패킷 껍데기 안에다가 인피니밴드(RDMA) 페이로드를 살짝 숨겨서(캡슐화) 쏴버리자!"
  • RoCE v1 vs v2:
    • v1: 맥(MAC) 주소만 쓰는 이더넷 L2 기반이라 옆방 라우터를 넘어갈 수 없었습니다.
    • RoCE v2 (현재 천하 통일): IP 주소와 UDP 헤더(L3/L4 계층)를 뒤집어씌워 라우팅이 가능해졌습니다. 그냥 흔한 인터넷 IP 환경 인프라를 그대로 쓰면서도 커널 바이패스의 달콤한 RDMA 속도 꿀을 빠는 궁극의 하이브리드 타협 기술입니다.

3. iWARP (Internet Wide Area RDMA Protocol)

  • RoCE는 무지성 UDP 기반이라 데이터가 가다 손실되면 답이 없습니다. 스위치단에서 혼잡 제어(PFC) 세팅을 미친 듯이 해줘야 합니다.
  • iWARP: "그냥 안전 빵 튼튼한 TCP/IP 뼈대 위에서 RDMA를 돌리자!"는 파생형인데, TCP 특유의 무거운 오버헤드 때문에 속도에서 밀려 지금은 RoCE v2에 거의 압살당했습니다.

Ⅳ. 왜 클라우드와 AI의 심장이 되었는가?

  • AWS나 Azure 클라우드에서 엔비디아(NVIDIA) GPU 서버 수백 대를 묶어 챗GPT 같은 거대 AI 모델을 학습시킵니다.
  • GPU 1번과 GPU 2번이 테라바이트급 가중치 데이터를 1초 만에 교환해야 하는데 CPU를 거치면 학습이 10년 걸립니다.
  • 100Gbps 이상의 **RoCE v2 지원 SmartNIC(랜카드)**를 달아, GPU 메모리끼리 직접 직통으로(GPU Direct RDMA) 데이터를 꽂아버려 AI 클러스터 연산 병목을 박살 낸 일등 공신 아키텍처입니다.

📢 섹션 요약 비유: 기존 TCP/IP 통신은 회사의 A 부서에서 B 부서로 100박스 서류를 보낼 때, **'FM 절차를 밟는 비효율의 극치'**입니다. A 부서장(CPU)이 결재하고 우편실(커널)로 내려보내면, 우편실 직원(TCP/IP 스택)이 서류를 분류해 B 부서 우편실로 보내고, 다시 B 부서장(CPU)이 서류를 하나하나 검수해서 창고(메모리)에 쌓아야 합니다. 부서장은 서류 확인하느라 본업(연산)을 못 해 과로사로 쓰러집니다. **RDMA (RoCE)**는 이런 쓸데없는 절차를 다 부수고 **'두 부서 창고 사이에 다이렉트 컨베이어 벨트를 뚫어버린 기적'**입니다. 부서장(CPU)과 우편실(운영체제 커널)은 서류가 오가는지조차 모릅니다. 하드웨어 기계(RDMA 랜카드)가 알아서 서류 100박스를 빛의 속도로 A 창고에서 B 창고(메모리)에 그대로 텔레포트시켜 꽂아버립니다(Kernel Bypass & Zero-Copy). 부서장은 오직 창고에 쌓인 완성된 서류만 꺼내서 100% 두뇌를 본업(AI 연산)에만 집중할 수 있게 해주는 데이터센터 스토리지 망의 궁극의 마법입니다.