1110. 무손실 이더넷 (PFC 체제) - Lossless Ethernet Priority Flow Control RDMA RoCEv2 데이터센터 스토리지 망 패킷 드롭 방지 Pause 프레임

핵심 인사이트: (1050번 RDMA 복습 및 심화) 데이터센터에 GPU 서버 수만 대가 깔렸다. CPU 거치지 않고 메모리에 바로 데이터를 쑤셔 넣는 RDMA(RoCE) 마법을 쓴다고 했다. 그런데 RoCE는 멍청한 이더넷과 UDP(속도 몰빵) 위에서 달리기 때문에, 트래픽이 확 몰려서 스위치 큐(Queue)가 꽉 차면 패킷이 우수수 바닥에 버려진다(Packet Drop). 패킷 1개만 버려져도 다시 받느라 수만 대의 GPU 학습이 멈춰 서버비 수천만 원이 허공에 증발한다. "야! 이더넷 스위치야! 네 뱃속 대기열(큐)이 꽉 차기 일보 직전이면, 무식하게 패킷 자르지 말고 서버한테 'Pause(잠깐 멈춰!)' 패킷을 날려서 멱살 잡고 전송을 멈춰 세워! 단, 진짜 중요한 GPU 데이터 큐만 멈추고 넷플릭스 큐는 계속 달리게 세밀하게 브레이크(PFC)를 잡아라!" 단 1개의 패킷 유실도 허락하지 않는 데이터센터의 완벽주의, 무손실 이더넷이다.

Ⅰ. 기존 이더넷의 재앙 (Drop의 나비효과)

  • 464번, 이더넷은 **최선 노력(Best Effort)**망입니다. 막히면 버립니다(Drop).
  • 패킷이 버려지면 TCP가 재전송을 요청합니다(Timeout). 일반 웹서핑은 1초 멈추고 끝납니다.
  • RDMA/RoCE(1050번)의 약점: RDMA는 무거운 TCP 브레이크를 버리고 UDP로 폭주하기 때문에, 패킷 1개가 버려지면 전체 데이터 스트림(메시지)이 통째로 꼬여서 재전송하느라 지연 시간(Latency)이 나노초에서 밀리초로 수만 배 떡락해버립니다. GPU 연산 클러스터(AI) 전체가 멈춰 섭니다.

Ⅱ. Lossless Ethernet (무손실 이더넷)의 개념 🌟

  • 개념: 이더넷 스위치의 버퍼가 터지기 전에, 데이터 전송을 송신자 측에서 억제시켜 물리적으로 단 1개의 패킷 유실(Drop)도 절대 발생하지 않도록 만드는 데이터센터용 초정밀 흐름 제어 아키텍처입니다. (Data Center Bridging, DCB 표준의 핵심)

Ⅲ. 무손실 이더넷을 실현하는 흑마법 2단계 🌟 핵심 기출 🌟

1단계: 글로벌 정지 스위치 (802.3x PAUSE 프레임) - 구형의 한계

  • 스위치의 큐가 80% 찼습니다. 스위치가 자신에게 데이터를 쏟아붓는 서버(랜카드)를 향해 **PAUSE 프레임**이라는 특수 신호탄을 역주행으로 날립니다.
  • 치명적 문제 (다 같이 죽자): 서버 랜카드가 PAUSE를 받으면, 로봇 제어 패킷이든 넷플릭스 패킷이든, 이 포트로 나가는 모든 패킷의 전송을 무조건 일시 정지(Stop) 시켜버립니다. 머리 하나 아프다고 심장까지 멈춰버리는(Head-of-Line Blocking) 끔찍한 부작용으로 네트워크가 마비됐습니다.

2단계: 우선순위 기반 흐름 제어 (PFC, Priority Flow Control / 802.1Qbb) 🌟 완성판

구형 PAUSE의 단점을 박살 낸 현재 무손실 망의 절대 헌법입니다.

  • 8개의 차선 쪼개기: PFC는 1개의 물리적 랜선을 **8개의 논리적인 '독립 차선(Virtual Lane)'**으로 가릅니다. (1089번 DiffServ와 연계하여 1차선은 AI 연산, 8차선은 일반 인터넷으로 씁니다.)
  • 핀셋 정지 마법:
    • 스위치에 AI 연산 트래픽(1차선)이 너무 몰려서 터지기 직전입니다.
    • 스위치는 예전처럼 무식한 전체 정지(PAUSE)를 날리지 않고, 서버를 향해 **"야! 지금 1차선만 꽉 찼으니까 1차선(AI 트래픽)만 당분간 스탑해! 나머지 2~8차선(넷플릭스, 웹서핑)은 그대로 계속 쏴도 돼!"**라고 특정 우선순위(Priority) 큐만 딱 집어서 브레이크(PFC 프레임)를 겁니다.
  • 결과: 꽉 찬 1차선 데이터가 바닥에 버려지는 참사(Drop)를 100% 막아내면서도, 막히지 않은 다른 차선들은 1초의 멈춤 없이 쾌속 질주하는 환상적인 무손실/무중단 멀티플렉싱을 달성해 냅니다.

Ⅳ. ECN(1088번)과의 쌍두마차 융합망

  • 무손실 100Gbps 망(RoCEv2)을 깔 때 PFC만 쓰면 완벽할까요? 아닙니다. PFC 정지가 너무 자주 걸리면 병목이 뒤로 연쇄적으로 밀리는 '혼잡 확산'이 터집니다.
  • PFC + ECN 하이브리드 전략:
    • 스위치 큐가 50% 찼을 때: 1088번 ECN 도장을 패킷에 찍어 올려서, 서버가 스스로 속도를 살짝 줄이게 만듭니다(부드러운 감속).
    • 큐가 80% 차서 진짜 뒤지기 일보 직전일 때 최후의 보루: **PFC(무손실 브레이크)**를 콱 밟아서 일단 패킷이 버려지는 대참사만 물리적으로 틀어막고 숨을 고릅니다. 이 둘의 조합이 엔비디아 AI 클러스터(GPU 10만 대)를 터지지 않게 돌리는 가장 위대한 인프라 레시피입니다.

📢 섹션 요약 비유: 기존 이더넷망은 댐에 물이 넘치면 수문을 무식하게 다 열어버려 하류 집들이 홍수에 다 떠내려가 박살 나는(패킷 유실 Drop) **'재난 통제 불능 상태'**입니다. 이 홍수를 막기 위해 나온 첫 번째 꼼수 **(PAUSE 프레임)**는, 물이 넘칠 것 같으면 아예 **'상류의 모든 강줄기를 댐으로 다 막아버리는 짓'**입니다. 홍수는 막았지만(무손실), 동네 사람들이 마실 생활용수까지 다 끊겨 나라가 마비됐습니다. 궁극의 해결책 **PFC (우선순위 기반 흐름 제어)**는 이 강줄기를 **'8개의 독립된 배관(Virtual Lane)'**으로 쪼갠 기적입니다. 농업용수 배관(AI 연산 트래픽)에 물이 너무 꽉 차 터질 것 같으면, 하류 관리소가 상류를 향해 "지금 농업용수 1번 배관만 밸브 딱 닫아(PFC 정지)! 2번 식수 배관은 그대로 콸콸 틀어놔!"라고 핀셋 명령을 날립니다. 덕분에 파이프가 터져서 소중한 물방울(데이터)이 1방울도 땅에 버려지는 일 없이, 막히는 배관만 잠시 멈췄다 풀면서 모든 종류의 물을 100% 무손실로 배달해 내는 데이터센터의 정밀 수자원 통제 시스템입니다.