845. 무손실 이더넷 (Lossless Ethernet, DCB) - 스토리지/AI 망 PFC 적용 대역폭 지연 관리

핵심 인사이트: 인터넷 랜선(이더넷)의 기본 철학은 "길 막히면 패킷 바닥에 버려! 어차피 다시 보내달라고 할 거잖아(Best-Effort)"다. 웹서핑할 때는 훌륭하다. 하지만 네이버 데이터센터의 '고객 계좌 이체 하드디스크 망'이나 '챗GPT 인공지능 10,000대 학습 망'에서 이더넷이 이 버릇을 버리지 못하고 패킷을 하나라도 땅에 버리는 순간, 학습 연산이 무한 대기에 빠지고 계좌 이체가 증발한다. "이더넷의 버릇을 완전히 뜯어고쳐라! 트래픽이 몰리면 절대 패킷을 버리지 말고, 차라리 빨간불을 켜서 통신을 멈추게(스톱) 만들어!" 이 극강의 무결점 통제 규격이 DCB(무결손 이더넷)다.

Ⅰ. 기존 이더넷(Ethernet)의 패킷 드랍 딜레마

  • 기존 이더넷 스위치는 구멍(포트)에 트래픽이 미어터져서 버퍼(대기줄 창고)가 꽉 차면, 새로 들어오는 패킷을 가차 없이 버립니다(Tail Drop).
  • 스토리지(SAN)와 AI 클러스터(RoCE)의 분노: 앞서 809번(FCoE)과 813번(RoCE)에서 배웠듯, 거대한 하드디스크 연결이나 초저지연 RDMA 메모리 복사 기술은 패킷이 하나라도 드랍되면 엄청난 재전송 타임아웃(지연)에 걸려 시스템 전체가 기절해 버립니다.

Ⅱ. 무손실 이더넷 (Lossless Ethernet)과 DCB 규격 🌟

비싼 '인피니밴드(811번)' 전용 스위치처럼 패킷 드랍이 0%인 완벽한 무결손 환경을, 값싼 '이더넷' 스위치 위에서 구현하기 위해 IEEE(국제전기전자공학회)가 만든 4가지 기능의 묶음 세트, 즉 DCB (Data Center Bridging) 표준입니다.

DCB를 완성하는 4대 필수 톱니바퀴 마법 🌟

  1. PFC (Priority-based Flow Control, 최우선 흐름 제어) 🌟 핵심 🌟

    • 구형 이더넷 스위치도 Pause(정지) 프레임 기능이 있었지만, 길이 막히면 스위치 전체를 셧다운시켜버려 유튜브 트래픽까지 같이 죽었습니다.
    • PFC의 마법: 트래픽을 8개의 차선(Priority 0~7)으로 잘게 쪼갭니다. 3번 차선(RoCE AI 트래픽)이 막혀서 터지기 직전이면, 앞의 스위치가 뒤의 스위치에게 0.001초 만에 "야! 3번 차선 트래픽 쏘지 말고 잠깐만 정지(Pause)!!"라고 무전을 칩니다.
    • 결과: 3번 차선 AI 패킷은 바닥에 버려지지 않고 스위치 안에서 잠깐 안전하게 멈춰 대기합니다. 동시에 나머지 1번 차선(유튜브 트래픽)은 정지되지 않고 쌩쌩 잘 달립니다. 완벽한 무결손 달성입니다.
  2. ETS (Enhanced Transmission Selection, 대역폭 할당)

    • 스위치 구멍(포트) 하나에 10Gbps의 속도가 나옵니다.
    • ETS는 이 구멍을 쪼개어 "무조건 4Gbps는 FCoE 스토리지망에 주고, 4Gbps는 RoCE AI망에 주고, 나머지 2Gbps는 잉여 인터넷용으로 배급해!"라고 최소 보장 속도를 칼같이 나눠줍니다. 서로의 밥그릇(대역폭)을 뺏지 않게 막아줍니다.
  3. QCN (Quantized Congestion Notification)

    • 차가 막히면 톨게이트에서 멈추는 것(PFC)도 좋지만, 아예 출발지(서버)한테 "야, 저 앞 강남대로 꽉 막혔으니까 지금부터 데이터 쏘는 속도 자체를 좀 늦춰 줘!"라고 알려서 사전에 속도를 줄이는 똑똑한 혼잡 알림(ECN) 기능입니다.
  4. DCBX (Data Center Bridging Exchange)

    • 수백 대의 데이터센터 스위치들이 저 세 가지 복잡한 설정(PFC, ETS 룰)을 일일이 수동으로 세팅하면 사람이 죽습니다. 스위치들끼리 "우리 이렇게 무결손 세팅 맞추자!"라고 1초 만에 지들끼리 알아서 설정을 자동 교환하고 동기화하는 프로토콜입니다.

Ⅲ. 현대 클라우드 인프라에서의 절대적 위상

  • 오늘날 전 세계를 휩쓰는 엔비디아(Nvidia)의 1,000억 원짜리 H100 GPU AI 클러스터를 엮을 때, 인피니밴드 스위치를 사지 않고 이더넷 스위치를 산다면 반드시, 목숨 걸고 이 DCB(PFC 기능 탑재) 무결손 기능이 완벽하게 돌아가도록 튜닝해야만 RoCE v2가 작동하여 AI 학습이 무사히 돌아갑니다.

📢 섹션 요약 비유: 기존 이더넷 망은 '무자비한 놀이기구 입구'입니다. 사람이 꽉 찼는데도 계속 밀어 넣고, 밖으로 튕겨 나간 사람(패킷 드랍)은 책임지지 않습니다. **무손실 이더넷(DCB와 PFC)**은 최첨단 '지능형 고속도로 진입로 신호등' 시스템입니다. 톨게이트 전광판(스위치 버퍼)을 1초마다 감시하다가, 1차선(VIP AI 데이터)이 막혀 톨게이트가 미어터질 것 같으면, 즉각 1차선 위에만 '빨간불(Pause 프레임)'을 켭니다. 뒤따라오던 1차선 VIP 차들은 도로 밖으로 튕겨 나가지 않고 제자리에 브레이크를 밟고 안전하게 대기합니다. 길이 뚫리면 다시 파란불을 켜서 통과시킵니다. 차를 단 한 대도 절벽 밑으로 떨어뜨리지 않는 완벽한 0% 패킷 손실 교통 통제 시스템입니다.