803. 오버서브스크립션 비율 (Oversubscription Ratio) - 데이터센터망 대역 설계 개념
핵심 인사이트: 헬스장에 러닝머신이 10대 있다. 회원은 100명이다. 사장님은 "설마 100명이 금요일 저녁 8시에 동시에 와서 러닝머신을 100% 뛰겠어?"라는 배짱으로 회원을 받는다. 이게 바로 오버서브스크립션(초과 구독)이다. 데이터센터의 100억짜리 스위치를 살 때도 마찬가지다. 서버 40대(40Gbps)가 꽂힌 스위치에서 위층으로 올라가는 선을 40Gbps짜리로 깔면 절대 안 막히겠지만 돈이 썩어난다. "에이, 40대가 동시에 풀파워로 데이터를 쏘진 않겠지. 위로 올라가는 선은 10Gbps 1가닥만 깔자!" 이것이 바로 4:1 오버서브스크립션 설계의 경제학이다.
Ⅰ. 오버서브스크립션 (Oversubscription)의 개념
- 개념: 네트워크 스위치나 라우터에서, 하위(단말기, 서버 쪽)에서 들어오는 총 대역폭의 합(Input)이, 상위(코어망, 외부 쪽)로 나가는 총 대역폭(Output)보다 크게 설계되어 발생하는 **'대역폭 초과 할당(구독) 상태'**를 의미합니다.
- 오버서브스크립션 비율 (Ratio) 🌟:
[하위 포트들의 전체 대역폭 합] : [상위(업링크) 포트의 대역폭 합]- 예: 서버 쪽 포트가 1Gbps짜리 40개(총 40Gbps)이고, 위층(Spine)으로 올라가는 업링크 포트가 10Gbps짜리 1개라면 비율은 40:10 ➜ 4:1이 됩니다.
Ⅱ. 왜 1:1 (논블로킹)로 설계하지 않는가? (비용과 통계의 마법)
- 1:1 비율 (논블로킹, Non-blocking): 들어온 만큼 똑같이 위로 나갈 수 있는 구멍을 뚫어놓는 완벽한 설계입니다. 병목(막힘)이 0%지만, 광케이블과 스위치 칩셋(ASIC)을 미친 듯이 비싼 걸 써야 하므로 인프라 구축 비용이 감당이 안 됩니다.
- 통계적 다중화 (Statistical Multiplexing): 인간의 인터넷 사용 패턴은 '버스트(Burst, 순간 폭주)' 성향을 가집니다. 서버 40대가 24시간 내내 100% 풀파워로 트래픽을 쏟아내는 일은 1년에 한 번 있을까 말까 합니다. 따라서 통계적으로 안전한 타협점(보통 3:1 또는 4:1)을 찾아 스위치를 설계하는 것이 데이터센터 설계의 핵심 기본기입니다.
Ⅲ. 오버서브스크립션 비율이 클 때(예: 20:1) 터지는 대재앙 🌟
돈을 아끼겠다고 비율을 무리하게 높이면 다음과 같은 지옥이 열립니다.
- 병목 현상 (Bottleneck) 및 패킷 드랍 (Packet Drop):
- 수강 신청이나 티켓팅 날, 서버 40대가 갑자기 40Gbps를 꽉 채워 위로 쏩니다.
- 스위치는 위로 나가는 구멍이 10Gbps밖에 안 되니, 나머지 30Gbps 어치 데이터는 스위치 안의 임시 창고(버퍼 메모리, Buffer)에 쌓아둡니다. 버퍼마저 다 차버리면 패킷을 바닥에 집어던집니다(Drop). 수강 신청 화면이 하얗게 변하며 튕깁니다.
- 지연 시간 (Latency) 폭발:
- 패킷이 버퍼 창고에서 줄을 서서 자기 차례를 기다리느라 엄청난 큐잉 지연(Queueing Delay)이 발생합니다. (761번에서 배운 초저지연 URLLC가 불가능해집니다.)
Ⅳ. 현대 클라우드망의 설계 트렌드 (Spine-Leaf 연계)
- 과거 3-Tier 구조(801번)에서는 Access 계층은 20:1, 상위 Core 계층은 4:1 식으로 위로 갈수록 돈을 쳐발라 병목을 뚫는 꼼수를 썼습니다.
- 현대 **Spine-Leaf 구조(802번)**는 동-서(East-West) 통신이 워낙 많기 때문에, 대부분의 Leaf-Spine 구간을 무식하게 1:1 (논블로킹)에 가깝게 설계하거나 3:1 이하의 극히 낮은 비율로 설계하여 클라우드 서버끼리의 지연을 완벽하게 없애버리는 무자비한 인프라 물량전을 벌이고 있습니다. (오버서브스크립션을 최소화하는 추세)
📢 섹션 요약 비유: 오버서브스크립션 비율은 아파트 단지의 '출근길 진입로 차선 수'입니다. 아파트에 주차된 차(서버)가 400대라고 해서, 아파트 정문 밖으로 나가는 도로(업링크)를 400차선(1:1 비율)으로 짓는 건설사는 미친놈입니다. 사람들은 출근 시간이 다 다르니까 대충 '40차선'만 지어도 충분하다고 타협합니다(10:1 오버서브스크립션). 돈이 적게 듭니다. 하지만 어느 날 단지에 불이 나서 400대가 동시에 정문을 빠져나가려 한다면(트래픽 폭주), 40차선 도로는 꽉 막히고 단지 안은 아비규환(패킷 드랍, 병목)이 됩니다. 데이터센터 설계자는 이 '돈'과 '화재 발생 시 위험도' 사이에서 줄타기를 하며 최적의 차선 비율을 정해야 합니다.