토러스 (Torus)
핵심 인사이트 (3줄 요약)
- 본질: 메시(Mesh) 토폴로지(바둑판 배열)의 양 끝에 위치한 가장자리 노드(Edge Node)들의 통신 선을 바깥으로 끌어와 반대편 끝 노드와 둥글게 연결하여 **'도넛(Torus) 형태의 완벽한 순환 구조'**를 만든 상호 연결망이다.
- 가치: 가장자리 노드가 겪는 통신 거리의 병목(Edge Effect)을 원천 차단하여, 망의 최대 지름(Diameter, 끝에서 끝까지의 홉 수)을 메시 대비 절반으로 줄이고 시스템의 대칭성과 평균 대역폭을 극대화한다.
- 융합: 복잡하게 꼬이는 3차원 물리 배선(Wiring) 비용의 압박이 있으나, 거대 AI 학습을 위한 구글의 TPU 팟(Pod)이나 IBM Blue Gene 슈퍼컴퓨터의 3D 토러스 네트워크 형태로 융합되어 극한의 노드 간 동기화 성능을 뽑아낸다.
Ⅰ. 개요 및 필요성 (Context & Necessity)
토러스 (Torus) 상호 연결망은 바둑판 모양의 메시(Mesh) 구조가 가진 "가장자리의 비극"을 해결하기 위해 등장한 위상 기하학의 마법이다.
일반적인 2D 메시(바둑판) 구조는 정중앙에 있는 노드(코어)는 상하좌우 4방향으로 자유롭게 데이터를 뿌릴 수 있어 통신 효율이 좋다. 하지만 구석(모서리)에 처박힌 노드는 연결된 선이 2개뿐이라 병목이 생기고, 맨 왼쪽 끝에서 맨 오른쪽 끝으로 데이터를 보내려면 바둑판을 끝에서 끝까지 횡단해야 하는 끔찍한 지연(Latency) 페널티를 겪어야 했다.
이 불공평함을 본 공학자들은 기발한 아이디어를 냈다. "바둑판을 둘둘 말아서 원기둥을 만들고(좌우 연결), 그걸 다시 구부려서 도넛 모양(상하 연결)으로 만들면 어떨까?"
[메시(Mesh) 망의 한계 극복: 도넛 모양의 2D 토러스(Torus) 탄생]
(A) 2D Mesh (순수 바둑판)
[0] ─ [1] ─ [2] ─ [3]
| | | |
[4] ─ [5] ─ [6] ─ [7]
* 문제: [0]에서 [3]으로 가려면 3번 점프(Hop)해야 함. [0]은 선이 2개뿐이라 억울함.
(B) 2D Torus (끝과 끝을 랩어라운드 결선)
┌───────────────────┐ (좌우 끝을 이음)
│ [0] ─ [1] ─ [2] ─ [3] │
│ | | | | │
│ [4] ─ [5] ─ [6] ─ [7] │
└───────────────────────┘
(여기에 상하 [0]-[4]와 [3]-[7] 등도 바깥으로 선을 빼서 서로 연결함)
* 마법의 결과: [0]에서 왼쪽으로 한 번만 점프하면 팩맨(Pac-man) 게임처럼 반대편 벽을 뚫고
바로 [3]으로 나옴! 3 Hop 거리가 1 Hop으로 단축됨! 모든 노드가 선 4개를 갖는 100% 평등 달성.
토러스는 단순히 끝을 이은 것을 넘어, 망 내부의 중심(Center)과 가장자리(Edge)라는 개념 자체를 공간적으로 지워버렸다. 어느 노드에 서 있든 항상 자기가 우주의 중심인 것처럼 완벽히 동일한 라우팅 대칭성(Symmetry)을 획득한 것이다.
📢 섹션 요약 비유: 일반 바둑판(메시) 위에서 길을 잃으면 구석에 몰려 죽지만, 팩맨(Pac-man) 게임(토러스)에서는 오른쪽 구석으로 나가면 순간이동하여 왼쪽 끝에서 튀어나오기 때문에 영원히 구석에 갇히지 않고 맵 전체를 넓게 쓸 수 있는 마법의 공간입니다.
Ⅱ. 아키텍처 및 핵심 원리 (Deep Dive)
토러스 구조를 하드웨어로 구현하면 통신 지표가 극적으로 개선되지만, 그 이면에는 엔지니어들을 미치게 만드는 끔찍한 물리 배선(Wiring)의 늪이 도사리고 있다.
| 네트워크 평가 지표 | 2D 메시 (Mesh) | 2D 토러스 (Torus) | 아키텍처 비교 분석 |
|---|---|---|---|
| 노드 차수 (Node Degree) | 모서리는 2, 중앙은 4 (불균일) | 무조건 4 (완벽한 대칭 균일) | 트래픽이 한 곳으로 쏠리지 않고 분산됨 |
| 망의 지름 (Diameter) | $2(N-1)$ (길다) | $N$ (절반으로 짧음) | 패킷이 목적지까지 도달하는 최악의 지연시간이 50% 향상 |
| 이등분 대역폭 (Bisection BW) | $2N$ | $4N$ (두 배 넓음) | 망을 반으로 쪼갤 때 랩어라운드(Wrap-around) 선 덕분에 동시 트래픽 용량 폭발 |
| 하드웨어 배선 복잡도 | 2D 평면에 예쁘게 그리기 쉬움 | 선들이 서로 교차(Crossing)하며 난장판 됨 | 칩 다이(Die) 층을 여러 겹 올려야 해서 원가 상승 |
가장 골치 아픈 아키텍처적 문제는 랩어라운드(Wrap-around) 링크로 인해 발생하는 물리적 긴 선(Long Wire)과 교착 상태(Deadlock)다.
[토러스 아키텍처의 물리 배선(Wiring) 딜레마와 폴디드(Folded) 해결책]
* 논리적 Torus 맵핑 (끝과 끝을 이음)
[0] ─ [1] ─ [2] ─ [3] ─ (엄청나게 길고 저항이 심한 선) ─┐
└──────────────────────────────────────────────────────┘
=> 문제: 반도체 칩에서 0번과 3번을 잇는 긴 선(Long Wire)은 전기적 저항(RC Delay)
때문에 클럭 동기화가 깨지고 엄청난 발열을 유발함.
* 하드웨어 꼼수: Folded Torus (접힌 토러스 배치)
칩 위에 노드를 1열로 놓는 게 아니라 지그재그로 섞어 배치함.
[0] ─ [3] ─ [1] ─ [2] <-- 이렇게 섞어서 배치하고 선을 이으면?
모든 노드 간의 선 길이가 1칸 또는 2칸 이내로 일정해져서 물리적 Long Wire가 소멸함!
이처럼 토러스는 소프트웨어 라우팅 효율을 극한으로 올리는 대신, 하드웨어 패키징 설계자들의 뼈를 깎는 수직/수평 폴딩(Folding) 배선 노가다를 요구하는 비싼 아키텍처다.
📢 섹션 요약 비유: 수백 명의 사람이 손을 잡고 큰 둥근 원(토러스)을 만들면 아무도 소외되지 않지만, 좁은 방(반도체 칩) 안에서 그 큰 원을 만들려면 팔이 꼬이고 엉킵니다. 그래서 사람들을 지그재그로 세워서 교묘하게 손을 엇갈려 잡게(Folded) 만들어야 비로소 방 안에 들어갈 수 있습니다.
Ⅲ. 융합 비교 및 다각도 분석 (Comparison & Synergy)
토러스 구조는 2D를 넘어 3D, 4D 토러스로 차원을 확장하며 거대 슈퍼컴퓨터와 인공지능 클러스터의 절대적인 척추로 융합 발전해 왔다.
고차원 토러스망과 슈퍼컴퓨터 융합 사례
| 토폴로지 차원 | 개념 및 특징 | 적용된 전설적 슈퍼컴퓨터 / 아키텍처 | 융합의 쾌거 |
|---|---|---|---|
| 2D Torus | 바둑판 끝을 이은 도넛 모양 | Google TPU v2/v3 Pod (AI 가속기) | TPU 수백 대가 칩 외부 케이블로 랩어라운드 통신망을 구축하여, 파라미터 동기화 병목 완벽 파쇄 |
| 3D Torus | X, Y, Z 세 방향 끝을 모두 이은 4차원 입체 도넛 | IBM Blue Gene/L (과거 1위 슈퍼컴) | 수만 개의 약결합 코어를 X,Y,Z 축으로 엮어 날씨 시뮬레이션의 입체적 지리 모델과 100% 일치시킴 |
| 6D Torus | 차원을 6차원까지 늘려 선을 무식하게 많이 연결 | Fujitsu K computer (게이 컴) | Tofu 인터커넥트로 노드 당 10개의 랩어라운드 링크를 박아 통신 딜레이를 극한까지 압살 |
타 과목 관점의 융합 시너지
- 네트워크 라우팅 (데드락 방지, Virtual Channel): 토러스는 환상적인 속도를 내지만, 치명적인 약점이 있다. 바로 끝이 묶여 '순환 고리(Cycle)'가 만들어지기 때문에, 패킷들이 꼬리에 꼬리를 물고 무한 대기하는 **네트워크 교착 상태(Deadlock)**가 터지기 쉽다는 점이다. 이를 방어하기 위해 토러스 망 내부 라우터에는 물리적 선은 1개지만 논리적으로 2개의 길을 뚫어 꽉 막힌 차선을 우회시키는 가상 채널 (Virtual Channel) 기술이 필수적으로 융합된다. OS의 데드락 회피 철학이 하드웨어 스위치 칩 안으로 들어온 것이다.
- 인공지능 트레이닝 (All-Reduce 동기화): 구글이 TPU 클러스터를 팻 트리(Fat-Tree)가 아닌 2D/3D 토러스로 묶은 이유는 AI 알고리즘 때문이다. 딥러닝 분산 학습의 가중치 업데이트(Ring All-Reduce)는 본질적으로 데이터를 둥글게 원형 릴레이로 돌리며 합산하는 수학적 특성을 가진다. 하드웨어 토폴로지(토러스)를 소프트웨어 알고리즘(Ring) 모양과 완벽하게 겹쳐지도록(Isomorphic) 맞춤 제작(Domain-Specific)하여 이더넷의 비효율을 학살한 것이다.
[구글 TPU Pod의 2D/3D 토러스 망을 통한 딥러닝 동기화(All-Reduce) 효율성]
TPU 1 ---> TPU 2 ---> TPU 3 ---> TPU 4
▲ │
└────────────────────────────┘ (랩어라운드 직접 연결)
* AI 가중치(Gradient) 동기화 시:
만약 중앙의 코어 스위치(일반 LAN)를 거친다면: 4대가 동시에 쏘면 스위치 터짐 (병목).
토러스 전용망을 거치면: 1번은 2번으로, 2번은 3번으로, 4번은 다시 1번으로!
스위치 없이 4대가 둥글게 데이터를 릴레이로 돌려가며 더함. 대역폭 낭비 0%. 속도 100배 증가!
📢 섹션 요약 비유: 토러스 망과 가상 채널(VC)의 융합은, 원형 교차로에서 차들이 꼬리를 물고 멈춰버리는 데드락이 발생했을 때, 공중에 마법의 투명 고가도로(가상 채널)를 살짝 띄워 막힌 차들을 점프시켜 뚫어버리는 초고도 네트워크 제어 기술입니다.
Ⅳ. 실무 적용 및 기술사적 판단 (Strategy & Decision)
실무 클라우드 아키텍트나 AI 인프라 엔지니어가 수십억 원짜리 GPU/TPU 랙(Rack) 클러스터를 구축할 때, 케이블을 이더넷 팻 트리(Fat Tree)로 꽂을지 토러스(Torus) 전용망으로 꽂을지 결정하는 것은 연산 성능의 한계를 가르는 생존의 문제다.
실무 클러스터 네트워크 토폴로지 구축 시나리오
-
초거대 AI (LLM) 분산 학습을 위한 클러스터 백본 설계
- 상황: 1,000대의 A100 GPU 서버를 엮어 GPT 모델을 학습시키려 함. 기존 데이터센터의 스파인-리프(Spine-Leaf) 이더넷 스위치에 꽂았더니 통신 지연으로 GPU 활용률이 40%로 폭락함.
- 의사결정: 이더넷 스위치를 통한 TCP/IP 통신망(계층형)을 버리고, 노드들을 직접 NVSwitch나 Infiniband 케이블로 직접 묶어 다차원(3D) 토러스(Torus) 형태의 논블로킹 패브릭을 구축한다.
- 이유: AI 학습은 서버와 클라이언트가 통신하는 게 아니라 서버들끼리 무지막지한 트래픽을 쏟아내는 동서 트래픽(East-West)의 극치다. 중앙 스위치에 의존하는 트리 구조는 병목이 나지만, 모든 방향으로 랩어라운드가 뚫려있는 토러스 망은 서버들끼리 둥글게 원을 그리며 데이터를 릴레이(Ring All-Reduce)로 밀어내므로 스위치 병목 자체가 소멸한다.
-
슈퍼컴퓨터 장애 격리 및 작업 할당 (Job Scheduling)
- 상황: 3D 토러스로 묶인 10,000개의 슈퍼컴퓨터 노드 중 일부에 하드웨어 불량이 발생하여 수시로 전원이 꺼짐.
- 의사결정: 슬러름(Slurm) 같은 HPC 워크로드 스케줄러를 세팅할 때, 죽은 노드를 우회하는 **적응형 라우팅(Adaptive Routing)**을 강제 활성화한다.
- 이유: 토러스 망의 최고 장점은 "A에서 B로 가는 우회로가 엄청나게 많다"는 점이다. 한 블록이 죽더라도 토러스의 대칭성 덕분에 옆으로 한 칸 꺾어서 가면(Fault Tolerance) 전체 링이 무너지지 않고 정상 동작한다. 단, 우회 경로를 타면 패킷 순서가 뒤죽박죽 될 수 있으므로 수신단(NIC)에서 이를 재정렬하는 하드웨어 가속(RDMA)이 반드시 실무적으로 동반되어야 한다.
[실무 클러스터 네트워크 구축 토폴로지 선정 나무]
[네트워크 설계 목표] 100대의 고성능 노드를 하나로 묶어야 한다.
├─ 서비스 성격이 분산 웹/마이크로서비스 등 랜덤한 외부 트래픽 처리인가?
│ └──> 팻 트리(Fat-Tree) / 스파인-리프 구조 채택! (유연한 확장 및 라우팅)
│
└─ 서비스 성격이 거대 과학 연산, 기상 시뮬레이션, 딥러닝 텐서 동기화인가?
└──> [질문 2] 전용 하드웨어망(Infiniband, NVSwitch)에 쏟아부을 자본이 있는가?
├─ Yes ──> 2D/3D 토러스(Torus) 다이렉트 망 구축.
│ (수백 기가바이트의 텐서 조각들이 빛의 속도로 릴레이 동기화됨)
└─ No ───> 일반 이더넷 망으로 타협. (병목으로 인한 AI 학습 시간 몇 배 지연 감수)
운영 및 아키텍처 도입 체크리스트
- 랙(Rack)과 랙 사이를 케이블로 묶는 토러스 결선 작업 시, 물리적인 선의 길이가 들쭉날쭉하여 클럭 동기화(Skew)가 깨지는 현상을 막기 위해, 접힌 토러스(Folded Torus) 배선 지침을 완벽히 준수하여 광케이블 길이를 재단했는가?
- 토러스 링 구조에서 패킷이 뱅뱅 도는 무한 루프(Livelock)와 데드락을 모니터링하기 위해, 스위치 단에서 가상 채널(VC)의 버퍼 고갈 경고 알람을 설정해 두었는가?
안티패턴: 비싼 돈을 주고 구글 클라우드에서 TPU Pod(토러스 망으로 엮인 하드웨어)를 빌렸으면서, 소프트웨어 코드는 로컬 노드에서만 돌아가고 네트워크 통신(Reduce)을 전혀 활용하지 못하게 텐서플로우 디스트리뷰션(Distribution Strategy) 코드를 엉망으로 짜놓는 짓. 비싼 고속도로를 대여해 놓고 주차장으로만 쓰는 격이다.
📢 섹션 요약 비유: 일반 고속도로(트리 구조)는 목적지 나들목이 막히면 뒤차들이 끝없이 밀리지만, 순환 고속도로(토러스 구조)는 막히면 한 바퀴 빙 돌아서 우회하거나 다른 길로 빠져나갈 수 있는 엄청난 탄력성(Resilience)을 제공하는 인프라 예술입니다.
Ⅴ. 기대효과 및 결론 (Future & Standard)
토러스 상호 연결망은 메시(Mesh)의 소외된 가장자리를 혁파하고, 모든 노드를 평등한 세계의 중심으로 끌어올린 분산 아키텍처의 철학적 완성본이다.
| 척도 | 2D 메시(바둑판) 아키텍처 고수 | 다차원 토러스(도넛) 랩어라운드 적용 | 하드웨어 융합 기대효과 |
|---|---|---|---|
| 최대 통신 딜레이 | 구석 노드 간 횡단 시 긴 지연시간 (2N-2) | 팩맨처럼 벽을 뚫어 절반(N)으로 압축 | 데이터센터 랙 간의 최악(Worst) 지연시간 보장 |
| 시스템 단절 저항성 | 선이 하나 끊어지면 병목 우회 어려움 | 대칭적 다중 우회로로 완벽한 우회 가능 | 수만 개 노드 중 결함 발생 시에도 무중단 슈퍼컴 유지 |
미래 전망: 현재 토러스 네트워크는 3D를 넘어 6D 토러스(후지쓰 Tofu 인터커넥트)까지 끈질기게 차원을 늘려가며 선을 깔고 있다. 향후에는 물리적인 구리 케이블이나 광케이블을 일일이 꽂아 토러스를 만드는 물리적 노가다에서 벗어나, 광 스위칭(Optical Switching) 기술을 도입하여 필요할 때만 레이저 빔의 파장을 꺾어 논리적인 토러스 링을 1밀리초 만에 동적으로 만들어 내는 소프트웨어 정의 광 토폴로지 (Software-Defined Optical Topology) 로 극단적인 진화를 이룰 것이다.
📢 섹션 요약 비유: 선을 자르고 구부려 거대한 쇠구슬 도넛(토러스) 뼈대를 만들던 힘든 용접의 시대는 끝을 향해 갑니다. 미래에는 공중에 쏜 수만 가닥의 레이저 불빛이 스스로 허공에서 둥글게 휘어지며 빛의 속도로 완성되는 도넛(광학 토러스)망이 세상을 묶을 것입니다.
📌 관련 개념 맵 (Knowledge Graph)
- 상호 연결망 (Interconnection Network) | 노드와 노드 사이를 엮어주는 통신망 전체를 뜻하며, 메시와 토러스가 이 하위의 핵심 정적 토폴로지임
- 메시 (Mesh) 토폴로지 | 바둑판처럼 생겼으나 끝이 막혀있어 가장자리(Edge) 코어의 성능 불이익과 병목을 유발하는 2D 뼈대
- 교착 상태 (Deadlock) 및 가상 채널 (VC) | 토러스 망처럼 끝이 둥글게 이어진 순환망에서 데이터가 서로 꼬리 물기를 하며 영원히 멈추는 재앙과, 이를 투명 고가도로를 띄워 해결하는 소프트웨어/하드웨어 스위칭 기술
- 링 올-리듀스 (Ring All-Reduce) | 딥러닝 분산 학습(GPU/TPU) 시 수많은 노드가 자기가 학습한 데이터를 둥글게 릴레이로 돌리며 합산하는 소프트웨어 알고리즘 (토러스 하드웨어와 완벽히 융합)
- 폴디드 토러스 (Folded Torus) | 양 끝단을 잇는 엄청나게 길고 저항이 큰 물리적 전선(Long wire)의 부작용을 막기 위해, 노드를 지그재그 섞어 배치하여 짧은 선들만으로 도넛 모양을 완성하는 천재적 반도체 패키징 기법
👶 어린이를 위한 3줄 비유 설명
- 개념: 토러스는 바둑판 모양의 길 끝에 서면 길이 막히는 게 아니라, 팩맨 게임처럼 화면 끝으로 나가면 반대쪽 끝에서 뿅! 하고 튀어나오는 마법의 둥근 길이에요.
- 원리: 구석에 있는 불쌍한 친구들도 벽을 뚫고 반대편 친구와 직접 손을 잡게(랩어라운드) 해줘서, 모든 자리가 우주의 중심처럼 차별 없이 똑같은 길을 가지게 만들었죠.
- 효과: 길이 막히거나 빙 돌아갈 필요 없이 무조건 지름길로 튀어나올 수 있어서, 수만 대의 컴퓨터가 모여있는 거대한 슈퍼컴퓨터가 엄청나게 빠른 속도로 대화할 수 있게 해 준답니다.