핵심 인사이트 (3줄 요약)
- 본질: 거대 언어 모델(LLM) 훈련 인프라에서 **스케일 업(Scale-up)은 "제일 비싸고 뇌가 큰 H100 GPU 1대를 억소리 나게 업그레이드하는 것"**이고, **스케일 아웃(Scale-out)은 "싸구려 GPU 1,000대를 끈으로 묶어 하나의 거대한 슈퍼컴퓨터 군단처럼 병렬로 부려 먹는 분산 처리 아키텍처"**다.
- 가치: GPT-4(파라미터 1조 개) 같은 괴물은 가장 좋은 GPU 1대를 스케일 업 해봤자 메모리가 80GB밖에 안 돼서 모델의 발가락도 못 올린다. 결국 무조건 스케일 아웃(분산 학습)으로 가야 하는데, 이때 1조 개의 파라미터(뇌세포)를 1,000대의 GPU에 어떻게 쪼개어 담을지(Data Parallelism vs Tensor Parallelism vs Pipeline Parallelism) 설계하는 기술망이 딥러닝 훈련 시간과 서버비를 결정하는 궁극의 마법이다.
- 판단 포인트: 1,000대의 GPU가 서로 파편화된 뇌 조각을 들고 계산하다 보니, 자기들끼리 "야 너 계산한 결과값(Gradient) 나한테 보내줘!"라며 끊임없이 통신해야 한다. 이 과정에서 발생하는 네트워크 병목(Communication Overhead)을 극한으로 줄이는 NVLink, InfiniBand 하드웨어망과 ZeRO 같은 메모리 중복 제거 옵티마이저가 스케일 아웃 파이프라인의 생명선이다.
Ⅰ. 개요 및 필요성
초창기 딥러닝(2015년 CNN 수준)은 컴퓨터 1대에 박혀 있는 그래픽카드(GPU) 1장으로도 충분히 학습시킬 수 있었다. 모델이 더 똑똑해지고 무거워지면, 개발자들은 그냥 돈을 좀 더 모아서 메모리가 2배 더 큰 최신 GPU 1장으로 교체했다. 이것이 하나의 기계 성능을 극대화하는 **스케일 업(Scale-up, 수직적 확장)**이다.
하지만 2020년 GPT-3(1,750억 개 파라미터)가 등장하며 물리학의 법칙이 깨졌다. 1,750억 개의 뇌세포를 RAM에 올리려면 무려 350GB의 메모리가 필요한데, 세상에서 가장 비싼 NVIDIA A100 GPU 1장의 메모리는 고작 80GB에 불과했다. 아무리 비싼 장비를 사서 스케일 업을 하려 해도 물리적인 하드웨어 제조 한계에 부딪혀 "모델을 메모리에 올리는 것조차 불가능"해진 것이다.
선택지는 단 하나뿐이었다. GPU 80GB짜리 1대가 안 되면, GPU 10대를 케이블로 묶어서 800GB짜리 가상의 거대 GPU 1대처럼 만들어버리자! 이것이 바로 여러 대의 기계를 수평으로 늘어놓고 일을 쪼개는 스케일 아웃(Scale-out, 수평적 확장) 분산 로드 인프라의 위대한 탄생이다. 이제 AI 인프라 엔지니어들의 숙제는 "어떻게 코드를 짜야 이 멍청한 GPU 1,000대가 서로 싸우거나 놀지 않고 완벽한 오케스트라처럼 1조 개짜리 파라미터를 나눠서 계산할 것인가?"로 옮겨갔다.
- 📢 섹션 요약 비유: 스케일 업(Scale-up)은 피자를 엄청나게 많이 굽기 위해 주방장 1명에게 최고의 프라이팬과 람보르기니 오토바이를 사줘서 **'초인적인 요리사 1명'**을 만드는 짓이다(한계가 명확함). 반면 스케일 아웃(Scale-out)은 오토바이 살 돈으로 동네 알바생 100명을 고용해 **'컨베이어 벨트 분업 공장'**을 만드는 짓이다. 알바생 한 명 한 명은 느리지만, 100명이 합을 맞추면 초인 요리사보다 50배 더 많은 피자를 찍어내는 무적의 군단이 된다.
Ⅱ. 아키텍처 및 핵심 원리
수많은 GPU 군단(Scale-out)에게 1조 개짜리 모델을 분산시키는 방법은 뇌(모델)를 찢느냐, 책(데이터)을 찢느냐에 따라 3차원 분산 학습(3D Parallelism) 아키텍처로 진화했다.
┌──────────────────────────────────────────────────────────────┐
│ Scale-out 스케일 아웃 파라미터 분산(3D Parallelism) 아키텍처 도해│
├──────────────────────────────────────────────────────────────┤
│ [1. 데이터 병렬화 (Data Parallelism) - "책을 찢어 나눠 읽기"] │
│ * GPU 1, GPU 2, GPU 3 모두 똑같은 '완벽한 전체 뇌(Model)' 복사본을 가짐. │
│ * 대신 훈련할 100만 장의 사진(데이터)을 33만 장씩 찢어서 각자 GPU에 던짐. │
│ * 계산 끝나면 지들끼리 "내 결과값(Gradient) 섞자!"(All-Reduce 통신) 합체. │
│ [한계]: 모델 뇌 크기가 GPU 1대(80GB)보다 크면 아예 이 방식은 시도도 못 함!│
│ │
│ [2. 텐서 병렬화 (Tensor Parallelism) - "뇌의 가로(행렬)를 찢기"] │
│ * 거대한 행렬 곱셈 1개를 반으로 가름. │
│ * GPU 1은 수학 공식의 앞부분 절반 계산, GPU 2는 뒷부분 절반 계산. │
│ * 계산 속도가 미치도록 빠르지만, 둘이 한 몸이라 통신을 1초에 1,000번씩 해야 함.│
│ ─▶ 그래서 같은 기계통(Node) 안에 있는 GPU들끼리만 엮어야 렉이 안 걸림. │
│ │
│ [3. 파이프라인 병렬화 (Pipeline Parallelism) - "뇌의 세로(층)를 찢기"] │
│ * 트랜스포머 100층짜리 모델을 썰어버림. │
│ * GPU 1은 [1층~25층] 담당 ─▶ 끝나면 결괏값을 GPU 2 [26층~50층]에 토스.│
│ * 컨베이어 벨트처럼 릴레이로 일을 넘김. 통신량이 적어 기계 간(Inter-node) 연결 용이!│
│ │
│ [★ 최종판: 3D Parallelism (위의 3개를 다 섞어버린 GPT 훈련법)] │
│ * 1,000대 GPU = 파이프라인으로 세로 찢고 + 텐서로 가로 찢고 + 데이터로 복사! │
└──────────────────────────────────────────────────────────────┘
핵심 원리 (ZeRO 옵티마이저의 기적): 마이크로소프트가 만든 분산 학습의 치트키, **ZeRO (Zero Redundancy Optimizer)**가 스케일 아웃의 대미를 장식했다. GPU 100대가 데이터 병렬화를 할 때, 예전엔 각 GPU가 1,000억 개짜리 가중치 업데이트용 '옵티마이저(Optimizer)와 그래디언트(Gradient)' 쓰레기 데이터를 각자 메모리에 중복(Redundancy)해서 품고 있느라 램(RAM)이 터져나갔다. ZeRO 아키텍처는 "야! 어차피 똑같은 쓰레기 메모리인데 100명이 다 들고 있을 필요 없잖아! 이걸 100등분으로 쪼개서 서로 1조각씩만 들고 있다가, 필요할 때만 옆놈한테 통신으로 잠깐 빌려 쓰자!"라며 메모리 중복을 완벽히 제거해(ZeRO-3 단계), 값싼 GPU로도 초거대 LLM을 거뜬히 로드(Load)하게 만든 메모리 샤딩(Sharding)의 혁명이다.
- 📢 섹션 요약 비유: ZeRO 알고리즘은 '100명의 학생이 모인 수학 시험장'이다. 예전엔 100명이 각자 1만 페이지짜리 두꺼운 수학 정석 책(옵티마이저 메모리)을 가방에 무겁게 짊어지고 시험장에 왔다. 허리가 부러질 뻔했다. ZeRO는 "정석 책을 100장씩 찢어서 1명당 100장씩만 가볍게 들고 와라. 그리고 시험 치다가 내가 없는 페이지가 필요하면 옆 짝꿍한테 잠깐 보여달라고 해!"라며 아이들의 가방 무게(GPU 메모리 로드)를 1/100로 줄여버린 천재적인 공유 경제다.
Ⅲ. 비교 및 연결
데이터 센터(IDC) 아키텍처를 설계할 때, "어떻게 스케일 아웃 할 것인가?"를 결정하는 모델 크기와 GPU 스펙 간의 지독한 트레이드오프 병목을 비교해 보자.
| 분산 병렬 아키텍처 | 어떤 상황에 쓰는가? (Use Case) | 인프라 설계의 가장 큰 병목(Bottleneck) |
|---|---|---|
| Data Parallel (데이터 병렬) | 모델 크기가 작아서 GPU 1장(80GB) 안에 쏙 들어갈 때. 사진/문서만 빨리 돌리고 싶을 때 | GPU 100대가 각자 계산 끝나고 결괏값을 서로 맞춰보는 **All-Reduce 통신(네트워크)**에 부하가 엄청나게 걸림 |
| Tensor Parallel (텐서 병렬) | 거대한 하나의 연산(행렬곱)을 쪼개야 해서 통신이 미친 듯이 잦을 때 (Megatron-LM) | 초당 수십 GB의 통신이 필요해, 일반 랜선(Ethernet)으론 즉사함. 무조건 **하나의 보드에 꽂힌 NVLink(초고속 내부망)**로만 엮어야 함 |
| Pipeline Parallel (파이프라인 병렬) | 100층짜리 모델을 세로로 썰어서 다른 서버 컴퓨터(Node)로 릴레이를 넘길 때 | GPU 1번이 [1~25층] 계산할 동안, 26층을 기다리는 GPU 2번은 손가락 빨면서 멍때리는 '버블(Bubble, 유휴 시간)' 지연이 끔찍하게 터짐 |
실제 글로벌 빅테크(OpenAI, Meta)는 1만 대의 GPU를 엮을 때 "하나의 기계(Node) 속 8대 GPU끼리는 통신이 빠른 Tensor 병렬로 엮고, 기계와 기계 사이의 긴 랜선에는 Pipeline 병렬을 엮고, 전체 덩어리들을 Data 병렬로 복사하는" 3D 하이브리드 파라미터 분산 로드를 구축하는 것이 MLOps 인프라 엔지니어링의 끝판왕 예술이다.
- 📢 섹션 요약 비유: 텐서 병렬은 '한 수술대에 붙은 의사 4명'이다. 심장을 자르고(1번 의사) 혈관을 꿰매는(2번 의사) 행위를 1초 단위로 대화하며 맞춰야 하니까 무조건 한 방(NVLink)에 딱 붙어있어야 한다. 파이프라인 병렬은 '자동차 조립 컨베이어 벨트'다. 1번 공장에서 뼈대 만들면 2번 공장으로 넘긴다. 공장이 멀리 떨어져 있어도(일반 네트워크) 상관없지만, 1번 공장이 지각하면 2번 공장은 부품이 안 와서 계속 놀아야 하는(Bubble) 치명적인 단점이 있다.
Ⅳ. 실무 적용 및 기술사 판단
GPU 1,000대를 박아넣고 수백억 원짜리 스케일 아웃 인프라를 지어놨는데, 훈련 속도가 GPU 10대 쓸 때랑 똑같이 느려터지는 환장할 노릇이 클라우드 아키텍처 실무에서 매일 터진다.
실무 아키텍처 판단 (체크리스트)
- 통신 병목 타파 (InfiniBand와 RoCE 결단): 스케일 아웃의 생명은 GPU의 계산 속도가 아니라, **"떨어져 있는 다른 컴퓨터(Node)의 GPU와 얼마나 빨리 통신하는가?"**다. 1,000대의 컴퓨터를 일반 인터넷 랜선(TCP/IP, Ethernet)으로 묶으면 패킷 검사하느라 통신 딜레이가 끔찍하게 걸려 GPU들이 계산은 안 하고 데이터 기다리느라 놀게 된다. 무조건 통신 프로토콜을 우회해 컴퓨터 메모리에 직접 꽂아버리는 RDMA (Remote Direct Memory Access) 기술 기반의 InfiniBand 네트워크 스위치나 최소한 RoCE v2 케이블망을 깔지 않으면 분산 학습 파이프라인은 돈 낭비 깡통이 된다.
- 파이프라인 버블(Bubble) 최소화 마이크로 배치(Micro-batch) 설계: 컨베이어 벨트(파이프라인 병렬)에서 1번 GPU가 100장의 사진을 다 처리할 때까지 2번 GPU가 멍때리는(Bubble) 지옥을 막아야 한다. 100장을 한 번에 주지 말고, 10장씩 잘게 쪼개서(Micro-batch) 1번이 10장 처리하자마자 바로 2번으로 던져버리게 스케줄링을 꼬아주는 1F1B (One Forward One Backward) 파이프라인 스케줄링 교차 알고리즘을 세팅해야 GPU 가동률(Utilization)을 90% 위로 끌어올릴 수 있다.
안티패턴
-
Fault-Tolerance (장애 허용) 설계 부재 무지성 로드: 스케일 업(GPU 1대)일 때는 기계가 고장 날 확률이 적다. 하지만 스케일 아웃(GPU 1,000대 묶음)에서는 확률상 하루에 무조건 1~2대의 GPU 보드가 타버리거나 랜선이 끊어진다. 이때 전체 1,000대의 동기화(All-Reduce)가 멈추며 시스템 전체가 뻗어버리고, 그동안 훈련한 가중치 수십억 원어치가 몽땅 날아간다. 분산 로드 설계 시 수시로 가중치를 디스크에 백업(Checkpointing)하고, 죽은 GPU 노드를 파이프라인에서 자동으로 쳐내고 스페어 장비를 꽂아 넣는 탄력적 오케스트레이션(Elastic Training, PyTorch TorchElastic 등) 결계가 없으면 프로젝트는 완벽히 파멸한다.
-
📢 섹션 요약 비유: 인피니밴드(InfiniBand) 도입의 필요성은 '천재 학자 1,000명의 카톡방'과 같다. 1,000명의 천재(GPU)를 모아놔서 계산은 0.1초 만에 끝나는데, 자기 계산 결과를 남한테 알려주려고 우체국(일반 랜선)에 가서 편지를 부치고 있으면 프로젝트가 굴러가겠는가? 무조건 1,000명의 뇌에 직접 텔레파시 칩(RDMA)을 꽂아서, 대화 딜레이가 0이 되도록 인프라 네트워크를 마개조해야만 진정한 1,000배의 집단 지성 속도가 폭발한다.
Ⅴ. 기대효과 및 결론
스케일 업(Scale-up)에서 스케일 아웃(Scale-out)으로의 패러다임 전환은, 인류가 딥러닝이라는 바벨탑을 쌓아 올릴 때 벽돌 1개의 크기를 키우는 데 집착하던 것을 버리고, 100만 명의 일꾼이 거미줄처럼 엮여 완벽하게 합을 맞추는 초연결 군집 지능의 세계로 진입했음을 선언하는 공학적 마일스톤이다.
GPT-4, Gemini, Llama-3 같은 이 시대의 거대 짐승들은 절대 GPU 1장의 성능으로 탄생하지 않았다. 3D 파라미터 분산 학습과 ZeRO 최적화라는 흑마술이, 1만 대의 GPU 메모리를 마치 단 하나의 매끄러운 바다처럼 연결해 주었기에, 수조 개의 뇌세포(파라미터)들이 병목 없이 숨을 쉴 수 있었던 것이다.
앞으로 모델의 파라미터가 10조 개, 100조 개로 폭주함에 따라 단일 칩의 스케일 업 한계는 더욱 뼈저리게 다가올 것이다. 결국 미래의 AI 패권은 엔비디아(NVIDIA) 칩을 몇 개 샀느냐보다, **"누가 이 수만 대의 싸구려 칩들을 네트워크 지연 없이 가장 우아한 분산 파이프라인으로 직조해 내는가?"**라는 데이터센터 아키텍트들의 클러스터 설계 능력(Scale-out Orchestration)에 의해 지배될 것이다.
- 📢 섹션 요약 비유: 스케일 업이 '아이언맨' 한 명을 미치도록 강하게 만드는 영웅주의라면, 스케일 아웃은 수천 대의 '아이언맨 슈트(GPU) 군단'을 만들고 그들이 거미줄처럼 통신하며 하나의 뇌로 움직이게 만드는 '군집 드론 시스템'이다. 적(1조 파라미터 모델)이 너무 거대해져서 영웅 1명의 주먹으론 흠집도 안 나는 시대에, 이 1,000대의 군단이 오차 없이 진형(Data/Tensor/Pipeline Parallel)을 짜고 협공하는 전술(분산 로드)이야말로 현대 AI 전쟁의 유일한 승리 공식이다.
📌 관련 개념 맵
| 개념 | 연결 포인트 |
|---|---|
| GPU/NPU (하드웨어 가속기) | 스케일 업과 아웃의 최말단에서 실제로 일하는 병사. 메모리가 모자라는 태생적 한계 때문에 스케일 아웃(수평 분산)의 필요성을 강제한 원흉이자 영웅 |
| All-Reduce (올 리듀스 통신) | 100대의 GPU가 각자 데이터 병렬로 공부한 뒤, "자 다들 뭐 배웠는지 모아보자!"라며 각자의 결과(Gradient)를 서로 완벽히 더해서(Reduce) 다시 100명에게 흩뿌려주는(All) 분산 학습 통신의 절대 심장 공식 |
| ZeRO (Zero Redundancy Optimizer) | 무거운 옵티마이저 가중치 데이터를 100명의 GPU가 다 들고 있지 말고 1/100로 쪼개서 나눠 들고 통신하자는, 마이크로소프트 DeepSpeed가 발명한 스케일 아웃 메모리 압축의 구세주 |
| NVLink & InfiniBand | 스케일 아웃 환경에서 GPU 1,000대가 서로 통신하다 렉이 걸려 멈추는 걸 막기 위해, 일반 랜선을 뜯어내고 대역폭을 우주 끝까지 뚫어버린 NVIDIA의 독점 초고속 하드웨어 케이블망 |
👶 어린이를 위한 3줄 비유 설명
- 엄청나게 큰 1,000조각 퍼즐(LLM 모델)을 맞춰야 해요. **스케일 업(Scale-up)**은 똑똑한 퍼즐 천재 1명에게 미치도록 큰 책상을 사주는 건데, 책상이 아무리 커져도 퍼즐이 너무 많아서 다 못 올려놔요.
- 그래서 나온 게 **스케일 아웃(Scale-out)**이에요. 평범한 친구 1,000명을 부르고 책상을 1,000개 이어 붙인 다음, "너는 빨간 퍼즐 10장, 너는 파란 퍼즐 10장 맞춰!" 하고 일을 쫙 쪼개주는 거예요.
- 친구들이 서로 "야! 파란색 조각 나한테 줘!"라고 엄청나게 빨리 대화(초고속 네트워크)하면서 힘을 합치니까, 1명으론 평생 걸릴 거대한 퍼즐을 단 하루 만에 완벽하게 맞춰내는 기적이 일어난답니다!