226. 슈퍼컴퓨팅 / HPC (High Performance Computing)
⚠️ 이 문서는 날씨 예측, 핵폭발 시뮬레이션, 유전자 분석, 신소재 개발 등 일반적인 컴퓨터나 클라우드 서버로는 평생을 계산해도 끝낼 수 없는 방대한 양의 연산을, 수천 대의 고성능 컴퓨터(노드)를 거대한 초고속 네트워크망으로 묶어 하나의 시스템처럼 동시에 병렬 계산을 수행하는 인프라 아키텍처인 HPC를 다룹니다.
핵심 인사이트 (3줄 요약)
- 본질: 한 대의 엄청나게 빠른 괴물 컴퓨터를 만드는 방식이 아니라, 수천~수만 대의 서버(CPU/GPU 노드)를 초저지연 스위치(InfiniBand 등)로 촘촘히 묶어 계산 작업을 잘게 쪼개어 동시에 풀게 하는 극단적인 '병렬 처리 시스템'이다.
- 가치: 국가의 과학 기술력과 산업 경쟁력을 결정짓는 전략 자산이다. AI 딥러닝 트레이닝(특히 LLM)의 급부상으로 기존 과학 연산용이던 HPC 인프라가 거대 AI 모델의 훈련용 백엔드로 폭발적인 재조명을 받고 있다.
- 기술 체계: 연산 노드 묶음(Compute Cluster), 초고속/초저지연 네트워크(RDMA), 그리고 수백만 개의 파일에 동시 접근해도 병목이 없는 병렬 파일 시스템(Lustre, GPFS)이라는 삼위일체가 필수적이다.
Ⅰ. 일반 클라우드 서버와 HPC의 본질적 차이
클라우드 1만 대를 모아놓는다고 슈퍼컴퓨터가 되는 것은 아니다.
- 느슨한 결합 (클라우드 웹 서버):
- 일반적인 웹 서버 1만 대는 서로 대화할 일이 거의 없다. 각자 들어온 접속자의 쇼핑몰 화면만 보여주면 끝이다. (독립적 작업, Embarrassingly Parallel)
- 강한 결합 (HPC 병렬 연산):
- 일기 예보 시뮬레이션을 할 때, 서울의 바람(서버 1)은 1초 뒤 수원의 날씨(서버 2)에 영향을 미친다.
- 따라서 서버 10,000대가 연산을 하는 도중에 매초 서로 끊임없이 계산 결과(데이터)를 주고받아야만 다음 연산으로 넘어갈 수 있다.
- 네트워크 병목의 공포:
- 클라우드에서 쓰는 일반 이더넷(Ethernet) 카드로 이 통신을 하면, 계산은 끝났는데 네트워크로 옆 서버에 데이터를 넘겨주는 데 시간이 다 허비된다. (통신 오버헤드)
📢 섹션 요약 비유: 클라우드가 각자 방에 앉아 자기 시험지 1장만 혼자 조용히 풀면 되는 학생 1만 명이라면, HPC는 1장의 거대한 시험지를 1만 명의 학생이 어깨를 맞대고 둥글게 모여 서로 "너 몇 번 풀었어? 이거 답 뭐야?"라고 1초마다 떠들면서(강한 통신) 동시에 풀어야 하는 고난도 협동조합입니다.
Ⅱ. HPC를 완성하는 3대 아키텍처 구성 요소
HPC의 핵심은 CPU의 속도가 아니라 칩과 칩 사이를 잇는 '도로망'이다.
- 초저지연 네트워크 (InfiniBand & RDMA):
- 일반 랜선 대신 대역폭이 엄청나게 넓은 인피니밴드(InfiniBand) 케이블을 쓴다.
- RDMA (Remote Direct Memory Access): 서버 A가 서버 B에게 데이터를 보낼 때 OS(커널)와 CPU를 거치지 않고, 네트워크 카드가 상대방 서버의 메모리(RAM)에 다이렉트로 데이터를 꽂아버리는 마법 같은 기술로 통신 지연을 '제로'에 가깝게 만든다.
- 가속기 노드 (GPU/TPU Cluster):
- 과거에는 CPU만 수만 개를 꽂았지만, 현대 HPC는 AI와 행렬 연산 가속을 위해 NVIDIA A100, H100 같은 GPU 수천 대를 빽빽하게 장착한 하이브리드 노드로 진화했다.
- 병렬 파일 시스템 (Parallel File System):
- 1만 대의 서버가 동시에 10TB짜리 우주 시뮬레이션 데이터를 읽어 들이려 하면 일반 스토리지는 폭발해 버린다. Lustre나 IBM Spectrum Scale(GPFS) 같은 파일 시스템을 써서, 파일을 수천 개의 디스크 조각으로 찢어놓고 수천 대의 서버가 동시에 각기 다른 조각을 병렬로 빨아들이게 설계한다.
📢 섹션 요약 비유: 공장의 수만 대의 로봇 팔(CPU/GPU)이 완벽하게 박자를 맞춰 일하려면, 로봇들 사이에 부품을 던져주는 컨베이어 벨트가 빛의 속도(RDMA)여야 하며, 재료를 꺼내오는 창고의 문이 1만 개(병렬 파일 시스템)로 뚫려있어 한 번에 물건을 쏟아낼 수 있어야 합니다.
Ⅲ. 클라우드 HPC (HPCaaS)의 부상
슈퍼컴퓨터는 더 이상 국가 연구소나 대기업 지하실의 전유물이 아니다.
- 구축형(On-Premises) HPC의 고통:
- 진짜 슈퍼컴퓨터를 사내에 지으려면 수백억 원의 초기 장비 비용은 물론, 열을 식히기 위한 수냉식 쿨링 시스템과 전력망 공사 등 배보다 배꼽이 더 큰 유지비가 들어간다. 기계가 3년이면 구형이 된다는 점도 뼈아프다.
- 클라우드 HPC (HPC as a Service):
- AWS(Elastic Fabric Adapter), Azure, GCP 등은 거대한 자체 데이터센터 내부에 슈퍼컴퓨팅 구역을 만들고, 일반 기업 고객이 원할 때만(예: 신약 시뮬레이션을 돌리는 2주 동안만) 수천 대의 GPU 클러스터를 빌려 쓰고 반납할 수 있게 만들었다.
- AI 혁명과 HPC의 대중화:
- ChatGPT 같은 LLM 모델을 학습시키기 위해서는 막대한 컴퓨팅 파워가 필요하다. 이로 인해 과거 순수 과학자들만 찾던 HPC 기술을, 이제는 AI를 하려는 모든 기업이 클라우드를 통해 앞다투어 임대해 쓰는 폭발적 시장 성장이 일어나고 있다.
📢 섹션 요약 비유: 1년에 딱 한 달, 산에 나무를 하러 가야 하는데 수백억짜리 거대한 벌목 기계(슈퍼컴)를 빚내서 직접 사고 11개월 동안 주차장에 처박아두는 대신, 중장비 대여 업체(클라우드)에서 가장 최신형 벌목 기계를 한 달만 빌려 쓰고 돈을 내는 합리적인 공유 경제 시대가 도래한 것입니다.