핵심 인사이트 (3줄 요약)
- 전통적인 클라우드(EC2 등)는 한 대의 물리 서버(Host)를 여러 개의 가상 머신(VM)으로 쪼개어 수십 명의 고객에게 월세방처럼 나눠주는(Multi-tenant) 방식이다.
- 가상화는 필연적으로 CPU 성능을 갉아먹고, 옆방 손님이 자원을 독식하면 내 성능이 떨어지는 Noisy Neighbor(시끄러운 이웃) 문제를 일으킨다.
- **베어메탈 클라우드(Bare Metal Cloud)**는 가상화(Hypervisor)를 아예 설치하지 않은 '순수 쇳덩어리(Bare Metal) 하드웨어 1대'를 나 혼자 독점(Single-tenant)하면서도, 클릭 한 번에 5분 만에 서버가 켜지는 클라우드의 편리함을 유지하는 궁극의 고성능 인프라다.
Ⅰ. 하이퍼바이저 세금과 시끄러운 이웃
가상 머신(VM)은 편하지만, 무거운 대가를 치러야 합니다.
- 하이퍼바이저 오버헤드: VM 위에서 도는 딥러닝이나 거대 데이터베이스(Oracle, SAP HANA)는 하드웨어 코어를 극한으로 쥐어짜야 합니다. 하지만 중간에 낀 가상화 소프트웨어(KVM, VMware)가 5~10%의 통행세(Context Switch)를 걷어갑니다.
- Noisy Neighbor: 클라우드 회사가 CPU 코어 64개짜리 서버를 100명에게 쪼개어 팔았습니다(오버커밋). 내 옆방 VM의 주인이 갑자기 비트코인 채굴기를 돌리기 시작하면, 같은 물리 메모리 대역폭과 L3 캐시를 공유하는 내 VM의 데이터베이스 속도가 갑자기 뚝뚝 끊깁니다.
📢 섹션 요약 비유: 클라우드 VM은 고시원입니다. 내 방에서 조용히 자고 싶어도, 복도(버스)를 쿵쾅거리고 옆방에서 코를 심하게 고는 이웃(Noisy Neighbor)을 만나면 내 숙면(성능)이 박살 납니다. 방음벽(가상화)도 얇아서 한계가 있습니다.
Ⅱ. 베어메탈 클라우드의 마법: 물리 서버의 자동화
"가상 머신이 싫으면 그냥 옛날처럼 서버 랙을 직접 사서 IDC에 꽂으면 되잖아?" 하지만 그렇게 하려면 서버 주문, 배송, 랜선 꽂기, OS 설치까지 **한 달(1 Month)**이 걸립니다.
베어메탈 클라우드는 이 옛날 방식의 서버 구매를 클라우드 API와 하드웨어 자동화로 해결했습니다.
- 고객이 AWS 콘솔에서
i3.metal인스턴스 시작 버튼을 누릅니다. - AWS 데이터센터 안에 미리 꽂혀서 잠들어 있던 거대한 진짜 물리 서버 1대의 전원이 켜집니다.
- PXE(네트워크 부팅) 기술을 통해 원격으로 OS(우분투, 윈도우)가 5분 만에 쫙 깔립니다.
- 고객에게 통째로 권한(Root)을 줍니다. 가상화 소프트웨어는 1%도 깔려있지 않은 날것의 100% CPU 성능이 고객에게 주어집니다.
클라우드 인프라 비교 (ASCII)
[ 일반 클라우드 VM (가상화) ] [ 베어메탈 클라우드 (물리 독점) ]
┌── VM 1 ──┐┌── VM 2 ──┐ ┌─────────────────────────────┐
│ 고객 A ││ 고객 B │ │ 고객 C │
└────┬─────┘└─────┬────┘ │ (루트 권한 독점) │
┌────▼────────────▼────┐ └─────────────┬───────────────┘
│ 하이퍼바이저 (가상화 벽) │ │ (가상화 없음, 다이렉트!)
└──────────┬───────────┘ ▼
┌──────────▼───────────┐ ┌─────────────▼───────────────┐
│ 물리 서버 1대 (64 Core)│ │ 물리 서버 1대 (64 Core) │
└──────────────────────┘ └─────────────────────────────┘
📢 섹션 요약 비유: 호텔 앱(클라우드 콘솔)으로 방을 잡는데, 고시원 방 1칸(VM)을 빌리는 게 아니라 아예 **전원주택 건물 한 채(베어메탈)**를 통째로 렌트해버리는 것입니다. 윗층 층간소음도 없고 건물 안의 모든 권력이 내 차지지만, 예약 버튼을 누르자마자 5분 만에 청소와 열쇠 발급(자동화)이 끝납니다.
Ⅲ. 누가 베어메탈을 쓰는가? (오프로딩 DPU의 힘)
베어메탈 서버는 비쌉니다. 그럼에도 불구하고 다음과 같은 곳에서 폭발적으로 쓰입니다.
- 대형 DB (Oracle 등): 오라클 라이선스는 가상 CPU(vCPU) 단위로 사면 너무 비쌉니다. 차라리 물리 서버 1대를 통째로 빌려서 물리 코어 수로 라이선스를 계산하는 게 훨씬 쌉니다.
- 자체 클라우드(K8s) 구축: 넥슨, 쿠팡 같은 대기업은 남의 하이퍼바이저(VM) 위에 자신들의 쿠버네티스(컨테이너)를 올리지 않습니다. 베어메탈을 빌려와서 그 위에 자기네 마음대로 서버를 쪼갭니다.
기술의 비결 (DPU/SmartNIC): AWS가 가상화(하이퍼바이저)도 없이 어떻게 고객의 통신 트래픽을 과금하고 방화벽을 칠 수 있을까요? 바로 이전 장에서 배운 Nitro(DPU) 덕분입니다. 가상화와 방화벽 코드를 메인 CPU에서 다 빼서 랜카드(DPU) 안에 하드웨어로 박아버렸기 때문에, 메인 CPU는 100% 고객에게 줘버려도 클라우드 통제가 가능해진 것입니다.