PNM (Processing-Near-Memory)
핵심 인사이트 (3줄 요약)
- 본질: 연산기(ALU)를 아예 메모리 칩 '안(In)'에 심어버리는 PIM(Processing-In-Memory)의 극악한 제조 난이도와 발열(TDP) 한계를 현실적으로 타협하기 위해, 연산 칩(CPU/GPU)과 메모리 칩(HBM)을 하나의 기판 위 '바로 옆(Near)'에 바짝 붙여 패키징하는 2.5D/3D 하드웨어 통합 기술이다.
- 가치: 기존의 메인보드 구리선(PCIe 버스)을 통한 끔찍하게 느린 통신을 뜯어버리고, 실리콘 인터포저나 TSV(실리콘 관통 전극) 같은 초고대역폭 미세 도로를 뚫어, PIM에 준하는 엄청난 메모리 대역폭(TB/s)을 확보하면서도 제조 수율과 발열 제어 면에서 압도적인 가성비를 달성한다.
- 융합: 엔비디아(NVIDIA)의 H100이나 AMD의 MI300처럼, 거대한 GPU 코어 다이(Die) 주변을 HBM(고대역폭 메모리) 타워들이 호위무사처럼 바짝 에워싸고 있는 현대의 모든 최상위 AI 가속기들은 사실상 이 PNM 패키징 융합 아키텍처의 결정체다.
Ⅰ. 개요 및 필요성 (Context & Necessity)
PNM (Processing-Near-Memory)은 "메모리 장벽(Memory Wall)을 부수고 싶지만, 물리학과 반도체 수율의 현실 앞에 무릎 꿇은 공학자들의 가장 똑똑한 타협안"이다.
데이터를 옮기다 전기를 다 써버리는 '폰 노이만 병목'을 깨기 위해 가장 이상적인 기술은 PIM(메모리 칩 내부에 연산기를 박아버림)이었다. 하지만 이건 상상 초월로 만들기 어려웠다. "연산을 잘하는 로직 반도체"를 굽는 가마솥 온도와, "데이터를 저장하는 메모리 반도체"를 굽는 가마솥 온도가 완전히 달랐기 때문이다. 둘을 한 칩에 억지로 구워내니 수율(불량률)이 폭발했고, 연산기에서 뿜어져 나오는 섭씨 100도의 열기 때문에 열에 약한 메모리 셀(DRAM)의 데이터가 홀라당 날아가는 끔찍한 재앙이 벌어졌다.
반도체 패키징 공학자들은 머리를 굴렸다. "야! 억지로 한 몸(In)으로 섞지 마! 차라리 최고 성능의 GPU 칩 따로 만들고, 최고 성능의 메모리(HBM) 따로 만든 다음, 이 둘을 메인보드 바닥이 아니라 아주 정밀한 '실리콘 도마(인터포저)' 위에 올려놓고 현미경으로 봐야 보이는 수만 가닥의 초미세 전선으로 1mm 거리까지 '초근접(Near)'해서 납땜해 버리면 어때?!"
이것이 현대 슈퍼컴퓨터와 인공지능 칩을 지배하는 PNM (Processing-Near-Memory) 아키텍처, 2.5D 패키징 혁명의 시작이다.
📢 섹션 요약 비유: PIM은 주방(연산)과 창고(메모리)를 억지로 하나의 방(In)으로 터버린 겁니다. 가스레인지 열기 때문에 창고의 얼음(데이터)이 다 녹아버렸죠. PNM은 주방 칩과 창고 칩을 안전하게 유리문 하나로 분리해 놓고, 대신 유리문(인터포저)을 서로 1cm 거리로 바짝 붙여서(Near) 문만 열면 창고 물건을 1초 만에 꺼낼 수 있게 만든 최고의 현실적 설계입니다.
Ⅱ. 아키텍처 및 핵심 원리 (Deep Dive)
PNM을 구현하는 핵심 마법은 칩 내부 구조가 아니라, 칩과 칩을 이어 붙이는 **'고급 패키징(Advanced Packaging) 기술'**과 **'HBM(고대역폭 메모리)'**에 있다.
| 핵심 구성 블록 | 아키텍처 동작 원리 및 물리적 한계 돌파 | 비유 |
|---|---|---|
| 실리콘 인터포저 (Silicon Interposer) | 녹색 메인보드 대신, 실리콘 웨이퍼로 만든 매끈한 기판. 이 위에 GPU 칩과 메모리 칩을 올려놓고 바닥 밑으로 수만 가닥의 미세 고속도로를 뚫어 연결함 (2.5D 패키징) | 두 건물을 잇는 수만 차선의 투명한 초고속 지하 터널 |
| TSV (Through Silicon Via) | HBM 메모리 칩들을 4층~12층으로 수직으로 쌓아 올린 뒤, 꼬치구이처럼 구멍을 뚫어 수직 엘리베이터(전선)로 데이터를 위아래로 빛의 속도로 나름 (3D 패키징) | 고층 빌딩 각 층을 1초 만에 뚫고 다니는 수천 대의 엘리베이터 |
| HBM (High Bandwidth Memory) | 기존 DDR 메모리가 얇은 빨대 1개라면, HBM은 짧지만 두꺼운 하수구 파이프 1,000개를 한 번에 꽂아 초당 수 테라바이트(TB/s)의 데이터를 폭포수처럼 쏟아부음 | 얇고 긴 호스 대신, 짧고 엄청 넓은 수문 개방 |
| Thermal Isolation (열 격리) | 칩들이 물리적으로 '아주 살짝' 떨어져 있어, 300W로 불타는 GPU의 열이 메모리를 직접 태우는 것을 방지함 | 주방 화구(열)와 냉동고를 1cm 띄워놓고 단열벽 세우기 |
PNM 아키텍처의 핵심은 **"거리를 줄이면 대역폭(선의 굵기)을 미친 듯이 늘릴 수 있다"**는 반도체 물리학이다.
[전통적 메인보드(Far) 구조 vs PNM 2.5D 패키징(Near) 아키텍처 프랙탈]
(1) 과거 (Far-Memory): CPU와 램이 '녹색 메인보드'로 연결됨
[ GPU 칩 ] <===(10cm짜리 구리선)====> [ 일반 DDR 램 ]
- 전선이 10cm로 길어 신호가 깨짐. 그래서 선을 64가닥밖에 못 깔음. 대역폭 50GB/s 병목.
(2) 현대 PNM (Near-Memory): '인터포저' 위에서 동거
┌────────────────────────────────────────┐
│ [HBM] [HBM] [ 거대한 GPU 다이 ] [HBM] │
│ └──────(1mm짜리 수만 가닥 선)─────┘ │
└──────── (실리콘 인터포저 기판) ────────┘
- 전선 거리가 1mm로 줄어드니 신호가 깔끔함! 그래서 바닥에 선을 1,024가닥, 4,096가닥씩 무식하게 뚫어버림.
- 대역폭 무려 초당 3TB/s (3,000GB/s) 폭발! 메모리 랙(Wall) 완벽히 분쇄!
이 "붙여놓기" 신공 덕분에, 엔비디아와 AMD는 PIM처럼 어려운 회로 설계를 하지 않고도 PIM에 맞먹는 메모리 데이터 공급 속도를 뽑아낼 수 있게 되었다.
📢 섹션 요약 비유: 서울에서 부산(메인보드)으로 물건을 나르려면 8차선 고속도로가 한계입니다. 하지만 1미터 앞(PNM)으로 물건을 건네줄 때는, 고속도로를 깔 필요 없이 사람 1만 명을 일렬로 세워서 한 번에 동시에 물건을 휙 던져주면 됩니다. 짧은 거리가 만든 1만 개의 차선(HBM)이 PNM 아키텍처의 위력입니다.
Ⅲ. 융합 비교 및 다각도 분석 (Comparison & Synergy)
메모리 병목을 피하는 3형제(PNM, PIM, CIM)는 하드웨어 칩을 '얼마나 극단적으로 하나로 합칠 것인가(Integration)'에 대한 치열한 사상적 대립의 결과물이다.
메모리-연산 통합 수준에 따른 아키텍처 비교
| 비교 척도 | PNM (Processing-Near-Memory) | PIM (Processing-In-Memory) | 아키텍처적 우위 / 시장 승리자 |
|---|---|---|---|
| 물리적 위치 | 로직 칩과 메모리 칩이 인터포저 위에서 분리(Near) | 메모리 칩(Die) 안에 로직이 파고듦(In) | 현재 AI 시장의 100%를 PNM(HBM 탑재 GPU)이 독식 중 |
| 제조 수율(원가) | 최고급 칩을 따로 구워서 양품만 골라 조립(Chiplet). 가성비 굿! | 둘 중 하나만 불량 나도 전체 칩 폐기. 원가 지옥 | 패키징 기술(TSMC CoWoS)의 승리로 PNM 압승 |
| 연산 제어 로직 | CPU/GPU의 막강하고 유연한 원래 뇌를 100% 그대로 씀 | 램 안에 아주 작은 멍청한 연산기(MAC)만 들어있음 유연성 제로 | 거대 AI 모델의 복잡한 커스텀 코드를 돌리는 데는 PNM이 필수 |
| 발열(TDP) 통제 | 다이(Die)가 분리되어 있어 냉각 쿨러 달기 쉬움 | 칩이 한 덩어리라 쿨링 불가. 클럭 속도 올리면 칩 녹음 | 고성능 800W급 가속기 시장에선 PIM 적용 불가 |
타 과목 관점의 융합 시너지
- 반도체 패키징 (Chiplet 아키텍처): PNM은 칩렛(Chiplet) 아키텍처와 완벽히 한 몸으로 융합된다. 수조 개의 트랜지스터를 가진 하나의 완벽한 칩을 구워내는 건 수율이 10%도 안 나오는 자살 행위다. 그래서 엔비디아(Hopper)나 AMD(MI300X)는 연산용 칩 조각 8개, HBM(메모리) 조각 8개를 다 따로따로 싸게 찍어낸 뒤, 패키징 기판(인터포저) 위에서 3D로 블록 장난감 조립하듯 꽉꽉 눌러 붙였다. 이것이 물리적 한계를 패키징 공학으로 박살 낸 궁극의 융합 아키텍처다.
- 인공지능 소프트웨어 (초거대 파라미터 방어): 챗GPT-4 같은 수천억 개의 파라미터를 가진 거대 신경망 모델(LLM)은 텐서 하나가 수백 GB에 달한다. 이 어마어마한 파라미터를 칩 안에 있는 쪼끄만 L1/L2 캐시에 다 넣는 것은 불가능하다. 결국 PIM의 좁은 창고로는 LLM을 감당할 수 없었고, 외부에 있지만 칩과 1mm 간격으로 바짝 붙어있어(PNM) 초당 수 TB의 대역폭으로 콸콸 쏟아져 들어오는 80GB짜리 HBM 덩어리들만이 이 초거대 모델의 숨통을 틔워주는 유일한 생명선으로 융합되었다.
[최신 AI 하드웨어(AMD MI300)의 PNM 극단적 3D 패키징 프랙탈]
* 밑바닥: [ Base Die (I/O 통신 및 인터포저) ]
▲ (수십만 개의 TSV 수직 엘리베이터 연결)
* 2층 (연산): [ CPU 칩렛 조각 ] [ GPU 칩렛 조각 6개 ]
▲ (좌우로 1mm 간격 초근접 2.5D 연결)
* 옆 건물 (메모리): [ HBM3 타워 8개 (메모리 아파트) ]
=> CPU, GPU, HBM이 메인보드라는 촌스러운 동네를 떠나,
'하나의 조그만 실리콘 섬(인터포저)' 위로 영혼까지 이주하여
서로 1나노초 단위로 통신하는 진정한 형태의 PNM 슈퍼 융합 도시가 건설됨.
📢 섹션 요약 비유: PIM은 자동차 엔진 안에 작은 기름통을 아예 용접해 넣은 겁니다. 빠르긴 한데 기름을 많이 못 넣어서 멀리 못 갑니다. PNM은 엄청나게 거대한 기름통(HBM)을 엔진 바로 옆에 찰싹 붙여놓고(Near), 엄청나게 두꺼운 호스 1,000개로 기름을 미친 듯이 쏟아부어 엔진이 1초도 안 멈추게 하는 대륙 횡단용 괴물 트럭의 설계입니다.
Ⅳ. 실무 적용 및 기술사적 판단 (Strategy & Decision)
실무 클라우드 엔지니어나 AI 인프라 아키텍트가 무거운 딥러닝 모델을 배포할 때, 이 PNM(HBM의 대역폭 한계)의 병목을 계산하지 않고 GPU 메모리에 모델을 우겨넣으면 서버는 즉시 다운(OOM)된다.
실무 하드웨어 한계 돌파 (HBM 튜닝) 시나리오
-
LLM 추론 시 KV Cache(메모리 바운드) 병목 파훼
- 상황: 엔비디아 A100(PNM 구조, HBM 탑재) 서버에서 챗봇(LLM) 토큰 생성 속도가 갈수록 뚝뚝 끊기며 느려짐. GPU 연산률(Compute)은 20%밖에 안 됨.
- 의사결정: 트랜스포머 모델이 이전 대화 내용을 기억하려고 VRAM에 끝없이 쌓아두는 'KV Cache'가 HBM 메모리의 대역폭(Bandwidth)과 용량을 한계까지 찢어버린(Memory Bound) 상황이다. 연산 최적화를 버리고, FlashAttention이나 PagedAttention 같은 메모리 스와핑(Memory-aware) 알고리즘을 도입해 PNM 하드웨어의 HBM 칩이 스래싱(Thrashing) 나지 않도록 소프트웨어를 튜닝한다.
- 이유: HBM이 아무리 칩(GPU) 옆에 바짝 붙어있어(Near) 빠르다 해도, 용량 자체는 40GB~80GB로 생각보다 매우 비좁다. 이 비좁은 고급 메모리에 쓸데없는 데이터를 올렸다가 내렸다 하며 핑퐁을 치면 아무리 굵은 파이프라인도 터진다. PNM 환경에서는 "연산을 줄이는 것"보다 "비싼 HBM 메모리를 안 건드리는 것(재사용)"이 성능의 모든 것이다.
-
클라우드 인스턴스 선정: GDDR6(Far) vs HBM(Near) GPU 판단
- 상황: 회사에서 AI 이미지 렌더링 서버를 클라우드에서 대여하려 함. HBM이 달린 A100 인스턴스(비쌈)와 일반 GDDR6 메모리가 달린 L40 / RTX 인스턴스(쌈) 중 고민.
- 의사결정: 워크로드가 CNN 기반의 이미지 렌더링(Compute Bound)이라면 싼 일반 인스턴스를 빌린다. 하지만 텍스트를 끝없이 뱉어내는 초거대 언어 모델(Memory Bound)이라면 무조건 돈을 10배 주더라도 HBM이 GPU 다이 옆에 바짝 붙은(PNM) A100/H100 인스턴스를 써야만 숨통이 트인다.
- 이유: 일반 그래픽 카드(GDDR6)는 칩과 칩 사이의 거리가 몇 cm 떨어져 있는 전통 구조다. 행렬 곱셈 연산력(TFLOPS) 자체는 A100과 비슷할지 몰라도, 데이터를 퍼오는 대역폭에서 HBM(초당 3TB)과 GDDR(초당 500GB)은 6배의 넘사벽 차이가 난다. LLM처럼 밥(데이터)을 미친 듯이 먹어치우는 괴물에게 일반 메모리(Far-Memory)를 물려주면 GPU 연산기는 하루 종일 굶어 죽는다(Starvation).
[실무 대형 AI 서버 병목 프로파일링: HBM(PNM) 한계 진단]
[현상] H100 8장을 묶어 AI를 돌리는데 MFU(Model Flops Utilization, 연산기 가동률)가 40% 미만이다.
├─ GPU VRAM(HBM) 메모리 대역폭 점유율이 90%를 넘는가? (Memory Bound)
│ ├─ Yes ──> 칩 옆에 바짝 붙은 HBM 파이프가 터져나가고 있다!
│ │ => 해결: Batch Size를 왕창 키워서, 메모리에서 데이터 한 번 가져올 때
│ │ 연산을 100배 더 많이 하도록(연산 밀도 극대화) 코드를 리팩토링하라.
│ │
│ └─ No ───> 대역폭도 널널한데 연산기가 논다?
│ => 텐서 코어 사이즈(8의 배수) 패딩을 안 맞춰서 파이프라인이 깨졌거나,
│ 호스트(CPU)에서 GPU로 데이터 넘기는 PCIe 버스 병목이다.
운영 및 아키텍처 도입 체크리스트
- 초거대 AI 모델(100B 이상)을 단일 서버 1대에 쑤셔 넣기 위해 텐서 병렬화(Tensor Parallelism)를 짤 때, HBM(내부 PNM) 메모리 용량이 모자라 GPU 8장으로 쪼갰다면, GPU 간 통신(NVLink) 트래픽이 HBM 대역폭을 갉아먹지 않도록 노드 간 통신 오버헤드를 정확히 계산(All-reduce Profiling)했는가?
안티패턴: "GPU 캐시(HBM) 엄청 빠르니까 대충 리스트(List) 포인터 널브러뜨려 놓고 돌려야지!" 하는 짓. HBM이 아무리 칩 옆에 바짝(Near) 붙어서 굵은 선을 뚫어놨어도, 프로그래머가 듬성듬성(Stride) 메모리를 요구하면 파이프 1,000개 중 1개만 물이 찔끔 나오고 999개는 공기만 들이마시는 대역폭 참사(Uncoalesced Access)가 발생해 수천만 원짜리 칩이 깡통이 된다.
📢 섹션 요약 비유: PNM(HBM 탑재)은 요리사(GPU) 입에 아예 1,000개의 초대형 뷔페 파이프(HBM)를 물려놓은 엽기적인 식당입니다. 음식을 갈아 만든 셰이크(연속된 데이터)를 쏴주면 1초에 3톤도 삼키지만, 파이프에 사탕(불연속 데이터) 한 알씩 찔끔찔끔 굴려보내면 1,000개의 파이프를 만든 돈이 다 허공으로 날아가는 최악의 구조입니다.
Ⅴ. 기대효과 및 결론 (Future & Standard)
PNM(Processing-Near-Memory) 아키텍처는 반도체 미세화 공정이 한계에 부딪힌 무어의 법칙의 종말 시대에, 2D 칩들을 3D 레고 블록처럼 쌓아 올려 생명을 연장시킨 패키징 공학의 위대한 구원이다.
| 척도 | 과거 메인보드 기반(Far) 연결 시대 | 2.5D/3D 인터포저 기반 PNM 융합 시대 | 현대 AI/반도체 산업 폭발 효과 |
|---|---|---|---|
| 메모리 대역폭 한계 | PCIe 핀 개수 한계로 수십 GB/s 정체 | 인터포저 위 수만 가닥 핀으로 수 TB/s 폭발 | 메모리 랙(Wall) 파괴. 챗GPT 실시간 추론 지연 해결 |
| 반도체 기업 생태계 | 인텔 중심의 CPU 설계(Architecture) 독재 | 패키징(TSMC CoWoS)과 HBM(SK하이닉스)의 연합 독재 | 파운드리와 메모리 회사가 AI 가속기 생태계의 절대 갑(甲)으로 등극 |
미래 전망: GPU와 HBM을 실리콘 판 위에 바짝 붙여놓은 현재의 PNM 기술은, 머지않아 GPU 로직 칩 '바로 위(On)'에 SRAM과 DRAM을 고층 아파트처럼 수직으로 통째로 올려버리는 진정한 3D 스태킹(3D Stacking / Processing-on-Memory) 시대로 융합 진화할 것이다. 평면의 거리가 완전히 '제로(0)'로 소멸하고 수직 엘리베이터(TSV)로만 데이터가 움직이는 이 시대가 오면, 지금의 메모리 대역폭 한계조차 코웃음 칠 페타바이트(PB/s)급의 속도와 전력 소모 0에 가까운 궁극의 단일 칩 AI 두뇌가 탄생할 것이다.
📢 섹션 요약 비유: 옛날엔 서울 공장(CPU)과 부산 창고(메모리)가 트럭으로 일했습니다(Far Memory). 지금은 아예 공장 바로 옆 1m 거리에 초대형 물류센터(HBM)를 짓고 컨베이어 벨트를 뚫었죠(PNM). 그리고 미래에는 아예 공장 건물 옥상과 지하에 창고를 만들어, 걸어갈 필요도 없이 위아래 엘리베이터로만 물건을 쏘아버리는 궁극의 3D 타워(3D Stacking)가 반도체의 최종 진화 형태가 될 것입니다.
📌 관련 개념 맵 (Knowledge Graph)
- 메모리 병목 (Memory Wall) | 연산 칩(CPU/GPU)의 스피드는 빛의 속도인데, 메모리(DRAM)에서 데이터를 퍼오는 선이 너무 좁고 느려서 칩이 하루 종일 굶게 되는 현대 컴퓨팅의 가장 치명적인 질병
- PIM (Processing-In-Memory) | PNM과 비교되는 궁극의 형제로, 칩을 옆에 붙이는 걸 넘어 아예 메모리 칩 뚜껑을 열고 그 속에 연산기를 심어버리는 극강의 융합 기술
- HBM (High Bandwidth Memory) | DDR 램을 아파트처럼 수직으로 여러 층 쌓은 뒤 구멍(TSV)을 뚫어 묶은 괴물 메모리. PNM 아키텍처에서 연산 칩 옆에 바짝 붙어 초거대 대역폭을 쏟아붓는 핵심 부품
- 실리콘 인터포저 (Silicon Interposer) | 거대한 메인보드 대신, 아주 작은 연산 칩과 메모리 칩을 한 번에 올려놓고 칩들 사이에 수만 개의 나노미터급 전선을 연결해 주는 2.5D 마법의 판때기(패키징 기술)
- 칩렛 (Chiplet) 아키텍처 | 칩 하나를 크게 만들면 다 깨지고 불량이 나니, GPU 조각, CPU 조각, 메모리 조각을 작고 싸게 만든 뒤 PNM 방식으로 인터포저 위에서 하나로 본드 칠(융합)하는 현대 반도체의 생존 전략
👶 어린이를 위한 3줄 비유 설명
- 개념: PNM은 요리사(GPU)가 볶음밥을 할 때 멀리 있는 대형 마트(메모리)까지 차를 타고 다녀오는 게 너무 지쳐서, 아예 요리사 바로 옆(Near) 1미터 거리에 엄청나게 큰 창고(HBM)를 딱 붙여서 지어준 거예요.
- 원리: 요리사 칩과 창고 칩은 겉보기엔 두 개지만, '인터포저'라는 마법의 카펫 위에 딱 붙어서 수만 개의 투명한 파이프로 연결되어 있어요. 그래서 문만 열면 창고에 있는 100만 개의 식재료가 1초 만에 요리사 앞으로 쏟아져 들어오죠.
- 효과: 창고를 왔다 갔다 하느라 버리는 시간과 기름값(전기)이 아예 사라져 버려서, 세상에서 제일 똑똑하고 밥(데이터)을 많이 먹는 인공지능 로봇도 지치지 않고 쌩쌩 돌아갈 수 있답니다.