핵심 인사이트 (3줄 요약)

  1. 본질: PNM (Processing-Near-Memory)은 연산 장치와 메모리를 같은 칩 안에 억지로 합치지 않고, 패키지 수준에서 극단적으로 가깝게 붙여 데이터 이동 비용을 줄이는 메모리 중심 아키텍처다.
  2. 가치: 핵심 이득은 단순 저장 용량 증가가 아니라, HBM (High Bandwidth Memory)·실리콘 인터포저·칩렛 패키징을 이용해 대역폭을 크게 넓히고 지연과 전력 소모를 함께 줄이는 데 있다.
  3. 판단 포인트: PNM은 PIM (Processing-In-Memory)보다 구현이 현실적이지만, 여전히 메모리 용량·열 설계·패키징 비용·워크로드의 메모리 바운드 여부를 함께 따져야 효과가 난다.

Ⅰ. 개요 및 필요성

PNM (Processing-Near-Memory)은 메모리 바로 "안"이 아니라 메모리 바로 "옆"에서 연산이 이뤄지도록 칩 배치와 배선 구조를 재설계한 방식이다. 전통적인 시스템에서는 CPU (Central Processing Unit)나 GPU (Graphics Processing Unit)가 멀리 떨어진 DRAM (Dynamic Random Access Memory)에서 데이터를 반복적으로 가져오며, 이 왕복 자체가 성능과 전력의 병목이 된다. 특히 거대 인공지능 모델, 그래프 분석, 추천 시스템처럼 계산보다 데이터 이동이 더 비싼 워크로드에서는 연산기가 놀고 있어도 메모리 대기 시간이 전체 처리량을 깎아 먹는다.

이 배경에서 나온 이상적인 해법은 PIM처럼 메모리 내부에 연산기를 넣는 것이다. 하지만 메모리 공정과 로직 공정은 최적화 목표가 다르고, 열 분산 방식도 달라 한 칩에 완전 통합할수록 수율과 설계 복잡도가 급격히 나빠진다. 그래서 산업계는 "완전 통합" 대신 "초근접 배치"를 선택했고, 그 결과가 PNM이다.

PNM의 필요성은 단순히 더 빠른 메모리를 붙이는 수준이 아니다. 긴 보드 배선 대신 패키지 내부의 짧고 넓은 연결을 사용하면, 같은 시간에 더 많은 비트를 옮길 수 있고 신호 무결성도 높아진다. 즉 PNM은 연산 구조를 바꾸기 전에 데이터 이동 거리부터 줄여 메모리 장벽 (Memory Wall)을 완화하는 현실적 해법이다.

  • 📢 섹션 요약 비유: 먼 창고에서 트럭으로 재료를 실어 나르던 식당이, 창고를 주방 바로 옆 건물로 옮긴 셈이다. 요리법은 크게 안 바뀌어도 왕복 시간이 줄어 음식이 훨씬 빨리 나온다.

Ⅱ. 아키텍처 및 핵심 원리

PNM의 핵심은 연산 코어와 메모리 사이의 물리적 거리를 줄이는 대신, 연결 폭을 대폭 늘리는 데 있다. 대표 구현은 GPU 다이와 HBM 스택을 실리콘 인터포저 위에 함께 올리는 2.5D 패키징이다. 이때 HBM은 TSV (Through-Silicon Via)로 수직 적층된 메모리이고, 인터포저는 그 스택과 연산 다이를 매우 짧은 거리에서 수천~수만 개 배선으로 연결한다.

아래 그림은 전통적 원거리 메모리와 PNM 패키지의 차이를 보여준다.

┌─────────────────────────── 전통 구조 vs PNM 구조 ───────────────────────────┐
│                                                                           │
│  [CPU/GPU] =================== 보드 배선 =================== [DDR/외부 DRAM] │
│      │                     길고 좁은 연결                      │             │
│      └──── 높은 지연 · 제한된 핀 수 · 큰 I/O 전력 ─────────────┘             │
│                                                                           │
│  [HBM] [HBM] [GPU/AI Core] [HBM] [HBM]                                   │
│    │      │         │         │      │                                    │
│    └──────┴─────────┴─────────┴──────┘                                    │
│         실리콘 인터포저 위 초근접 연결                                    │
│         짧고 넓은 배선 · 높은 대역폭 · 낮은 전송 에너지                   │
└───────────────────────────────────────────────────────────────────────────┘

이 구조에서 중요한 것은 "메모리 안에서 계산한다"가 아니라 "메모리로 가는 길을 패키지 안으로 끌어들인다"는 점이다. 따라서 PNM은 범용 GPU나 가속기 코어의 유연성을 유지하면서도, 데이터 공급 속도를 수백 GB/s에서 수 TB/s급으로 끌어올릴 수 있다. 최신 AI 가속기가 HBM3/HBM3E를 채택하는 이유도 여기에 있다.

구성 요소역할설계상 의미
HBM (High Bandwidth Memory)짧고 넓은 메모리 인터페이스 제공대역폭 확대, 패키지 집적도 향상
실리콘 인터포저 (Silicon Interposer)연산 다이와 메모리 스택 연결짧은 배선으로 신호 품질과 핀 수 확보
칩렛 (Chiplet)연산 블록을 여러 다이로 분리수율 개선, 대형 가속기 설계 용이
패키지 전력/열 설계좁은 공간의 전력 밀도 관리성능 유지와 냉각 가능성 좌우

결국 PNM의 핵심 원리는 데이터 이동 거리 감소 + 병렬 배선 확대 + 패키지 통합의 조합이다. 연산기 성능이 충분해도 메모리가 따라주지 못하면 전체 시스템은 느려지는데, PNM은 바로 이 병목 지점을 패키지 차원에서 겨냥한다.

  • 📢 섹션 요약 비유: PNM은 주방장을 냉장고 안에 넣는 대신, 초대형 냉장고를 조리대 바로 옆에 붙이고 서랍을 넓게 여러 개 뚫어 놓는 방식이다. 재료를 한 번에 많이 꺼낼 수 있어 손이 덜 멈춘다.

Ⅲ. 비교 및 연결

PNM을 제대로 이해하려면 Far Memory, PIM, 그리고 CIM (Computing-In-Memory)과의 경계를 같이 봐야 한다. Far Memory는 연산기와 메모리가 보드 레벨로 떨어져 있어 확장성은 좋지만, 대역폭과 전송 에너지에서 불리하다. PIM은 이동 비용을 더 과감히 줄이지만 제조 난이도와 프로그래밍 제약이 커진다. CIM은 저장 소자의 물리 특성 자체로 연산을 수행하는 더 급진적인 방향이지만, 정확도·범용성·상용화 측면에서 아직 제한이 크다.

구분PNMPIMCIM
연산 위치메모리 패키지 근처메모리 내부 로직메모리 셀 자체
강점현실적 구현, 높은 대역폭, 범용 가속기와 궁합 좋음이동 최소화, 특정 연산 효율 높음극단적 에너지 절감 잠재력
약점패키징 비용, HBM 용량·열 한계공정 복잡도, 수율, 생태계 제약정확도, 범용성, 상용화 난도
대표 적용HBM 기반 AI GPU, HPC 가속기일부 특수 메모리 가속기연구·실험적 뉴로모픽 방향

이 비교에서 보이는 핵심은 PNM이 "가장 급진적"이라서 성공한 것이 아니라, "현실적으로 큰 효과를 낼 수 있는 절충안"이라서 널리 채택되었다는 사실이다. 그래서 현대 AI 하드웨어에서는 PNM이 메모리 중심 컴퓨팅의 주류가 되었고, NVLink (NVIDIA Link), CXL (Compute Express Link), 메모리 풀링 같은 기술과도 자연스럽게 연결된다. 칩 내부에서는 HBM으로 대역폭을 확보하고, 노드 밖에서는 고속 인터커넥트로 여러 가속기를 묶는 식이다.

또한 소프트웨어 관점에서는 연산량보다 메모리 접근량이 큰지, 재사용 가능한 데이터가 많은지에 따라 PNM 효과가 달라진다. 즉 PNM은 하드웨어 개념이지만, 실제 성능은 모델 구조·배치 크기·메모리 접근 패턴과 강하게 연결된다.

  • 📢 섹션 요약 비유: PNM은 창고를 바로 옆에 둔 대형 식당이고, PIM은 창고 안에 조리 로봇을 넣은 식당이다. CIM은 아예 선반 자체가 재료를 손질하는 미래형 창고에 가깝다.

Ⅳ. 실무 적용 및 기술사 판단

실무에서 PNM은 "최신 기술"이라서가 아니라, 메모리 대역폭이 실제 병목일 때 선택해야 한다. 예를 들어 거대 언어 모델 추론처럼 파라미터와 KV Cache를 지속적으로 읽어야 하는 작업은 메모리 바운드 성격이 강해 HBM 기반 PNM 효과가 크다. 반대로 작은 텐서를 반복 계산하는 작업이나 캐시 재사용이 높은 워크로드는 연산기 자체가 더 중요할 수 있어, 비싼 PNM 패키지를 써도 체감 이득이 제한될 수 있다.

실무 판단에서 자주 보는 흐름은 아래와 같다.

┌──────────────────── PNM 도입 판단 흐름 ────────────────────┐
│ 1. GPU/가속기 사용률이 낮은가?                              │
│        │                                                    │
│        ▼                                                    │
│ 2. 프로파일링 결과가 Memory Bound인가?                      │
│    ├─ 아니오 ─▶ 연산 최적화, 커널 튜닝, 병렬화 재설계 우선  │
│    └─ 예     ─▶ HBM 대역폭, 용량, 접근 패턴 점검            │
│                         │                                   │
│                         ▼                                   │
│ 3. 모델이 HBM 용량 안에 안정적으로 올라가는가?              │
│    ├─ 아니오 ─▶ 모델 분할, 양자화, 오프로딩, CXL 검토       │
│    └─ 예     ─▶ PNM 가속기 채택 효과 큼                     │
└─────────────────────────────────────────────────────────────┘

체크리스트

  1. 성능 병목이 실제로 메모리 대역폭인지, 단순 커널 비효율인지 구분했는가?
  2. HBM 용량 부족으로 빈번한 오프로딩이나 페이지 이동이 발생하지 않는가?
  3. 패키지 전력 밀도와 냉각 한계 때문에 지속 성능이 떨어지지 않는가?
  4. 모델 병렬화 시 GPU 간 통신이 내부 메모리 이득을 상쇄하지 않는가?

안티패턴

  • "HBM이 있으니 무조건 빠르다"고 보고 비연속 접근 패턴을 방치하는 설계
  • 모델 크기만 보고 가속기를 선택하고, 실제 대역폭 요구량과 열 설계를 검증하지 않는 운영
  • PNM 패키지의 높은 비용을 감수하면서도 소프트웨어가 데이터를 재사용하지 못해 이득을 잃는 경우

기술사 관점에서는 PNM을 "메모리 옆 연산"이라는 구호로 외우기보다, 어떤 워크로드에서 데이터 이동 비용이 연산 비용을 넘어서는지를 설명할 수 있어야 한다. 채택 여부는 구조가 멋진가가 아니라, 대역폭 병목·용량 한계·패키지 비용·발열을 함께 감당할 수 있는가로 판단한다.

  • 📢 섹션 요약 비유: 냉장고를 주방 옆에 붙여도, 요리사가 재료를 한 알씩 엉뚱한 서랍에서 찾으면 빨라지지 않는다. 주방 동선까지 정리돼야 옆에 둔 이점이 살아난다.

Ⅴ. 기대효과 및 결론

PNM이 주는 가장 큰 효과는 연산기의 유휴 시간을 줄이고, 데이터 이동에 쓰이는 전력을 낮추며, 대규모 모델 처리의 실효 성능을 끌어올리는 데 있다. 그래서 AI 가속기, 고성능 컴퓨팅, 대규모 분석 장비에서 PNM은 이미 패키징 전략의 표준으로 자리 잡고 있다. 특히 칩렛과 HBM의 결합은 단일 거대 다이를 고집하던 방식보다 수율과 확장성에서도 유리하다.

다만 PNM이 메모리 문제를 완전히 끝내는 것은 아니다. HBM은 빠르지만 비싸고, 용량당 비용이 높으며, 패키지 설계와 냉각 제약도 크다. 또한 시스템 전체로 보면 GPU 간 통신, 호스트-가속기 간 데이터 이동, 소프트웨어 스케줄링 같은 다른 병목이 다시 나타난다.

앞으로의 방향은 세 가지로 요약할 수 있다. 첫째, 더 높은 세대의 HBM과 패키징 기술로 대역폭을 계속 확장한다. 둘째, 칩렛·3D 적층을 통해 메모리와 연산 블록의 거리를 더 줄인다. 셋째, 일부 연산은 PIM이나 특수 메모리 쪽으로 더 내려 보내는 하이브리드 구조가 늘어날 가능성이 크다. 따라서 PNM은 "완전한 종착점"이 아니라, 범용성과 실효성을 동시에 잡은 현재형 메모리 중심 아키텍처로 기억하는 것이 정확하다.

  • 📢 섹션 요약 비유: PNM은 창고를 주방 옆으로 옮겨 식당 운영을 크게 개선한 단계다. 하지만 미래에는 일부 손질 작업이 창고 안에서 끝나고, 더 나아가 선반 자체가 똑똑해지는 방향으로 발전할 수 있다.

📌 관련 개념 맵

개념연결 포인트
메모리 장벽 (Memory Wall)PNM이 해결하려는 직접 문제로, 연산 속도보다 데이터 이동이 느린 현상
HBM (High Bandwidth Memory)PNM 구현의 대표 메모리 기술로, 짧고 넓은 인터페이스를 제공
실리콘 인터포저 (Silicon Interposer)GPU/가속기와 HBM을 초근접 연결하는 패키지 기반
PIM (Processing-In-Memory)PNM보다 더 깊은 통합 방식으로, 효과는 크지만 구현 난도가 높음
칩렛 (Chiplet) 아키텍처PNM 패키지 안에서 연산 다이를 분할·조합해 수율과 확장성을 높임
NVLink / CXL패키지 밖에서 여러 가속기·메모리 자원을 연결하는 확장 기술

📈 관련 키워드 및 발전 흐름도

폰 노이만 구조
    │
    ▼
메모리 장벽 (Memory Wall)
    │
    ▼
HBM (High Bandwidth Memory) + 실리콘 인터포저
    │
    ▼
PNM (Processing-Near-Memory)
    │
    ├─▶ 칩렛 (Chiplet) 기반 AI 가속기
    │
    ├─▶ NVLink · CXL 기반 대규모 메모리 확장
    │
    └─▶ PIM (Processing-In-Memory) · 3D 적층으로 진화

이 흐름은 "원거리 메모리 병목 인식 → 패키지 수준 근접화 → 더 깊은 메모리 중심 통합"으로 이어지는 발전 방향을 보여준다.

👶 어린이를 위한 3줄 비유 설명

  1. PNM은 요리사가 멀리 있는 창고까지 뛰어가지 않게, 재료 창고를 주방 바로 옆에 붙여 놓은 거예요.
  2. 그래서 요리사는 재료를 훨씬 빨리 많이 꺼내 와서 쉬지 않고 요리할 수 있어요.
  3. 하지만 창고가 아무리 가까워도 너무 덥거나 너무 비싸면, 어떤 식당에서는 다른 방법이 더 나을 수도 있어요.