PIM (Processing-In-Memory)

핵심 인사이트 (3줄 요약)

본질: CPU나 GPU가 연산을 위해 메모리(DRAM)에서 데이터를 쉴 새 없이 실어 나르며 발생하는 '폰 노이만 병목(Memory Wall)'을 근원적으로 타파하기 위해, 아예 메모리 반도체 칩(Cell) '내부'에 아주 작은 연산기(ALU) 회로를 직접 심어버린 차세대 융합 반도체 아키텍처다.

가치: 거대하고 느린 외부 시스템 버스(PCIe 등)를 타고 데이터가 왕복하는 것을 막고, 데이터가 보관된 방(메모리 뱅크) 바로 옆에서 덧셈/곱셈을 마친 뒤 그 가벼운 결과값만 CPU로 올려보냄으로써, 시스템 전체의 대역폭 한계와 전력 소모(발열)를 1/10 수준으로 압살한다.

융합: 메모리(저장)와 시스템 반도체(연산)라는 지난 70년간의 철옹성 같은 경계선을 허물었으며, 최근 삼성전자(HBM-PIM)와 SK하이닉스 등 메모리 벤더들이 단순히 창고지기를 넘어 AI 가속기 생태계의 주인공으로 부상하게 만든 하드웨어 대통합의 상징이다.

Ⅰ. 개요 및 필요성 (Context & Necessity)

PIM (Processing-In-Memory)은 현대 컴퓨터 공학이 부딪힌 가장 끔찍하고 절망적인 물리학의 한계, 즉 **"메모리의 벽(Memory Wall)"**에 대한 인류의 마지막 반격이다.

컴퓨터의 뇌(CPU, GPU)는 지난 20년간 수만 개의 코어를 박아 넣으며 빛의 속도로 빨라졌다. 그런데 이 똑똑한 뇌가 무언가 계산(딥러닝, 빅데이터)을 하려면 반드시 창고(DRAM 메모리)에서 데이터를 가져와야 한다. 문제는 이 창고 문이 너무 좁고, 창고와 뇌를 잇는 도로(Bus)의 속도가 뇌의 발전 속도를 전혀 따라가지 못했다는 점이다.

결국 천재 GPU 코어 1만 개가 데이터를 받지 못해 100나노초 동안 멍하니 굶어 죽는 사태가 벌어졌다(Starvation). 심지어 데이터를 칩 바깥으로 옮기는 전선 이동 과정에서 쓰는 전기 에너지가, 칩 내부에서 곱셈을 할 때 쓰는 에너지의 무려 수백 배에 달하며 배터리와 에어컨(냉각) 비용을 깡그리 태워버렸다.

반도체 공학자들은 분노하며 발상을 완전히 뒤집었다. "야! 무거운 데이터 1,000만 개를 굳이 도로를 태워서 CPU 뇌까지 가져오지 마라!! 차라리 엄청 쪼그맣고 멍청한 덧셈기(ALU) 1,000만 개를 만들어서 창고(메모리 칩) 안으로 이주시켜버려! 창고 안에서 지들끼리 다 계산하게 한 다음, 최종 정답 1개만 도로를 태워서 뇌로 보내면 전기세도 100배 아끼고 랙(Lag)도 100배 줄일 수 있잖아!"

이것이 바로 연산(Processing)을 메모리(Memory) 안(In)으로 끌고 들어온 폰 노이만 아키텍처 파괴의 상징, PIM의 위대한 탄생이다.

📢 섹션 요약 비유: 기존 컴퓨터는 도서관(메모리)에서 수만 권의 책을 수레(버스)에 싣고 집(CPU)으로 낑낑대며 가져와서 한 줄을 읽고 끄적이는 미친 짓(에너지 낭비)을 했습니다. PIM 혁명은 아예 내 펜과 공책(연산기)을 들고 도서관 책꽂이 바로 앞에 쪼그려 앉아 계산을 다 끝낸 뒤, 얇은 요약본 1장(결과값)만 가볍게 들고 집으로 돌아오는 완벽한 동선 최적화입니다.

Ⅱ. 아키텍처 및 핵심 원리 (Deep Dive)

PIM은 단순한 아이디어 같지만, 칩을 구울 때 "데이터를 꽉꽉 우겨넣는 기술(메모리 공정)"과 "빠르게 스위칭하는 기술(로직 공정)"이라는 물과 기름 같은 두 공정을 하나의 실리콘 웨이퍼에 융합해야 하는 극악의 난이도를 가진다.

PIM 핵심 아키텍처	물리적 구현 방식과 메커니즘	폰 노이만 병목 돌파 효과	비유
In-Memory ALU	DRAM 칩 내부의 뱅크(Bank) 경계선이나 센스 앰프(Sense Amp) 바로 옆에 소형 연산 회로(MAC)를 레이저로 지져서 용접함	CPU로 나가는 거대한 외부 I/O 패드 병목을 0(Zero)으로 만들고 즉각 연산	책장 바로 밑에 놔둔 미니 계산기
명령어 통제 (Command)	CPU는 메모리 컨트롤러를 통해 일반적인 `Read/Write` 대신 `Execute_PIM_MAC` 같은 특수 명령어를 DRAM 핀을 통해 쏨	똑똑한 CPU가 지휘(Orchestration)하고 PIM이 멍청한 반복 막노동을 완수함	도서관 사서에게 "그 줄 다 더해놔!"라고 카톡 지시
Massive Internal Bandwidth	DRAM 내부의 수천 개 뱅크가 각자의 ALU를 동시에 돌려버림	외부 핀(Pin) 개수에 제한받던 대역폭의 굴레를 찢고 내부에서 기하급수적 병렬 폭발	수만 명의 직원이 동시에 자기 서랍을 뒤지며 계산
Energy Efficiency	데이터가 1mm 밖으로 나가지 않고 나노미터 단위의 셀(Cell) 사이만 이동	외부 구리 배선 충/방전(Capacitance)에 낭비되던 열과 전력을 10~50배 이상 아낌	택배비 0원, 집 앞 1초 거리 직거래

PIM이 진정한 악마적 성능을 내는 원리는 **'데이터 덩어리의 극단적 이동 축소'**에 있다.

[전통적 AI 행렬 연산 vs PIM 내부 연산의 데이터 이동량 프랙탈]

* 미션: 메모리에 있는 데이터 배열 A(1GB)와 B(1GB)를 더해서 총합 1개(8 Byte)를 구해라.

(1) 폰 노이만 전통 방식 (비극)
CPU가 A 데이터 1GB와 B 데이터 1GB를 느린 버스(PCIe/DDR)를 통해 꾸역꾸역 집으로 퍼옴.
=> 데이터 이동량: 무려 **2 기가바이트 (2,000,000,000 바이트)** 버스 낭비 + 엄청난 발열!

(2) PIM 융합 방식 (기적)
CPU가 메모리 칩한테 명령어만 띡 던짐. "니들 안에서 다 더해라."
메모리 칩 내부의 작은 PIM 회로들이 창고 안에서 2GB를 서로 지지고 볶고 더해서 정답 100을 만들어냄.
메모리는 최종 정답 '100' 딱 한 글자만 CPU로 살짝 보냄.
=> 외부 데이터 이동량: 고작 **8 바이트 (8 Byte)**. 대역폭 낭비 100% 증발!

이 압도적인 차이는 챗GPT 같은 거대 언어 모델(LLM) 구동 시 수백억 개의 파라미터를 칩 밖으로 꺼낼 필요 없이, 메모리 자체를 거대한 '지능형 바둑판'으로 만들어버리는 반도체 역사의 특이점이다.

📢 섹션 요약 비유: 매일 아침 광산(메모리)에서 돌덩이 100톤을 트럭(버스)에 싣고 서울 제련소(CPU)까지 가져와서 100g의 금을 뽑아내는 건 운송비(전기세)가 더 듭니다. PIM은 아예 광산 깊은 굴속에 소형 제련 기계(ALU)를 설치해 버린 겁니다. 돌덩이는 광산 안에서 다 부수고, 딱 100g짜리 순금 덩어리 하나만 주머니에 쏙 넣고 퇴근하니 도로가 막힐 일이 절대 없습니다.

Ⅲ. 융합 비교 및 다각도 분석 (Comparison & Synergy)

PIM은 연산기를 메모리에 얼마나 깊게 쑤셔 넣느냐에 따라 PNM(Processing-Near-Memory), PIM, CIM이라는 3단계의 융합 진화 과정을 거친다.

메모리 중심 컴퓨팅(Memory-Centric) 3단계 아키텍처 진화

진화 단계	아키텍처 명칭	하드웨어 융합의 깊이 (거리)	상용화 난이도 및 대표 제품
1단계 (타협)	PNM (Processing-Near-Memory)	메모리 칩 바깥, 하지만 2.5D 실리콘 인터포저 기판 위 '바로 옆(Near)'에 GPU와 HBM을 바짝 붙여 패키징함.	현재 최고 호황기 기술. (NVIDIA H100, AMD MI300)
2단계 (본질)	PIM (Processing-In-Memory)	아예 램(DRAM) 칩 다이(Die) 뚜껑을 열고 그 '내부 뱅크(In)' 틈새에 논리 회로를 레이저로 심어버림.	찐 기술. 공정이 달라서 굽기 어려우나 최근 상용화 성공 (삼성 HBM-PIM, GDDR6-PIM)
3단계 (궁극)	CIM (Computing-In-Memory)	연산기 따로 메모리 셀 따로가 아니라, '메모리 저장소(SRAM/RRAM 셀) 그 자체의 아날로그 전압'이 덧셈 곱셈 연산을 해버림.	공상 과학의 영역. 아날로그 소자를 이용한 완전한 뉴로모픽(Neuromorphic) 칩의 뇌세포 구현. 미래 기술.

타 과목 관점의 융합 시너지

인공지능 소프트웨어 (메모리 바운드 타파): 딥러닝에서 CNN(이미지) 모델은 연산을 미친 듯이 많이 하는 연산 병목(Compute Bound)이라 GPU가 최고다. 반면 RNN이나 트랜스포머(LLM 챗GPT) 같은 언어 모델은 연산은 적은데 수천억 개의 뇌세포(가중치) 파라미터를 메모리에서 한 번씩 다 퍼와야만 다음 글자를 예측할 수 있는 극악의 메모리 바운드(Memory Bound) 혐오 워크로드다. PIM은 이 언어 모델의 가중치를 밖으로 꺼내지 않고 메모리 뱃속에서 처리해 주므로, 향후 생성형 AI(Generative AI)의 추론 속도를 10배 이상 펌핑시킬 유일한 구세주로 소프트웨어와 완벽히 융합된다.
운영체제 및 컴파일러 (PIM 추상화 딜레마): 엄청난 칩이 나왔지만 소프트웨어 프로그래머들에겐 지옥이 열렸다. 내가 짠 C++ 코드 중 "어떤 연산은 CPU로 보내고, 어떤 연산은 메모리(PIM) 안으로 던질지(Off-loading)"를 결정해야 하기 때문이다. 다행히 최근 OS 커널과 컴파일러가 융합되어, 개발자가 그냥 파이토치(PyTorch)로 평범하게 코드를 짜도 밑바닥 드라이버가 알아서 "아 이건 메모리에 다이렉트로 명령 때리는 게 빠르겠네"라며 PIM 전용 명령어로 번역해 주는 소프트웨어 스택 추상화가 눈부시게 발전하고 있다.

[폰 노이만 병목을 부수는 삼성 HBM-PIM의 융합 아키텍처 단면도]

[ 일반 HBM 메모리 (고대역폭 메모리) ]
층층이 쌓인 DRAM 4개 층 ──> (TSV 수직 구멍) ──> 맨 밑바닥 버퍼를 통해 GPU로 일제히 데이터 송출!
=> 문제: 길이 넓어져도 결국 칩 바깥(GPU)으로 끄집어내는 전력 소모 발생.

[ HBM-PIM (지능형 메모리) ]
층층이 쌓인 DRAM 4개 층 ──> [ 각 층 사이사이에 초소형 PCU(Programmable Computing Unit) MAC 텐서 엔진을 끼워 넣음! ]
=> 마법: GPU가 "야, 가져오지 말고 너네 층에서 행렬 곱해버려!" 명령.
   4개 층에 삽입된 PIM 엔진들이 HBM 내부의 미친 대역폭(1.2TB/s)을 
   단 한 방울도 밖으로 새어 나가지 않게 칩 내부에서 자체 흡수하며 
   광속 연산 후, 정답 요약본 1줄만 TSV로 툭 떨어뜨려 GPU로 전송. (발열 급감!)

📢 섹션 요약 비유: PNM(바로 옆)은 요리사(GPU) 옆에 커다란 냉장고(HBM)를 바짝 붙여둬서 걷는 시간을 줄인 겁니다. 하지만 PIM(내부)은 아예 냉장고 안에 초소형 로봇 팔(ALU)을 달아둔 겁니다. 요리사가 "당근 다져놔!"라고 소리치면, 냉장고 문을 열고 꺼낼 필요도 없이 냉장고 안에서 다져진 당근이 뿅 하고 튀어나오는 미친 냉장고의 혁명입니다.

Ⅳ. 실무 적용 및 기술사적 판단 (Strategy & Decision)

실무 클라우드 아키텍트나 엣지 AI 하드웨어 기획자가 무작정 "PIM이 최신 기술이니까 쓰자!"라고 덤벼들면 안 된다. PIM은 특정 딥러닝 구조(Memory Bound)에서는 신(God)이지만, 무거운 연산(Compute Bound)에서는 연산기 코어가 작아 오히려 병목이 되는 극단적 편식쟁이다.

실무 하드웨어 융합 판독 및 도입 시나리오

초거대 언어 모델 (LLM) 인퍼런스 서버 도입 (PIM 최적격)
- 상황: 회사에서 Llama 3 (70B 파라미터) 모델을 고객에게 서비스하는 챗봇 추론 서버를 세팅하려 함. GPU VRAM 대역폭이 모자라 텍스트 생성 속도(Tokens per second)가 너무 느려 유저들이 이탈함.
- 의사결정: HBM-PIM (또는 PIM 기술이 적용된 차세대 AI 가속기 카드)을 탑재한 서버 클러스터로 하드웨어를 전격 교체한다.
- 이유: LLM에서 다음 단어 하나를 뱉어내려면 700억 개의 가중치(데이터)를 무조건 메모리에서 한 번씩 다 긁어와야 한다(Autoregressive 특성). 이는 전형적인 극한의 메모리 병목(Memory Bound)이다. PIM 메모리를 도입하면, 이 수백 기가바이트의 긁어오기 작업을 메모리 칩이 자기 뱃속에서 자체적으로 소화해 버리므로 텍스트 생성 속도가 일반 GPU 대비 2~3배 폭등하고 소비 전력은 반토막 나는 마법을 경험한다.
CNN 기반 자율주행 및 고해상도 영상 렌더링 팜 (PIM 부적격)
- 상황: 4K 해상도의 CCTV 영상 수백 개를 실시간으로 분석하여 ResNet(CNN) 기반으로 차량 번호판과 객체를 인식하는 시스템 아키텍처 설계.
- 의사결정: 비싸고 용량이 적은 PIM이나 특수 메모리를 피하고, 순수하게 쿠다(CUDA) 코어와 텐서 코어 깡패 연산력이 무지막지하게 집중된 전통적인 대형 범용 GPU(RTX 등)를 꽂아버린다.
- 이유: CNN(합성곱 신경망)이나 그래픽 렌더링은 메모리에서 작은 필터 데이터(가중치)를 딱 한 번 가져온 뒤, CPU/GPU 내부의 L1 캐시 위에서 수천 번 미친 듯이 핑퐁 하며 재사용(Compute-bound)하는 수학 노가다다. PIM 내부의 조그만 연산기로는 이 무거운 융단폭격 덧셈/곱셈 속도를 절대 따라갈 수 없어 PIM이 뻗어버린다. 연산이 빡셀 땐 뇌(GPU)를 키우고, 퍼올 게 많을 땐 창고(PIM)를 키우는 것이 시스템 튜닝의 기본이다.

[실무 AI 워크로드 튜닝 - PIM 도입 손익분기점(BEP) 판독 트리]

[질문 1] AI 모델의 성격이 연산 밀집형(Compute Bound)인가, 대역폭 밀집형(Memory Bound)인가?
 ├─ Compute Bound ──> (예: CNN, ResNet, 영상 렌더링, 행렬 크기가 작고 반복이 많은 경우)
 │                   => 데이터 이동보다는 압도적인 ALU 머릿수가 필요하다!
 │                   => 전통적인 폰 노이만 구조 GPU(텐서 코어 몰빵)가 100배 빠르다. PIM 쓰지 마라!
 │
 └─ Memory Bound ───> (예: RNN, Transformer 기반 LLM 언어 모델, 추천 시스템, 거대 임베딩 테이블)
                     => 뇌(연산기)가 아무리 빨라봤자 기억(데이터)을 못 퍼와서 맨날 굶고 있다!
                     => 무조건 PIM(Processing-In-Memory) 도입 타겟이다!
                     => 연산을 메모리 안으로 던져버리면(Offload) 병목이 뻥 뚫리고 속도가 폭발한다!

운영 및 아키텍처 도입 체크리스트

PIM 메모리를 사내 엣지(Edge) 기기 보드에 납땜하여 도입할 때, C/C++ 레벨에서 메모리 매핑 포인터를 조작하여 PIM의 커스텀 명령어 셋(Instruction Set)을 호출할 수 있는 로우레벨 소프트웨어 엔지니어 인력이 확보되었는가? (아직 PIM은 CUDA처럼 생태계 추상화가 완벽하지 않음)

안티패턴: 최신 PIM 기술이 적용된 비싼 반도체를 사놓고, 컴파일러 옵션 설정에 무지하여 PIM 명령어 오프로딩(Off-loading) API를 전혀 호출하지 않은 채 일반 DRAM처럼(단순 저장용) 바보같이 쓰는 행위. 이는 1억 원짜리 스포츠카를 사서 동네 마트 갈 때 10km/h로 몰고 다니는 인프라 낭비의 극치다.

📢 섹션 요약 비유: PIM은 엄청난 수납공간을 가졌지만 요리 도구는 작은 빈약한 '캠핑카'입니다. 라면 1,000개(언어 모델, Memory Bound)를 끓일 때는 캠핑카 안에서 재료를 바로바로 꺼내 대충 끓이면 되니 세상에서 제일 편합니다. 하지만 프랑스 최고급 코스 요리(CNN, Compute Bound)를 만들려면, 재료는 적게 들어가도 불과 화덕(연산기)이 엄청나게 많이 필요하므로 캠핑카(PIM)에서는 요리를 망치게 됩니다. 요리 종류에 따라 주방을 골라야 합니다.

Ⅴ. 기대효과 및 결론 (Future & Standard)

PIM(Processing-In-Memory)은 70년간 컴퓨터 과학을 지배해 온 "저장하는 놈(메모리) 따로, 계산하는 놈(CPU) 따로"라는 폰 노이만의 성경을 찢어버린 위대한 반란이자 융합이다.

패러다임 극복 과제	폰 노이만 아키텍처 고집 시대	PIM / 지능형 메모리 융합 시대	미래 컴퓨터 구조 파급력
메모리 장벽 (Memory Wall)	대역폭 부족으로 GPU 코어의 70%가 굶음	칩 외부 전송 없이 내부 100% 흡수	LLM 챗봇의 초실시간(Real-time) 답변 및 서버 유지비(전기) 붕괴
반도체 산업 패권	인텔/엔비디아(로직) 갑, 메모리는 단순 부품	메모리 칩 자체가 두뇌(AI 가속기)로 진화	삼성전자, SK하이닉스 등 메모리 벤더가 AI 권력의 중심(갑)으로 이동

미래 전망: 현재는 DRAM 뱅크 주변에 디지털 연산기(MAC)를 억지로 끼워 넣은 수준(디지털 PIM)이지만, 미래의 끝판왕 아키텍처는 **CIM (Computing-In-Memory)**이다. 트랜지스터로 계산하는 것을 넘어, 메모리를 저장하는 **'물리적 아날로그 셀(SRAM, RRAM)'에 전압을 쏘면 전류가 섞여 나오는 그 자연의 법칙(옴의 법칙, 키르히호프의 법칙) 자체가 곧바로 행렬의 덧셈 곱셈 결과가 되는 마법(아날로그 PIM)**이 실현될 것이다. 이렇게 되면 컴퓨터는 0과 1의 스위칭 발열 없이, 인간의 진짜 뇌(시냅스)처럼 에너지 1방울로 숨 쉬듯 AI를 연산하는 뉴로모픽(Neuromorphic) 생태계로 궁극의 융합을 이루어낼 것이다.

📢 섹션 요약 비유: 옛날엔 도서관(메모리)에서 책을 빌려오면 무조건 학생(CPU)이 자기 집에서 똑똑하게 숙제를 해야 했습니다. 그런데 이젠 도서관 자체가 너무 거대해져서, 책꽂이 사이사이에 꼬마 사서(PIM)들을 풀어놓고 "너네가 책 꺼내서 대충 숙제까지 끝내놔!"라고 시키는 시대가 왔습니다. 미래에는 아예 책장 자체가 뇌세포처럼 변해서, 내가 질문을 던지면 도서관 벽(CIM)이 스스로 소리를 내어 정답을 읊어주는 공상과학 같은 세상이 펼쳐질 것입니다.

📌 관련 개념 맵 (Knowledge Graph)

폰 노이만 병목 (Memory Wall) | 연산장치(CPU/GPU)가 아무리 빨라도 데이터를 퍼오는 전선(버스)이 좁아서 컴퓨터가 멍때리며 멈춰버리는 현상. PIM이 태어난 가장 큰 이유
PNM (Processing-Near-Memory) | PIM처럼 아예 램 칩 속으로 들어가는 건 너무 만들기가 빡세서, 램과 칩을 메인보드가 아닌 하나의 실리콘 인터포저 위에 바짝 붙여놓은 현실적 타협 아키텍처 (HBM 기반 최신 GPU들)
CIM (Computing-In-Memory) | PIM의 궁극적 최종 진화형태로, 아날로그 메모리 소자(저항 등)의 물리적 전류 흐름 자체를 수학 덧셈과 곱셈으로 둔갑시켜 전력 소모를 0으로 만들어버리는 기술
MAC 연산기 (Multiply-Accumulate) | 딥러닝의 핵심인 "곱하고 더하기". PIM 메모리 칩셋 내부에 몰래 숨겨놓는 아주 작고 멍청하지만 치명적인 폭발력을 가진 미니 덧셈기 덩어리
메모리 바운드 (Memory Bound) | 연산은 1개인데 불러올 데이터가 100개라서 CPU가 하루 종일 굶게 되는 상태. PIM 아키텍처가 1,000%의 성능 향상을 뿜어낼 수 있는 가장 완벽한 소프트웨어 환경 (예: LLM, 트랜스포머)

👶 어린이를 위한 3줄 비유 설명

개념: PIM은 만능 요리사(CPU)가 창고(메모리)에서 무거운 밀가루를 주방까지 낑낑대며 들고 오는 게 너무 힘들어서, 아예 창고 안쪽에 꼬마 요리사(미니 계산기)들을 잔뜩 숨겨놓은 마법의 창고예요.
원리: 요리사가 멀리서 "거기 창고! 밀가루 반죽 좀 해놔!"라고 소리만 치면, 창고 안에서 꼬마 요리사들이 무거운 밀가루를 밖으로 안 꺼내고 자기들끼리 쓱쓱 반죽해서 아주 가벼운 '완성된 빵' 하나만 요리사에게 톡 던져줘요.
효과: 무거운 재료를 밖으로 꺼내느라 힘(전기)을 다 쓰고 길이 막히는(병목) 바보 같은 짓을 안 해도 되니까, 엄청나게 크고 똑똑한 인공지능 로봇도 스마트폰 배터리 조금만 먹으면서 술술 돌아가게 해 준답니다.