IPU (Intelligence Processing Unit)

핵심 인사이트 (3줄 요약)

본질: 영국의 반도체 기업 그래프코어(Graphcore)가 엔비디아 GPU 제국을 무너뜨리기 위해 만든 딥러닝 전용 가속기로, GPU의 워프(Warp) 기반 SIMT 구조를 완전히 폐기하고 MIMD(다중 명령어 다중 데이터)와 방대한 온칩(On-chip) SRAM 메모리를 극단적으로 융합한 칩셋이다.

가치: 폰 노이만 병목의 원흉인 외부 메모리(HBM/DRAM) 접근 자체를 죄악으로 여겨 칩 바깥 메모리를 아예 떼버리고, 대신 칩 내부에 무려 수백 MB(기가바이트 급)에 달하는 초고속 캐시를 도배하여 모델 파라미터를 칩 안에 몽땅 우겨넣고(In-Processor Memory) 빛의 속도로 연산한다.

융합: AI 모델을 거대한 '그래프(Graph)'로 인식하여, 각 노드(코어)가 완전히 독립적인 제어권을 가지고 자기 할 일을 하다가 한 번에 모여서 동기화하는 BSP (Bulk Synchronous Parallel) 수학적 모델과 하드웨어를 완벽히 1:1로 융합시킨 아키텍처다.

Ⅰ. 개요 및 필요성 (Context & Necessity)

IPU (Intelligence Processing Unit)는 "왜 우리는 딥러닝을 할 때, 본질적으로 그래픽(화면)을 그리기 위해 만들어진 낡은 GPU 구조에 맞춰서 코드를 억지로 욱여넣어야 하는가?"라는 철학적 반항에서 출발했다.

엔비디아 GPU는 강력하지만 태생적 한계가 있다. 32개의 스레드가 무조건 한 몸으로 움직이는 SIMT 구조이기 때문에 조건문(if-else)이 복잡해지면 성능이 반토막 났다. 게다가 GPU는 칩 내부 캐시가 쥐꼬리만 해서, 매번 뜨겁고 느린 VRAM(HBM)에서 데이터를 퍼 나르느라 전기(전력)를 다 썼다.

그래프코어 엔지니어들은 이 기형적인 구조를 백지에서부터 새로 그렸다. "인공신경망(Neural Network)의 본질이 뭐야? 그냥 점(뉴런)과 선(시냅스)으로 이루어진 거대한 그래프(Graph)잖아! 그럼 칩 구조도 저 그래프랑 똑같이 만들자. 외부 메모리(HBM) 갖다 버리고 칩 면적의 절반을 SRAM(캐시)으로 덮어서 뇌세포를 칩 안에 아예 가둬버려! 그리고 코어 1,000개한테 각자 독립적인 자유(MIMD)를 줘서 서로 다른 코드를 막 실행하게 풀어버리자!"

이것이 외부 메모리 장벽(Memory Wall)과 통제된 스레드 구조(SIMT)를 동시에 박살 낸 천재적인 AI 전용칩, IPU의 탄생이다.

📢 섹션 요약 비유: GPU는 1명의 지휘관이 32명의 노 젓는 멍청한 노예를 강압적으로 지휘하는 거대한 갤리선입니다. 무거운 짐(데이터)을 창고(HBM)에서 계속 꺼내와야 하죠. IPU는 1,200명의 똑똑한 특수부대원(MIMD 코어) 각자가 자기 배낭(거대 내부 SRAM)에 식량을 꽉꽉 채워 넣고, 각자 흩어져서 자유롭게 작전을 수행하다가 무전 한 통에 모여서 결과를 취합하는 극강의 게릴라 특수부대입니다.

Ⅱ. 아키텍처 및 핵심 원리 (Deep Dive)

IPU의 내부를 들여다보면 폰 노이만 아키텍처의 상식인 "연산기 + 외부 메모리" 공식이 완전히 박살 나 있다. 대신 거대한 메가 코어(IPU-Tile)들의 바둑판이 존재한다.

핵심 하드웨어 블록	아키텍처적 특성 (GPU와의 차별점)	극복해 낸 한계점	비유
MIMD 아키텍처	GPU(SIMT)와 달리 코어 하나하나가 완전히 독립적인 명령어(PC)를 실행함	조건 분기(If-Else), 그래프 노드 탐색 등 비정형 데이터 연산에서 GPU를 압살함	32인 33각(GPU) vs 각자 자유롭게 달리기(IPU)
In-Processor Memory	HBM 같은 외부 DRAM이 아예 없음. 칩 하나에 900MB에 달하는 초고속 SRAM을 분산 탑재	메모리 병목(Memory Bound) 원천 차단. 메모리 대역폭이 초당 무려 47 TB/s (H100의 15배)	밖에 있는 창고를 없애고 직원들 책상 서랍을 미친 듯이 크게 만듦
IPU-Tile	독립된 연산기(코어)와 그 연산기 전용 768KB SRAM이 딱 달라붙어 있는 모듈(Tile) 1,472개가 깔려있음	데이터가 1mm도 이동하지 않고 코어 옆에서 바로 씹혀먹힘	자급자족이 100% 가능한 1,472개의 독립된 요새
BSP (Bulk Synchronous Parallel)	각 코어가 마음대로 일하다가(Compute), 다 같이 멈춰서 데이터를 휙 교환하고(Sync), 다시 일하는 3단계 스케줄링	락(Lock)이나 캐시 일관성(MESI)이라는 복잡한 하드웨어 로직을 칩에서 완벽히 뜯어내 버림	"각자 숙제해! 땡 치면 모여서 답 맞혀! 다시 흩어져!"

가장 소름 돋는 아키텍처적 선택은 캐시 일관성(Cache Coherence)의 폐기다.

[멀티코어의 암덩어리(캐시 일관성)를 버린 IPU의 BSP 교환망 프랙탈]

(1) 기존 멀티코어 (Snooping / MESI 프로토콜)
코어 A가 데이터를 만지면, 하드웨어가 쉴 새 없이 "A가 고쳤다! B야 너 캐시 지워라!" 
하면서 시스템 버스를 마비시킴. (하드웨어 오버헤드 낭비 극심)

(2) IPU의 BSP (Bulk Synchronous Parallel) 모델 융합
- Compute 단계: 1,472개의 코어가 각자 자기 서랍(SRAM)에 있는 데이터만 갖고 미친 듯이 계산함. (이때 남의 서랍 절대 안 침범함. 락/스누핑 필요 0%)
- Sync 단계: 1,472개의 코어 계산이 전부 다 끝남. 하드웨어 스위치망(Exchange)이 열림.
- Exchange 단계: 코어들이 0.1나노초 만에 자기가 푼 정답을 남들 서랍으로 촥! 던져주고 교환함. 
=> 결과: 복잡한 하드웨어 일관성 유지(MESI) 스위치를 칩에서 파내 버리고, 그 자리에 연산기를 
   더 우겨넣어 전성비와 면적 효율을 우주 끝까지 올림!

📢 섹션 요약 비유: 1,000명이 회의할 때, 일반 CPU/GPU는 한 명이 말할 때마다 남들이 자기 수첩을 고쳐 적느라(캐시 일관성) 회의가 끝이 안 납니다. IPU(BSP 모델)는 각자 방(SRAM)에 들어가서 하루 종일 혼자 일하게 한 다음, 퇴근 10분 전에 강당에 모여서 서로 만든 서류를 빛의 속도로 휙휙 던져서 교환하고 끝내는 가장 쿨한 시스템입니다.

Ⅲ. 융합 비교 및 다각도 분석 (Comparison & Synergy)

IPU는 "GPU 킬러"를 자처하며 등장했기 때문에, 철저하게 엔비디아(NVIDIA) 생태계의 맹점(비정형 데이터)을 파고드는 융합 전략을 취했다.

GPU (Dense/정형) vs IPU (Sparse/비정형) 철학 비교

비교 척도	NVIDIA GPU (A100 / H100)	Graphcore IPU (Bow 등)	아키텍처 전쟁의 승부처
선호하는 데이터 구조	10,000 x 10,000 꽉 찬 거대 행렬(Dense)	듬성듬성 비어있는 희소 행렬(Sparse)과 그래프(Graph)	LLM(GPU)이 뜰 것인가, GNN/비정형(IPU)이 뜰 것인가?
메모리 아키텍처	외장 HBM 탑재 (용량 수십 GB, 대역폭 수 TB/s)	내장 SRAM 100% (용량 1GB 미만, 대역폭 수십 TB/s)	거대 용량 vs 초저지연/초광대역폭
스케줄링 유연성	SIMT (분기문 만나면 성능 박살)	MIMD (분기문 만나도 각자 갈 길 감)	룰 베이스(Rule-based) AI 융합 가능성
소프트웨어 생태계	쿠다(CUDA) 독점 (신의 경지)	Poplar (자체 프레임워크, 생태계 부재)	(IPU의 눈물) 아무리 기계가 좋아도 S/W 락인이 없으면 망함

타 과목 관점의 융합 시너지

자료구조 및 알고리즘 (GNN / 그래프 신경망): 챗GPT처럼 말을 예쁘게 짓는 모델(LLM)은 GPU가 짱이다. 하지만 신약 개발(단백질 분자 구조), 소셜 네트워크 분석, 금융 사기 탐지(돈의 흐름) 등은 데이터가 행렬이 아니라 꼬리에 꼬리를 무는 그래프(Graph) 구조다. 이 그래프를 GPU에 던져주면 GPU 메모리는 포인터를 쫓아다니느라 1초 만에 뻗어버린다(Random Access 병목). IPU는 각 노드(코어)에 메모리가 박혀있는 MIMD 구조이기 때문에, 이런 끔찍한 비정형(Sparse/Graph) 데이터를 탐색할 때 GPU 대비 10배~50배의 엽기적인 속도를 뿜어낸다. 모델(S/W)의 모양과 하드웨어 뼈대(H/W)가 완벽히 포개어지는 극단적 도메인 특화(DSA)의 결과다.
컴파일러 추상화 (Poplar 그래프 컴파일러): IPU 칩을 손으로 코딩하는 건 불가능하다. 그래프코어는 파이토치(PyTorch)나 텐서플로우 모델을 입력받으면, 모델 전체를 수십억 개의 수학적 꼭짓점(Vertex)과 선(Edge)으로 이루어진 거대한 그래프로 통째로 번역해 버리는 Poplar 컴파일러를 융합시켰다. 이 컴파일러가 1,472개의 코어(타일)에 "너는 이 노드를 계산해!"라고 완벽하게 분배해 주므로(Software-defined Routing), 하드웨어는 복잡한 스케줄러 없이 그저 밥 떠먹여 주는 대로 계산만 하면 된다.

[IPU 컴파일러 중심 아키텍처 (Software-Defined Hardware) 프랙탈]

[ 파이토치 모델 입력 ] 
-> Poplar 컴파일러: 모델을 1,000만 개의 그래프 노드로 찢음.
-> Poplar: "어? 칩 안에 코어가 1,472개 있네? 1개 코어당 6,700개 노드씩 분배!"
-> Poplar: "메모리(SRAM) 통신 언제 할지도 내가 다 계산했음! 기계어 코드에 통신 타이밍(Sync) 다 박아 넣음!"

결과: 하드웨어(IPU 칩) 안에는 동기화를 체크하는 '비싼 논리 회로'가 아예 존재하지 않는다. 
소프트웨어(컴파일러)가 미리 짜준 절대적인 시간표(Timetable)대로 칩이 기계적으로 톱니바퀴처럼 움직인다.

📢 섹션 요약 비유: GPU는 똑똑한 로봇 조립 공장입니다. 로봇들이 알아서 부품을 찾고(메모리 컨트롤러) 부딪히지 않게 교통정리(캐시 일관성)를 합니다. 부품값이 비싸죠. IPU 공장은 로봇에게 뇌(제어회로)가 없습니다. 대신 천재 공장장(Poplar 컴파일러)이 전날 밤을 새워 "너는 1시 1분에 나사 2번 돌리고 멈춰"라는 1년 치 완벽한 스케줄표를 짜서 쥐여줍니다. 로봇들은 그냥 시간표대로만 맹목적으로 움직이면 서로 부딪히지도 않고 세상에서 제일 빨리 차가 조립됩니다.

Ⅳ. 실무 적용 및 기술사적 판단 (Strategy & Decision)

실무 AI 연구자가 "우리 모델 너무 느리니 IPU를 사보자!"라고 무지성으로 접근했다간, 모델 사이즈(파라미터 크기)의 벽에 부딪혀 메모리 초과 에러(OOM)만 보고 장비를 환불하게 된다. IPU는 극단적인 타겟팅이 필요한 명검이다.

실무 이기종 가속기(IPU) 도입의 손익분기점(BEP) 판별 시나리오

내부 SRAM 한계(On-chip Memory Bound) 인식 및 모델 파티셔닝
- 상황: 챗GPT-3 (175B 파라미터, 약 350GB 용량) 모델을 훈련시키려고 IPU 장비를 빌림.
- 의사결정: IPU 단일 칩의 메모리(SRAM)는 겨우 900MB 다! 이 칩에 350GB 모델을 한 번에 올리는 것은 물리학적으로 불가능하다. 수백 대의 IPU를 링크로 엮어서 파라미터를 수백 조각으로 잘게 찢어(Pipeline Parallelism) 각 칩의 SRAM에 뿌려주는 극단적인 분산 시스템 아키텍처를 세팅해야만 한다.
- 이유: HBM(수십 GB)을 달고 있는 GPU와 달리, IPU는 칩 내부의 1GB 남짓한 SRAM이 메모리의 전부다. 속도는 빛의 속도지만 용량은 개미 눈물만 하다. 파라미터가 비대하게 큰 LLM 모델을 올리려면 기기를 무식하게 많이 사서 가로로 엮어야 하므로 벤처기업은 비용 감당이 안 된다. (이것이 IPU가 LLM 시대에 접어들며 급격히 몰락한 치명적 이유다.)
GNN 및 몬테카를로 금융 시뮬레이션(Sparse Workload) 타겟팅
- 상황: 은행에서 주식 시장의 파생상품 리스크를 계산하기 위해 엄청난 분기문(if-else)과 확률(Random)이 섞인 몬테카를로 시뮬레이션을 돌리려 함. GPU에 올렸더니 워프 발산으로 속도가 1/10 토막 남.
- 의사결정: GPU(SIMT)를 내다 버리고, IPU(MIMD)나 일반 멀티코어 CPU로 오프로딩 대상을 전격 교체한다.
- 이유: IPU의 코어들은 서로 발이 묶여있지 않은 완벽한 독립 객체(MIMD)다. 수천 개의 주식 시나리오가 각각 다른 if문을 타고 다른 길로 뻗어나가더라도(비정형/분기 발산), IPU는 아무런 패널티 없이 각자 풀 스피드로 연산을 뿜어낸다. 딥러닝(행렬)이 아닌 순수 복잡 수학 시뮬레이션이나 희소(Sparse) 데이터 환경에서 IPU는 GPU를 최소 10배 이상 압살하는 진정한 지배자다.

[실무 도메인 특화 가속기(DSA) 선택 알고리즘 (GPU vs IPU)]

[질문 1] 데이터 구조가 빽빽한 직사각형 행렬(Dense Tensor)인가, 아니면 구멍이 숭숭 뚫린 그래프/트리(Sparse)인가?
 ├─ Dense (이미지 CNN, 언어 LLM) ──> 어차피 꽉 찬 행렬이면 텐서 코어 몰빵인 엔비디아 GPU가 깡패다. 
 │                                  메모리(HBM) 넉넉한 GPU를 써라!
 │
 └─ Sparse (GNN, 추천 알고리즘, 분자 구조, 복잡한 if 분기) ──> GPU에 넣으면 병목 터진다!
             └──> [질문 2] 모델 파라미터의 전체 용량이 몇 GB인가?
                   ├─ 수십~수백 GB (초대형) ──> IPU 1대로 안 된다. IPU Pod(수십 대 묶음)을 살 돈이 
                   │                          있는 대기업이 아니면 얌전히 CPU + RAM 클러스터 써라.
                   └─ 1GB 미만 (경량/고밀도) ──> IPU(SRAM 900MB)의 뱃속에 딱 들어맞는 최상급 먹잇감! 
                                               IPU 도입 시 GPU 대비 연산 속도 50배 퀀텀 점프 달성!

운영 및 아키텍처 도입 체크리스트

하드웨어 가속기(IPU/NPU)를 샀다고 끝이 아니다. 우리가 쓰는 파이토치(PyTorch) 코드나 커스텀 C++ 오퍼레이터가 IPU의 전용 컴파일러(Poplar)에서 100% 호환되어 Fall-back(CPU로 일감 뱉어내기) 에러 없이 완벽히 칩셋 기계어로 번역되는지(Ecosystem 융합) 사전에 PoC(개념 증명)를 거쳤는가?

안티패턴: "엔비디아 GPU 너무 비싸서 못 사겠다, 대체재로 싸게 IPU나 타사 NPU 사서 챗GPT 돌려야지!" 하는 무지. 챗GPT(LLM)는 '메모리 용량'을 비정상적으로 퍼먹는 공룡이다. HBM(거대 메모리)이 탑재되지 않은 온칩 SRAM 중심의 IPU/가속기들에게 LLM을 던져주는 것은 작은 종이컵에 코끼리를 쑤셔 넣으려는 짓이다. 아키텍처의 타겟 도메인(Sparse vs Dense)을 모르면 돈만 날린다.

📢 섹션 요약 비유: GPU는 엄청나게 큰 물탱크(HBM)를 단 덤프트럭입니다. 물(파라미터)을 수십 톤씩 싣고 다니기엔 최고죠. 반면 IPU는 물탱크 없이 작은 물병(SRAM)만 차고 다니는 최고급 F1 레이싱카입니다. 짐이 없을 때 꼬불꼬불한 산길(그래프/비정형 데이터)을 달리는 속도는 GPU를 우주 끝까지 따돌리지만, 수십 톤의 물(초거대 LLM)을 나르라고 시키면 레이싱카 수백 대를 가져와도 트럭 1대를 이기지 못합니다.

Ⅴ. 기대효과 및 결론 (Future & Standard)

IPU는 "어떻게든 메모리(DRAM) 칩과 엮어서(PNM/HBM) 속도를 올리자"는 반도체 업계의 비겁한(?) 타협을 비웃고, "외부 메모리 자체를 아예 절단해 버린다"는 극단적인 'In-Processor Memory' 철학의 완성을 보여준 아키텍처의 이단아다.

패러다임 극복 과제	GPU 중심의 SIMT/HBM 구조	IPU 중심의 MIMD/온칩 SRAM 구조	AI 하드웨어 생태계 파급 효과
비정형(Sparse) 데이터 연산	워프 발산, 캐시 미스로 성능 10% 미만	100% 자율 코어로 GPU 대비 10배 이상 가속	신약 개발(분자 그래프), 양자 역학 시뮬레이션의 비약적 발전
메모리 월(Memory Wall)	HBM을 탑재해도 지연시간 수백 나노초	칩 외부를 안 나가서 지연시간 1 나노초	파라미터가 칩 안에 들어맞기만 하면 우주 최강의 전성비 달성

미래 전망: 딥러닝 트렌드가 그래프(GNN) 중심에서 무식하게 뚱뚱한 거대 언어 모델(LLM) 중심으로 넘어가면서, 메모리 용량이 작은 IPU는 현재 심각한 위기를 맞이했다 (결국 그래프코어는 소프트뱅크에 인수됨). 하지만 AI 모델이 언제까지나 파라미터 크기(무식한 뚱뚱함)만으로 승부할 수는 없다. 미래의 AI는 뇌세포의 99%가 비어있고 필요할 때만 연결되는 '희소 전문가 모델(MoE, Mixture of Experts)'이나 극단적으로 압축된 인간의 뇌(스파이킹 신경망) 형태로 진화할 것이다. 그때가 오면 무식한 HBM 트럭(GPU)의 시대는 가고, 희소성(Sparsity)과 미세 컨트롤에 미친 F1 레이싱카(IPU의 후예들)가 다시 AI 아키텍처의 왕좌를 탈환하는 역사의 나선적 발전이 이루어질 것이다.

📢 섹션 요약 비유: IPU는 무거운 철갑옷(HBM 메모리)을 벗어던지고 단검 두 개(초고속 SRAM)만 든 암살자입니다. 지금 AI 전쟁터가 대포와 성벽(LLM)이 난무하는 무식한 공성전이라 암살자가 설 곳이 없어 보이지만, 미래에 전쟁 양상이 정밀한 게릴라전(희소성 AI, MoE)으로 바뀌는 순간 이 암살자의 춤사위에 모든 거인(GPU)들이 목을 내어주게 될 것입니다.

📌 관련 개념 맵 (Knowledge Graph)

하드웨어 가속기 (Hardware Accelerator) | CPU의 짐을 덜어주는 특수 목적 칩으로, GPU, TPU, IPU 등 특정 도메인의 수학 계산을 칩 단위로 찍어 누르는 녀석들의 총칭
메모리 바운드 (Memory Wall) | 칩 속도는 빛인데 메모리(DRAM)에서 데이터를 퍼오는 선이 막혀서 컴퓨터가 바보가 되는 현상. IPU는 아예 외부 메모리를 뜯어내고 칩 안에 캐시를 도배해서 이 벽을 회피함
MIMD (다중 명령어 다중 데이터) | GPU의 SIMT(전체 스레드가 똑같은 행동 강제)와 달리, 수천 개의 코어가 각자 완전 딴짓(독립 명령어)을 할 수 있는 극강의 유연한 아키텍처 설계
BSP (Bulk Synchronous Parallel) | IPU 코어들이 각자 미친 듯이 일하다가(Compute), 다 같이 멈춰서(Sync), 데이터를 교환하고(Exchange), 다시 일하러 가는 완벽히 융합된 수동 스케줄링 모델
희소 행렬 (Sparse Matrix) / 그래프 신경망 | 데이터의 90%가 0으로 비어있거나 복잡한 그물망으로 엮여있어서, 꽉 찬 행렬(Dense)만 좋아하는 GPU를 깡통으로 만들고 IPU를 신으로 만들어주는 소프트웨어 작업

👶 어린이를 위한 3줄 비유 설명

개념: IPU는 그림 그리는 데 최적화된 마법 붓(GPU) 대신, 처음부터 끝까지 오직 어려운 '인공지능 미로 찾기(그래프)'만 미친 듯이 잘 풀도록 아예 머리 구조를 다르게 태어난 천재 로봇이에요.
원리: 멍청한 로봇(GPU)은 책(데이터)이 필요할 때마다 무거운 도서관(외부 메모리)에 뛰어갔다 오지만, IPU 로봇은 아예 자기 배낭(칩 내부 메모리)을 엄청나게 크게 만들어서 책을 몽땅 싸 들고 다니며 1초 만에 꺼내봐요.
효과: 배낭에 책을 다 넣을 수만 있다면, 도서관을 왔다 갔다 하는 낭비 시간이 0초가 되기 때문에, 복잡하고 구불구불한 인공지능 미로(비정형 데이터)를 찾을 때 다른 로봇보다 수십 배나 빠르고 똑똑하게 답을 낸답니다.