시스톨릭 어레이 (Systolic Array)

핵심 인사이트 (3줄 요약)

본질: 심장이 피를 뿜어내어(Systole) 맥박이 혈관을 타고 흐르듯, 수만 개의 연산 유닛(PE)을 2차원 바둑판(Mesh) 모양으로 촘촘히 엮어, 데이터가 중앙 메모리로 돌아가지 않고 인접한 옆 PE로 계속 릴레이 패스되며 연산이 누적되는 하드웨어 아키텍처다.

가치: 딥러닝 행렬 곱셈 시 발생하는 폰 노이만 구조 최악의 병목인 '메모리 읽기/쓰기 지연(Memory Wall)'을 완전히 박살 낸다. 메인 메모리에서 데이터를 딱 한 번만 퍼온 뒤, 칩 내부에서 파도 타듯 수백 번 재사용(Data Reuse)함으로써 **궁극의 전성비와 극단적인 연산 밀도(Throughput)**를 뿜어낸다.

융합: 1980년대 제안되었으나 유연성이 없어 잊혀졌던 기술이었으나, AI 혁명으로 오직 행렬 연산(MAC)만 미친 듯이 파먹는 도메인 특화 수요가 생기자 구글 TPU, 애플 M 시리즈 NPU, 엔비디아 텐서 코어(Tensor Core)의 핵심 심장부로 화려하게 부활/융합한 역주행의 전설이다.

Ⅰ. 개요 및 필요성 (Context & Necessity)

시스톨릭 어레이 (Systolic Array)는 "데이터를 나르는 비용이 계산하는 비용보다 100배 비싸다"는 컴퓨터 공학의 비극적 진리를 극복하기 위해 탄생한 궁극의 구두쇠 아키텍처다.

AI 딥러닝은 엄청난 크기의 입력 데이터 행렬(X)과 가중치 행렬(W)을 서로 곱하고 더하는 짓(MAC, Multiply-Accumulate)의 무한 반복이다. 전통적인 폰 노이만 CPU나 일반적인 GPU는 아주 멍청하게 일했다. 연산기(ALU)가 $W_1$과 $X_1$을 곱하려고 메인 메모리(SRAM/DRAM)에 뛰어갔다 오고, 결과값을 메모리에 쓴다. 다음 연산기가 $X_1$과 $W_2$를 곱하려고 또 메모리에 뛰어가서 방금 쓴 $X_1$을 또 가져온다. 계산은 1나노초 만에 끝나는데, 메모리를 왕복하느라 100나노초를 허비하고, 전선(Bus)을 오가며 막대한 전력(배터리)을 열로 발산해 버렸다. (메모리 병목 / 폰 노이만 병목)

엔지니어들은 이 낭비에 분노하며 기막힌 아이디어를 냈다. "아니, 어차피 다 같이 $X_1$을 쓸 건데 왜 각자 메모리에 가서 가져와? 연산기(PE)들을 바둑판처럼 다닥다닥 붙여 세워! 그리고 맨 앞에 있는 놈이 메모리에서 $X_1$을 딱 한 번만 가져와서 계산하고, 다 썼으면 메모리에 버리지 말고 자기 바로 옆에 있는 놈한테 휙 던져줘! 그럼 그놈도 쓰고 또 옆으로 던져주면, 메모리엔 딱 한 번만 가고 100명이 재사용할 수 있잖아!"

이것이 심장의 박동(Systolic)처럼 클럭에 맞춰 데이터가 파도타기 릴레이를 하는 시스톨릭 어레이의 위대한 본질이다.

📢 섹션 요약 비유: 전통 아키텍처는 산불을 끌 때 100명의 사람이 각자 양동이를 들고 우물(메모리)까지 100번 뛰어갔다 오는(개고생) 방식입니다. 시스톨릭 어레이는 우물부터 산불까지 100명이 1미터 간격으로 줄을 쫙 서서, 우물 앞 1명이 물을 퍼서 옆 사람에게 착착 패스(릴레이)하는 인간 사슬입니다. 뛰지 않으니 체력(전력) 소모가 거의 없고 물(데이터)은 폭포수처럼 쏟아집니다.

Ⅱ. 아키텍처 및 핵심 원리 (Deep Dive)

시스톨릭 어레이 칩 내부를 뜯어보면, 복잡한 제어 장치(Control Unit)나 캐시는 거의 없고 무식할 정도로 빽빽한 PE (Processing Element) 들의 바둑판 배열이 전부다.

핵심 구성 블록	아키텍처의 물리적 동작 매커니즘	한계 극복의 지점	비유
PE (Processing Element)	곱셈기와 덧셈기(MAC 유닛)와 작은 레지스터 딱 1개로 구성된 멍청한 최소 연산 단위	명령어를 해석할 필요도 없이, 그냥 들어온 숫자 2개를 곱해서 누적하는 짐승 같은 기계	나사만 하루 종일 돌리는 공장 알바생
2D Mesh 라우팅	모든 PE는 상하좌우의 인접한 4명의 PE와만 다이렉트 전선으로 직결됨 (글로벌 버스 없음)	무거운 글로벌 시스템 버스 대역폭 트래픽을 '0'으로 수렴시킴	알바생들끼리 어깨가 닿을 만큼 다닥다닥 붙은 컨베이어 벨트
Data Flow (데이터 파도)	가로축(입력 데이터)과 세로축(가중치 데이터)이 매 클럭 펄스마다 1칸씩 파도 타듯 옆 PE로 흘러감	1번 퍼온 데이터를 $N \times N$ 배열에서 $N$번 재사용(Reuse)하여 메모리 장벽(Memory Wall) 박살 냄	왼쪽에서 오른쪽으로 계속 밀려오는 제품들
Systolic (박동) 클럭	전체 바둑판이 정확히 똑같은 1개의 마스터 클럭(심장 박동)에 맞춰 일제히 데이터를 패스함	복잡한 큐(Queue)나 비동기 제어 로직이 필요 없어 트랜지스터 밀집도를 우주 끝까지 올림	뱃사공이 치는 북소리 "어영! 차!" 템포

시스톨릭 어레이의 진정한 마법은 행렬 곱셈을 **수학의 시공간적 변환(Space-Time Transformation)**으로 찢어버린 데 있다.

[시스톨릭 어레이(3x3) 내부의 행렬 릴레이 융단폭격 도식]

* 목표: [ 입력 X ] 행렬과 [ 가중치 W ] 행렬의 곱을 [ 정답 Y ] 에 누적.

(클럭 1) 
상단 1열에서 X1이 툭 떨어짐. 좌측 1행에서 W1이 쑥 들어옴.
-> PE(0,0) 이 X1 * W1 계산.

(클럭 2: 박동 친다!)
PE(0,0)은 자기가 쓴 X1을 바로 밑 PE(1,0)에게 패스! W1은 오른쪽 PE(0,1)에게 패스!
상단에서 새로운 X2 유입! 좌측에서 새로운 W2 유입!
-> PE(0,0)은 새로 들어온 X2 * W2 계산하여 누적.
-> PE(1,0)과 PE(0,1)도 받은 놈들로 동시에 계산 시작! (동시 다발적 파도 번짐)

(클럭 N)
데이터 파도가 우하단 PE(2,2)까지 쫙 퍼지면서, 9개의 PE가 1클럭도 안 쉬고 
어마어마한 릴레이 곱셈-누적(MAC)을 쏟아내며 정답 Y 배열을 툭툭 뱉어냄!

이 경이로운 데이터 흐름 덕분에, 데이터는 칩 내부에서 절대 멈추거나 병목에 걸리지 않고 파이프라인의 폭포수처럼 쏟아져 내린다. NPU와 TPU가 극강의 전성비(TFLOPS/Watt)를 내는 유일한 물리적 비밀이다.

📢 섹션 요약 비유: 이 바둑판(어레이)은 수천 명의 사람이 모여서 추는 카드섹션 매스게임입니다. 지휘자가 큰 북을 "둥!" 칠 때마다(클럭 박동), 맨 왼쪽 사람이 외운 숫자를 오른쪽 사람 귀에 속삭이고(데이터 패스), 동시에 자기 카드 색깔을 바꿉니다. 북소리에 맞춰 수천 명이 파도타기를 하듯 정보가 흘러가며, 지휘자는 일일이 지시할 필요 없이 북만 치면 완벽한 그림(정답)이 완성됩니다.

Ⅲ. 융합 비교 및 다각도 분석 (Comparison & Synergy)

시스톨릭 어레이는 모든 것을 버리고 '행렬 곱셈' 하나만을 위해 영혼을 판 악마의 계약이다. 이 극단적인 하드웨어 설계는 범용 칩(CPU/GPU)과 비교할 때 충격적인 트레이드오프를 보여준다.

폰 노이만 아키텍처(CPU/GPU) vs 시스톨릭 어레이(TPU)의 철학 파괴

철학 척도	폰 노이만 (CPU / 일반 GPU)	시스톨릭 어레이 (Google TPU 등)	패러다임 극복 포인트
데이터 보관소	연산을 마치면 무조건 레지스터/캐시에 안전하게 "저장(Store)"	저장을 안 함. 계속 옆으로 흘려보내며 "비행 중 연산(Compute-in-flight)"	메모리 읽기/쓰기 대역폭(Memory Wall) 병목의 원천 소멸
연산 제어 (Control)	명령어를 가져오고(Fetch), 해석하고(Decode) 분기를 예측	명령어 따위 없음. 그냥 전기가 통하면 무조건 들어오는 놈 곱해서 넘김 (ASIC)	칩 면적의 90% 이상을 덧셈기(ALU)에 욱여넣는 극한의 공간 효율 달성
유연성 (Flexibility)	if, while, 재귀함수 등 세상의 모든 코드 실행 가능	If문? 재귀함수? 전혀 불가능. 오직 정형화된 거대 행렬(Tensor) 곱만 가능	범용성(General)을 버리고 전성비(Domain Specific)를 취함

타 과목 관점의 융합 시너지

인공지능 소프트웨어 (가중치 고정, Weight Stationary 융합): 딥러닝 추론(Inference)을 곰곰이 뜯어보면, 입력 이미지(X)는 매번 바뀌지만, 인공지능이 미리 학습해 둔 뇌세포 가중치(Weight, W)는 수백만 번의 추론 동안 절대 안 바뀐다. 하드웨어 엔지니어들은 이 소프트웨어적 특성과 시스톨릭 어레이를 융합했다. 가중치(W)들을 시스톨릭 바둑판의 각 PE(연산기) 안에 영구적으로 박아버리는(Weight Stationary) 아키텍처를 만든 것이다. 이제 입력 데이터(이미지)만 바둑판 위로 파도처럼 흘려보내면, 제자리에 붙박이로 서 있는 가중치들이 쉴 새 없이 곱해서 정답을 뱉어낸다. AI의 수학적 본질과 하드웨어 모양이 완벽히 100% 일치(Isomorphic)한 인류 최고의 융합이다.
반도체 공학과 패키징 (다이 면적 최적화): 시스톨릭 어레이는 칩 설계자에게 엄청난 축복이다. 복잡한 제어선을 여기저기 이리저리 꼴 필요 없이, 그냥 네모난 PE 블록 하나를 이쁘게 디자인한 다음 복사+붙여넣기(Copy & Paste)로 6만 5천 개를 바둑판으로 쫙 깔아버리면 칩 도면이 완성되기 때문이다(Regularity & Modularity). 이 규칙적인 배선 덕분에 칩의 수율이 극단적으로 높아지고 원가는 낮아지며, 구글이 자체 칩(TPU)을 단숨에 찍어낼 수 있었던 1등 공신이 되었다.

[소프트웨어 딥러닝(MAC) 구조와 시스톨릭 하드웨어의 프랙탈 매핑]

* 인공지능(CNN/FC)의 본질 수학 공식: Y = W1*X1 + W2*X2 + W3*X3 ...

(1단계 융합)
소프트웨어 수학 공식의 [W1, W2, W3] -> 하드웨어 PE 1, PE 2, PE 3의 배 속에 영구 고정(Stationary)시킴.

(2단계 융합)
소프트웨어 입력 데이터 [X1, X2, X3] -> 컨베이어 벨트(시스톨릭 라우팅)에 올려서 PE들을 훑고 지나가게 쏨.

(3단계 융합)
PE들이 자기 뱃속의 W와 지나가는 X를 계속 곱해서, 그 결과값 덩어리(Partial Sum)를 아래쪽으로 줄줄이 흘려보냄(누적).
맨 아랫단에서 뚝뚝 떨어지는 숫자들이 완벽한 딥러닝의 정답(Y)이 됨.

📢 섹션 요약 비유: 시스톨릭 어레이(가중치 고정 방식)는 붕어빵 공장입니다. 붕어빵 틀(가중치 Weight)은 무거우니까 기계(PE)에 영구히 용접해 고정해 둡니다. 그리고 그 틀 위로 반죽과 팥(입력 데이터 X)만 벨트를 타고 쭉 흘려보냅니다. 틀이 가만히 있고 재료만 흘러가게 만든 동선 설계 덕분에, 공장은 전력을 거의 안 쓰고 1초에 만 개의 붕어빵(결과 Y)을 폭포수처럼 뽑아냅니다.

Ⅳ. 실무 적용 및 기술사적 판단 (Strategy & Decision)

실무 AI 모델 아키텍트(소프트웨어 엔지니어)는 하드웨어를 직접 만들진 않지만, NPU/TPU라는 '거대한 고정 바둑판(시스톨릭 어레이)'의 입맛에 맞게 데이터를 포장(Padding)하지 못하면 이 위대한 기계를 고철로 만들게 된다.

실무 NPU / TPU 성능 최적화 및 오프로딩 시나리오

텐서 형상(Tensor Shape) 패딩을 통한 바둑판(Array) 100% 점유 (Occupancy)
- 상황: 구글 클라우드에서 TPU v3(내부 시스톨릭 어레이 크기 128 x 128)를 빌려 언어 모델(NLP)을 훈련시키는데, 문장 길이(Sequence Length)가 100이라서 텐서 크기를 100 x 100 짜리로 던져주었더니 속도가 기대 이하임.
- 의사결정: 텐서 크기가 100이라도, 강제로 쓸데없는 0 데이터(Zero Padding)를 28개 덧붙여서 무조건 128 x 128 (또는 그 배수)로 사이즈를 완벽히 뻥튀기하여 TPU에 밀어 넣는다.
- 이유: 시스톨릭 어레이는 모양을 자유자재로 바꾸는 연체동물이 아니라, 128x128 크기의 쇳덩어리 바둑판 고정 틀이다. 여기에 100x100 행렬을 넣으면, 바둑판의 나머지 28칸(모서리 부분)의 PE들은 일감이 없어서 전기만 먹고 100% 놀게 된다(Idle). 쓸데없는 0(Zero)을 곱하는 헛짓거리를 하더라도, 하드웨어 바둑판 사이즈의 배수에 맞춰서 배열을 밀어 넣는 것(Hardware-Aware Shape)이 코어를 100% 혹사시켜 처리량을 극대화하는 실무 절대 진리다.
동적 루프(Dynamic Branch)와 트리 탐색의 클라우드 분리 (CPU Fallback 방어)
- 상황: 자율주행 차량 내부에 달린 NPU(시스톨릭 어레이 가속기)에서, CNN 이미지 인식 후에 결과를 룰 기반(Rule-based)의 복잡한 if-else 트리로 탐색하는 로직을 통합하여 짰더니 프로그램이 뻗어버림.
- 의사결정: 로직을 물리적으로 칼같이 분리한다. "입력 이미지 -> 텐서 행렬 곱셈" 구간까지만 NPU 시스톨릭 어레이에 오프로딩하고, 거기서 나온 확률 결과를 다시 CPU 메인 메모리로 가져와서 복잡한 if-else 트리 탐색과 제어 로직은 똑똑한 Host CPU가 처리하게(이기종 컴퓨팅) 아키텍처를 이원화한다.
- 이유: 시스톨릭 어레이는 지능이 '0'이다. 오직 직선으로 밀려오는 파도(데이터)를 곱하고 넘기는 톱니바퀴일 뿐이다. 만약 데이터가 파도를 타다가 중간에 if문을 만나 "어? 난 멈추고 옆으로 가야 하는데?"라고 튀는 순간, 어레이 바둑판 전체의 파이프라인 리듬(박동)이 와장창 깨지며 연산망이 통째로 폭파된다(Stall). 바둑판(NPU) 위에서는 조건문이나 동적 크기의 루프를 절대로 쓰면 안 된다.

[실무 TPU/NPU (시스톨릭 어레이) 활용성 판독 트리]

[질문 1] AI 모델의 코어 연산이 Fully Connected Layer나 Convolution(합성곱) 같은 거대하고 빽빽한(Dense) 행렬의 수학적 곱셈인가?
 ├─ No ───> 데이터가 듬성듬성 비어있는 희소 행렬(Sparse Matrix)이거나, 
 │          그래프 노드를 타고 다니는(GNN) 불규칙 메모리 접근(Random Access)인가?
 │          => 시스톨릭 바둑판은 구멍 뚫린 데이터를 처리하다 굶어 죽는다. NPU 쓰지 말고 
 │             메모리 대역폭이 넓은 GPU(CUDA)나 대형 CPU 캐시를 써라!
 │
 └─ Yes ──> (Dense Matrix) 완벽한 밥이다.
             └──> [질문 2] 입력 데이터의 차원(Shape)이 매번 바뀌지 않고 고정(Static)되어 있는가?
                   ├─ Yes ──> 축하한다. 시스톨릭 어레이(TPU)의 톱니바퀴에 완벽히 맞물린다. 
                   │          전기세 1/10로 슈퍼컴 속도를 낼 것이다.
                   └─ No ───> 입력 길이가 계속 바뀌면 NPU 하드웨어가 매번 파이프라인을 재조립하느라 
                              뻗어버린다. 데이터에 0을 채워서 패딩(Padding)으로 모양을 고정해라!

운영 및 아키텍처 도입 체크리스트

스마트폰 앱(iOS) 개발 시, 신경망 연산을 아무렇게나 짜서 CPU 폴백(Fallback)이 터지는 걸 막기 위해, Apple Neural Engine(ANE) 내의 시스톨릭 MAC 어레이가 가장 좋아하는 Conv2D + BatchNormalization + ReLU 의 표준 레이어 순서(Fusion이 가능한 최적 조합)를 지키며 AI 모델 아키텍처를 양자화(Quantize) 설계했는가?

안티패턴: "내 딥러닝 모델은 파라미터가 엄청나게 많고 희소(Sparse)해! 성능을 위해 TPU(시스톨릭 어레이)에 올려야지!"라는 무지. 시스톨릭 어레이는 0이 꽉 찬 빈 행렬(희소 행렬)을 던져주면, 0 곱하기 0을 하느라 수만 개의 연산기가 허공에 삽질(Zero-Compute 낭비)을 하며 버스와 전력만 축낸다. 빽빽한(Dense) 데이터만이 시스톨릭의 엔진오일이다.

📢 섹션 요약 비유: 시스톨릭 어레이는 거대한 톱니바퀴로 돌아가는 와플 굽는 기계(틀 고정)입니다. 밀가루 반죽(데이터)을 틀(128배수 패딩) 모양에 완벽하게 꽉꽉 채워 넣어야만 1초에 백 개씩 예쁜 와플이 찍혀 나옵니다. 톱니바퀴 사이에 돌멩이(If 분기문)를 넣거나, 반죽을 듬성듬성 찔끔(희소 행렬) 넣으면 기계는 멈추고 숯덩이만 나옵니다. 틀에 맞게 데이터를 포장하는 자만이 성능의 축복을 받습니다.

Ⅴ. 기대효과 및 결론 (Future & Standard)

시스톨릭 어레이는 1970년대에 H.T. Kung이 "메모리 랙(Lag)을 없애려면 피가 흐르듯 데이터를 재사용해야 한다"며 창안했지만, 당시엔 이 거대 바둑판을 쓸 만큼 멍청하고 큰 연산(AI 행렬) 수요가 없어 박물관에 처박혔던 비운의 천재 기술이었다.

패러다임 극복 과제	CPU/GPU 중심의 메모리 의존	시스톨릭 어레이(NPU/TPU)의 부활 융합	딥러닝 산업 인프라 혁명
메모리(DRAM) 대역폭의 벽	연산 1번에 메모리 2번 왕복. 전력/시간 99% 낭비	1번 읽어 칩 내부에서 수백 번 패스(Reuse)	클라우드 AI 인프라의 극단적 전기세(OPEX) 감축 및 마진 극대화
트랜지스터 밀집도 (면적당 효율)	칩의 절반을 캐시와 복잡한 제어 선이 차지함	제어선이 얇고, 오직 MAC 연산기만 빽빽이 도배	스마트폰 손톱만 한 칩에 수조 번 연산(TOPS) 성능 우겨넣음 (온디바이스 AI)

미래 전망: 현재의 2D 평면 시스톨릭 어레이(구글 TPU v4)조차 엄청나게 거대해진 챗GPT(LLM) 텐서 앞에서는 면적의 한계에 부딪히고 있다. 미래의 시스톨릭 구조는 2차원 평면(Mesh)을 넘어 칩 위에 칩을 위로 계속 쌓아 올려 상/하/좌/우/위/아래로 데이터를 입체적으로 패스하는 3D 시스톨릭 어레이 (3D SRAM + TSV 융합 패키징) 로 진화하고 있다. 궁극적으로는 메모리(SRAM) 바깥으로 데이터를 꺼내지도 않고, 메모리 칩 그 자체의 세포(Cell)가 곱셈을 해버리는 "PIM (Processing-In-Memory)" 구조와 완전히 융합하여 '메모리와 연산기의 경계선'마저 역사 속으로 지워버릴 것이다.

📢 섹션 요약 비유: 시스톨릭 어레이는 40년 전 시대를 잘못 타고난 르네상스 천재의 설계도였습니다. 하지만 인공지능(딥러닝)이라는 완벽한 영혼(Use-case)을 만나 현대에 괴물 같은 거인(NPU/TPU)으로 부활했습니다. 이 거인은 이제 수평(2D)으로 크는 것을 멈추고 하늘로 솟아오르며(3D 패키징, PIM), 다가올 초거대 AGI 시대의 무한한 심장 박동(Systolic) 엔진이 될 것입니다.

📌 관련 개념 맵 (Knowledge Graph)

TPU (Tensor Processing Unit) / NPU | 시스톨릭 어레이라는 뼈대를 기반으로 구글과 애플 등이 살을 붙여 상용화시킨 특수 목적 인공지능 하드웨어 가속기
MAC 연산 (Multiply-Accumulate) | $X \times W + B$ (곱하고 더하기). 시스톨릭 어레이 바둑판의 각 칸에 들어있는 가장 단순하고 멍청하지만 가장 강력한 1클럭 심장 근육
메모리 대역폭 장벽 (Memory Wall) | 연산기가 아무리 빨라도 메모리에서 숫자를 퍼오는 길이 좁아서 연산기가 굶어 죽는 CPU/GPU의 가장 무서운 병목. 시스톨릭 릴레이 패스가 이 장벽을 완벽히 부숨
가중치 고정 (Weight Stationary) | 신경망에서 절대 안 변하는 가중치(W) 데이터를 시스톨릭 연산기 뱃속에 영구적으로 못 박아놓고, 입력(X)만 파도처럼 밀어 넣어 연산 효율을 수백 배 튀기는 융합 아키텍처 기술
텐서 코어 (Tensor Core) | 엔비디아가 GPU 안에 이 시스톨릭 어레이의 소형화 버전을 융합(탑재)하여, 4x4 행렬 곱셈을 1클럭에 박살 내도록 만든 혁명적 AI 부품

👶 어린이를 위한 3줄 비유 설명

개념: 시스톨릭 어레이는 수만 명의 사람이 1미터 간격으로 바둑판처럼 촘촘히 줄을 서서, 산불을 끄기 위해 물양동이를 옆 사람에게 빛의 속도로 휙휙 던져주는 완벽한 '인간 사슬 릴레이' 구조예요.
원리: 예전 컴퓨터(CPU)는 물이 필요할 때마다 1명이 우물(메모리)까지 계속 뛰어갔다 오느라 땀을 뻘뻘 흘렸지만(전력 낭비), 이 구조는 맨 앞사람 딱 1명만 우물에서 물을 퍼오고 나머지는 제자리에서 릴레이 패스만 하니까 힘이 하나도 안 들어요.
효과: 피가 심장 박동(시스톨릭)에 맞춰 혈관을 한 방향으로 쭉 흐르듯이, 데이터가 멈추지 않고 칩 내부를 릴레이로 흘러가기 때문에 아주 적은 배터리만으로도 엄청난 인공지능 숙제를 1초 만에 다 끝낼 수 있답니다.