CIM (Computing-In-Memory)
핵심 인사이트 (3줄 요약)
- 본질: 연산장치(ALU)를 메모리 칩에 욱여넣던 PIM을 초월하여, 메모리 소자(SRAM, RRAM, MRAM) 그 자체의 '아날로그 물리적 특성(전압과 전류)'을 이용하여 행렬 곱셈을 1클럭에 동시에 끝내버리는 궁극의 아날로그-디지털 융합 아키텍처다.
- 가치: 0과 1의 디지털 스위칭을 버리고 아날로그 회로의 옴의 법칙(Ohm's Law)과 키르히호프 법칙을 이용해 연산하므로, 데이터가 단 1나노미터도 이동할 필요가 없어 발열과 전력 소모를 현존 최고 PIM 칩 대비 다시 1/10 수준으로 압살해 버린다.
- 융합: 인간의 뇌세포(뉴런/시냅스)가 기억과 연산을 동시에 수행하는 물리적 방식과 가장 똑같이 닮아있어, 궁극적인 뉴로모픽(Neuromorphic) 반도체 시대를 열 열쇠다. 단, 아날로그 특유의 오차(Noise)를 소프트웨어 AI 알고리즘으로 어떻게 보정할 것인지가 융합의 핵심 과제다.
Ⅰ. 개요 및 필요성 (Context & Necessity)
CIM (Computing-In-Memory)은 디지털 컴퓨터가 가진 태생적인 "전기적 결벽증"을 깨부수고 자연의 물리 법칙으로 회귀하려는 혁명적 시도다.
딥러닝의 핵심은 $A \times B + C$ (MAC, 행렬 곱셈-누적) 연산의 무한 반복이다. 디지털 컴퓨터(CPU, GPU, NPU, 심지어 디지털 PIM마저도)는 3.14와 2.5를 곱하기 위해 이 숫자들을 0과 1로 된 32비트 트랜지스터 스위치로 변환하고, 엄청난 숫자의 논리 게이트(AND, OR)를 통과시켜 전기를 무지막지하게 소모한다(디지털 패러다임).
하지만 자연(아날로그)은 이렇게 멍청하지 않다. "전압(V)과 저항(R)이 만나면 전류(I)가 흐른다. $I = \frac{V}{R} = V \times G$ (컨덕턴스). 어? 전압과 컨덕턴스가 물리적으로 부딪히는 순간 '곱하기'가 그냥 전선의 자연 현상으로 1초 만에 끝나버리네? 여러 전선이 한 줄로 묶이면 전류가 합쳐지니까 키르히호프의 법칙으로 '더하기'도 공짜로 되네?"
엔지니어들은 이 단순한 자연법칙을 메모리 반도체에 적용했다. 데이터를 저장하는 방(Cell) 자체를 저항기(Resistor)로 만들면, 굳이 계산기(ALU)로 데이터를 가져올 필요 없이 메모리 방에 전기를 쏘는 순간 "저장과 곱셈과 덧셈"이 한 몸뚱이에서 동시에 일어나는 기적을 구현한 것이다.
📢 섹션 요약 비유: 디지털 연산은 물을 1리터, 2리터 정확히 계량컵에 퍼서(메모리 읽기) 저울에 올린 뒤 눈금을 읽고 계산기(ALU)를 두드리는 피곤한 방식입니다. 아날로그 CIM 방식은 그냥 1리터 파이프와 2리터 파이프를 하나의 큰 수조(메모리 셀)에 연결해 콸콸 틀어버립니다. 물이 섞이는 그 현상 자체가 곧바로 '3리터'라는 덧셈 정답을 0.001초 만에 만들어냅니다.
Ⅱ. 아키텍처 및 핵심 원리 (Deep Dive)
CIM의 하드웨어는 우리가 아는 컴퓨터 칩(논리 게이트)이 아니라 사실상 정교한 '전기 저항 회로도'에 가깝다. 특히 차세대 비휘발성 메모리인 RRAM(ReRAM), MRAM 등과 완벽한 융합을 이룬다.
| CIM 핵심 구성 요소 | 물리적 작동 원리 (아날로그 마법) | 아키텍처적 특성 및 돌파구 | 비유 |
|---|---|---|---|
| 가중치(Weight) 매핑 | AI 모델의 가중치 $W$ 값을 메모리 소자(RRAM)의 물리적 **저항값(Resistance, $G$)**으로 칩 안에 영구적으로 구워버림 | 디지털 메모리처럼 0, 1만 있는 게 아니라 저항의 세기로 숫자를 기록함 | 수도꼭지 밸브를 절반만 조여두기 |
| 입력 데이터(Input) 매핑 | 이미지, 텍스트 등의 입력 $X$ 값을 **전압(Voltage, $V$)**의 세기로 변환하여 크로스바(Crossbar) 회로에 한꺼번에 쏨 | 디지털처럼 32개의 선을 타는 게 아니라 1개의 전선에 강약을 실어 보냄 | 밸브에 쏘는 물줄기의 수압 |
| MAC 연산의 물리적 실행 | $I(전류) = V(전압) \times G(컨덕턴스)$. 전압(X)이 저항(W)을 통과하며 나오는 전류(I)가 곧 완벽한 곱셈 결과임! | 논리 게이트(ALU)를 통과하지 않음. 데이터 이동 0(Zero). 에너지 소모 거의 없음. | 물(V)이 밸브(G)를 통과하며 쫄쫄 나오는 물의 양(I) |
| 누적(Accumulate) 더하기 | 여러 저항에서 흘러나온 전류들이 하나의 세로 전선(Bitline)으로 모이며 키르히호프의 법칙(전류 합)에 의해 알아서 다 더해짐 | 행렬 곱셈 전체가 단 1번의 찌릿한 전기 통전(1 Clock)으로 100% 동시에 끝남 | 파이프에서 나온 물들이 하나의 통에 모여 섞임 |
| ADC / DAC 변환기 | 아날로그로 계산된 전류(I)를 다음 레이어로 넘기기 위해 다시 디지털(0과 1)로 변환해 주는 필수 통역기 | CIM 구조의 유일한 병목이자 발열/전력 소모의 주범. 전체 칩 전력의 70%를 차지함 | 섞인 물의 양을 다시 디지털 저울로 재서 컴퓨터에 입력하기 |
[CIM 크로스바(Crossbar) 배열의 아날로그 딥러닝 융합 프랙탈]
[ 입력 전압 (Input X) ]
V1 ────┬──────┬──────┬───> (가로선: Wordline)
│(R11) │(R12) │
V2 ────┼──────┼──────┼───> (R = 메모리 저항셀 = AI 가중치 W)
│(R21) │(R22) │
V3 ────┴──────┴──────┴───> (수만 개의 전압이 한 방에 쾅! 들어감)
│ │ │ (물리적 곱셈 I = V * G 발생!)
▼ ▼ ▼ (세로선: Bitline, 전류가 합쳐지는 마법의 강줄기)
[ I1 ] [ I2 ] [ I3 ] <-- 이 전류값 자체가 완벽한 행렬곱 정답(Output Y)!!
(ADC를 거쳐 0과 1로 변환되어 CPU로 직행)
이 경이로운 십자형(Crossbar) 구조 덕분에 딥러닝 행렬 계산 시 "메모리 대역폭(Memory Wall)"이라는 개념 자체가 소멸한다. 메모리가 곧 연산기이므로 퍼올 데이터가 애초에 존재하지 않기 때문이다.
📢 섹션 요약 비유: 기존 NPU(디지털)가 수만 명의 주판의 달인들을 모아놓고 빛의 속도로 알을 튕기는 곳이라면, CIM(아날로그)은 거대한 핀볼 게임기입니다. 맨 위에 구슬(입력)을 와르르 부으면 기계 내부의 못(가중치)들에 튕기고 튕기며 물리법칙에 의해 자연스럽게 밑바닥 구멍(정답)으로 떨어집니다. 전기도, 두뇌도 필요 없는 궁극의 에너지 최적화 머신입니다.
Ⅲ. 융합 비교 및 다각도 분석 (Comparison & Synergy)
CIM은 컴퓨터 공학(CS)과 신소재 물리 화학(Material Science)이 극한으로 융합된 이단아다. 기존 디지털 패러다임과 비교하면 그 이질적인 철학이 명확히 드러난다.
메모리 중심 컴퓨팅의 3대 진화: PNM vs PIM vs CIM
| 척도 | PNM (Processing-Near-Memory) | PIM (Processing-In-Memory) | CIM (Computing-In-Memory) |
|---|---|---|---|
| 하드웨어 융합 방식 | 로직 칩과 메모리를 인터포저 위에서 1mm 거리로 바짝 붙임 (현실적) | 메모리 칩을 까고 남는 빈칸에 디지털 연산기(MAC)를 억지로 용접함 | 메모리 소자 자체의 아날로그 전기 흐름이 곧 곱셈/덧셈이 됨 (외계 기술) |
| 데이터 이동 거리 | 1 밀리미터 (mm) | 수 마이크로미터 (µm) | 0 나노미터 (nm) - 원천적 이동 제로 |
| 연산의 성질 | 100% 디지털 (0과 1) | 100% 디지털 (0과 1) | 아날로그(물리적 전류) 기반 |
| 가장 큰 기술적 장벽 | 비싼 패키징 수율(TSMC CoWoS 등) | 공정 융합의 어려움(온도 차이) | 아날로그의 잡음(Noise)과 ADC 변환 오버헤드 |
| 상용화 단계 | H100, MI300 등 현재의 100% 제왕 | 삼성 HBM-PIM 등 서버 시장 초기 진입 | 대학 랩실, 스타트업 연구 수준. 궁극의 미래 |
타 과목 관점의 융합 시너지
- 인공지능 소프트웨어 (Noise-Resilient Learning): 디지털은 1+1=2가 완벽히 보장된다. 하지만 아날로그인 CIM은 온도가 올라가거나 칩에 먼지가 묻으면 전압이 흔들려서 1+1=1.9 나 2.1이 튀어나온다. 하드웨어 엔지니어들은 이 잡음(Noise)을 잡다 포기하고, 공을 소프트웨어 팀으로 넘겼다. AI 모델러들은 아예 AI를 훈련(Training) 시킬 때부터 일부러 노이즈를 섞어서 학습시키는 '잡음 내성 훈련(Noise-Resilient Learning)' 기법을 융합했다. 기계가 완벽하지 않으니 뇌(알고리즘)를 융통성 있게 뜯어고쳐 하드웨어의 약점을 메우는 눈물겨운 S/W-H/W 코디자인(Co-design)이다.
- 뇌과학 (뉴로모픽 아키텍처 / Neuromorphic): 인류의 뇌세포 1,000억 개는 컴퓨터(200W)와 달리 고작 전구 하나 켤 전기(20W)만으로 알파고 이상의 추론과 상상력을 발휘한다. 뇌는 폰 노이만 구조처럼 기억하는 곳(해마)과 연산하는 곳(대뇌피질)이 칼같이 나뉘어 통신하지 않고, 시냅스(연결망) 자체가 기억이자 동시에 연산 처리기 역할을 하기 때문이다. CIM은 이 인간 뇌의 작동 방식(In-Memory)을 100% 완벽하게 모방한 반도체 역사상 최초의 물리적 프랙탈 구조다.
[디지털과 아날로그의 철학적 대충돌 (Why CIM is hard)]
* 디지털 세계 (Digital PIM/GPU)
- 0과 1이라는 극단적 전압 차이만 보므로 노이즈에 완벽히 강함. (정확도 100%)
- 하지만 무겁고, 뜨겁고, 트랜지스터가 많이 필요함.
* 아날로그 세계 (Analog CIM)
- 전압의 미세한 흐름(1.2V, 1.3V)을 숫자로 쓰므로 노이즈에 미친 듯이 취약함. (정확도 흔들림)
- 대신 가볍고, 시원하고, 소자 1개로 연산이 끝남.
- 딜레마: 뼈 빠지게 아날로그로 전기 안 쓰고 계산해 놓고,
마지막에 이 전류를 다시 디지털 0과 1로 바꾸는 번역기(ADC) 회로를 돌리는 데
오히려 전체 전기세의 70%를 써버리는 촌극이 발생! (이 ADC 오버헤드를 줄이는 게 CIM 연구의 99%다)
📢 섹션 요약 비유: 디지털 컴퓨터는 수학 문제를 풀 때 일일이 자와 컴퍼스로 각도를 1도씩 재어가며 완벽한 도면을 그리는 강박증 환자입니다(정확하지만 느림). 아날로그 CIM은 그냥 물감통을 도화지에 엎어버리고 흐르는 자국을 보고 "대충 이쯤이 정답이네!"라고 눈대중으로 때려 맞히는 천재 화가입니다(빠르지만 오차가 있음). 인공지능은 100점짜리 정답보다 90점짜리 대충 맞는 정답을 0.01초 만에 듣고 싶어 하므로 CIM의 눈대중이 최고로 잘 먹힙니다.
Ⅳ. 실무 적용 및 기술사적 판단 (Strategy & Decision)
실무 소프트웨어 개발자가 CIM 하드웨어를 직접 코딩할 일은 당분간(아마도 평생) 없다. 하지만 AI 인프라의 미래 트렌드를 읽어야 하는 아키텍트라면, 이 아날로그 메모리 구조가 가져올 소프트웨어 **"양자화(Quantization)"**와 "온디바이스(On-device)" 패러다임의 극단적 변화를 미리 체화해야 한다.
실무 차세대 AI 인프라 (CIM 융합) 대응 시나리오
-
극단적 양자화(INT4, Binary) 모델 설계의 가속화
- 상황: 회사에서 스마트워치나 IoT CCTV용 온디바이스 AI 칩(차세대 CIM 칩 탑재 가정)에 올릴 모델을 설계해야 함.
- 의사결정: 기존 모바일 폰에 올리던 INT8(8비트) 양자화를 넘어, 가중치를 아예 4비트(INT4)나 1비트(Binary Neural Network, +1/-1)로 깎아버리는 초극단적 압축 알고리즘 연구에 사활을 건다.
- 이유: CIM의 메모리 저항 소자(RRAM 등)는 아날로그 특성상 16비트나 8비트 같은 세밀한 전류 단계(256단계)를 정확하게 저장하고 뿜어내는 능력이 현저히 떨어진다. 하드웨어가 멍청한 대신 전기를 안 먹는다면, 소프트웨어 모델 자체가 오직 16단계(4비트)나 2단계(1비트)만으로도 90% 이상의 객체 인식률을 유지할 수 있도록 미리 '이진화 신경망(BNN)' 등을 연구해 둬야 차세대 IoT 패권을 쥘 수 있다.
-
학습(Training)과 추론(Inference) 아키텍처의 영구적 결별
- 상황: 클라우드 팀에서 "CIM이 그렇게 빠르고 전기를 안 먹는다는데, 우리 회사 LLM 학습 서버도 나중에 다 CIM으로 바꾸면 전기세 아끼겠네요?"라고 질문함.
- 의사결정: "CIM은 평생 학습(Training) 서버로는 못 쓴다"고 아키텍처의 한계를 명확히 박아둔다.
- 이유: 딥러닝 학습은 오차가 발생하면 가중치(W)를 실시간으로 미세하게 깎고 수정(Backpropagation)해야 한다. 그런데 CIM의 핵심은 가중치(W)를 저항 소자에 한 번 구워버리면(Weight Stationary) 다시 쓰기(Write)가 엄청나게 느리거나 칩이 닳아버린다는 물리적 한계가 있다. 게다가 아날로그 오차 때문에 역전파 미분값이 박살 난다. CIM은 오직 "구글 서버에서 완벽히 구워진 모델을 복사해 넣고, 죽을 때까지 답변(Inference)만 찍어내는 엣지(Edge) 디바이스" 생태계의 영원한 노예다.
[미래 컴퓨팅 패러다임: Cloud (Digital) vs Edge (Analog CIM) 양극화 트리]
[질문 1] 내가 설계하려는 하드웨어-소프트웨어 시스템의 목표가 무엇인가?
├─ 막대한 데이터로 지능(모델)을 새롭게 창조하는 것 (Training)
│ └──> 100% 디지털 연산 보장 필수.
│ 수천 와트를 퍼먹더라도 엔비디아 GPU(PNM 기반) 클라우드를 타야 함.
│
└─ 창조된 지능을 인간 세상(로봇, 폰, 센서)에 가장 싸게 뿌리는 것 (Inference)
└──> 데이터 통신 병목이 지옥임.
미래엔 무조건 PIM과 아날로그 CIM 칩으로 도배될 것.
모델을 4비트(INT4)로 깎는 양자화 소프트웨어 엔지니어가 몸값 1위를 찍음.
운영 및 아키텍처 도입 체크리스트
- 미래의 CIM 기반 IoT 인프라를 설계할 때, 디지털 데이터를 아날로그로 바꾸고(DAC) 다시 디지털로 읽어오는(ADC) 병목 때문에 "데이터가 칩 밖으로 나가는 순간 전기세가 100배 폭발한다"는 원칙을 이해하고, 센서 자체에 CIM을 융합하는 올인원(All-in-one) 설계를 고려하고 있는가?
안티패턴: 소프트웨어의 논리적 완벽성에 취해 "어떻게 1+1이 2.1이 나오는 아날로그 칩을 컴퓨터라고 부를 수 있냐? 절대 못 쓴다!"라며 디지털(폰 노이만) 칩만 고집하는 꼰대적 사고. AI는 로직(Logic)이 아니라 통계(Probability)다. 대충 70%의 확률로 개와 고양이를 0.001와트(W)로 알아맞히는 아날로그의 가성비가, 99%의 확률을 위해 300와트(W)를 태우는 디지털 칩보다 엣지 생태계에서는 수억 배 더 가치 있다는 융합적 시야가 필요하다.
📢 섹션 요약 비유: CIM은 시험장에서 완벽한 정답을 쓰기 위해 1시간 동안 계산기를 두드리는 모범생(디지털)이 아닙니다. 문제의 패턴만 쓱 보고 1초 만에 감으로 "이건 3번이네!" 하고 직관으로 찍고 넘어가는 야생의 천재(아날로그)입니다. 수능(학습) 때는 모범생이 낫지만, 길을 걷다 날아오는 공을 피하는 일상생활(엣지 추론)에서는 1초 만에 반응하는 야생의 직관이 목숨을 살립니다.
Ⅴ. 기대효과 및 결론 (Future & Standard)
CIM(Computing-In-Memory)은 반도체 공학이 70년간 신봉해 온 '디지털(0과 1)'이라는 종교를 버리고, 자연의 아날로그 물리 법칙으로 회귀하여 폰 노이만 병목을 종식시키는 최후의 마법이다.
| 척도 | 폰 노이만 (CPU/GPU) + PNM 타협 시대 | 아날로그 CIM (뉴로모픽) 도래 시대 | 미래 인류/IT 산업 파급 효과 |
|---|---|---|---|
| 연산의 에너지 효율 | 1 연산당 수백 피코줄(pJ) 소모 | 1 연산당 1 펨토줄(fJ) 미만 소모 (1/1000) | 전봇대 없이 태양광, 건전지만으로 평생 돌아가는 AI 로봇과 센서의 등장 |
| 메모리(DRAM/SRAM)의 위상 | 연산 칩의 따가리를 하는 창고 깡통 | 칩 자체가 데이터를 기억하며 생각하는 뇌세포로 진화 | 진정한 의미의 인공 뇌(Artificial Brain) 하드웨어 실현 |
미래 전망: 현재 CIM은 랩실(Lab) 수준을 벗어나, Mythic이나 삼성전자(SAIT) 같은 선구자들에 의해 엣지 NPU 형태로 상용화의 문을 두드리고 있다. 궁극적인 미래에는 빛을 이용한 광학 컴퓨팅(Silicon Photonics)과 메모리가 합쳐진 **광학 CIM (Optical Computing-In-Memory)**으로 진화할 것이다. 전압(V) 대신 레이저 빛의 파장과 밝기(Intensity)가 메모리 거울을 통과하며 1조 분의 1초 만에 딥러닝 행렬을 연산해 내는, 열도 나지 않고 전기도 쓰지 않는 신의 영역에 도달하며 진정한 뉴로모픽 반도체의 시대를 열 것이다.
📢 섹션 요약 비유: 인류의 컴퓨터 발전사는 "뇌 따로, 창고 따로(폰 노이만)"에서 시작해, 창고를 뇌 옆에 바짝 붙이더니(PNM), 창고 안에 뇌를 조금 잘라 넣고(PIM), 결국엔 창고의 벽돌 자체를 생각하는 뇌세포로 개조(CIM)하는 생물학적 진화의 길이었습니다. 기계가 인간의 진짜 뇌(시냅스) 구조를 100% 물리적으로 복사해 내는 그날, 챗GPT를 스마트폰 배터리 1%만으로 평생 돌리는 마법이 시작될 것입니다.
📌 관련 개념 맵 (Knowledge Graph)
- PIM (Processing-In-Memory) | CIM과 헷갈리기 쉬우나, PIM은 메모리 칩 안에 '디지털(0과 1) 연산기'를 억지로 용접해 넣은 것이고, CIM은 메모리 소자 자체의 아날로그 전류로 연산하는 더 궁극적인 외계 기술임
- 메모리 바운드 (Memory Wall) | CPU/GPU가 아무리 똑똑해도 램에서 데이터를 퍼오는 선이 막혀서 컴퓨터가 바보가 되는 70년 묵은 질병. CIM이 이 벽을 원천적으로 증발시킴
- 아날로그 연산 (Analog Computing) | 0과 1로 계산하지 않고, 전압, 전류, 저항의 물리적 크기(V=IR) 그 자체를 이용해 자연법칙으로 곱셈과 덧셈을 한 방에 끝내는 방식
- 양자화 (Quantization) | 아날로그의 부정확함(노이즈)을 덮기 위해, 어차피 딥러닝 모델도 4비트나 8비트 수준의 대충 뭉뚱그린 정수로 잘라버려도 찰떡같이 알아듣게 만드는 S/W-H/W 필수 융합 기술
- 뉴로모픽 (Neuromorphic) 반도체 | 기억(메모리)과 연산(CPU)이 완벽히 한 몸으로 융합되어, 인간의 진짜 뇌(시냅스와 뉴런)처럼 밥알만 한 에너지로 엄청난 추론을 하는 차세대 반도체의 최종 진화형 (CIM이 그 뼈대)
👶 어린이를 위한 3줄 비유 설명
- 개념: CIM은 요리사(CPU)가 창고(메모리)에서 재료를 꺼내오는 게 너무 귀찮아서, 아예 **'창고의 벽돌과 선반 그 자체'**가 재료를 섞고 요리하게 만든 진짜 마법의 창고예요.
- 원리: 예전에는 창고 안에 꼬마 요리사(PIM)를 숨겨놨다면, 이제는 꼬마 요리사도 필요 없어요. 창고에 파이프를 연결해서 물(전기)을 쫙 쏘면, 파이프의 모양(물리 법칙) 때문에 물이 저절로 섞이고 더해져서 완벽한 요리(계산 결과)가 튀어나오죠.
- 효과: 디지털 숫자 0과 1을 힘들게 계산할 필요 없이 그냥 자연의 물길(전류)에 맡겨버리니까, 전기를 거의 1도 쓰지 않고도 엄청나게 복잡한 인공지능 숙제를 순식간에 끝내버릴 수 있답니다.