핵심 인사이트 (3줄 요약)
- 본질: CIM (Computing-In-Memory)은 데이터를 메모리 밖으로 옮긴 뒤 계산하는 대신, 메모리 셀의 전기적 특성 안에서 곱셈-누적 연산을 직접 수행해 데이터 이동 자체를 줄이는 아키텍처다.
- 가치: 인공지능 추론의 대부분을 차지하는 MAC (Multiply-Accumulate) 연산을 메모리 배열에서 병렬 처리하면, 메모리 월 (Memory Wall)과 전력 소모를 동시에 낮출 수 있어 엣지 인공지능에 특히 유리하다.
- 판단 포인트: CIM은 언제나 GPU를 대체하는 만능 해법이 아니라, 정밀도 요구·ADC (Analog-to-Digital Converter) 오버헤드·가중치 업데이트 빈도를 함께 따져 "저전력 추론용"으로 선택해야 효과가 난다.
Ⅰ. 개요 및 필요성
CIM (Computing-In-Memory)은 메모리 셀 내부 또는 메모리 배열 바로 위에서 연산을 수행해, 저장과 계산의 거리를 극단적으로 줄이는 컴퓨터 구조다. 전통적인 폰 노이만 구조에서는 프로세서가 데이터를 읽어 와야만 계산할 수 있었지만, 딥러닝에서는 이 "가져오는 과정"이 연산 자체보다 더 큰 전력과 지연을 만든다. 특히 대형 행렬 곱셈은 같은 가중치를 반복해서 읽는 일이 많기 때문에, 메모리 접근 비용이 전체 성능을 지배하기 쉽다.
이 배경에서 CIM이 주목받는 이유는 "계산을 더 빠르게"보다 "데이터 이동을 덜 하게"라는 문제 정의를 채택했기 때문이다. GPU (Graphics Processing Unit)나 NPU (Neural Processing Unit)는 병렬 연산 유닛을 늘려 처리량을 높였지만, 여전히 메모리에서 연산기로 데이터를 실어 나르는 비용을 안고 있다. 반면 CIM은 가중치가 저장된 셀을 그대로 연산 요소로 사용해, 메모리 읽기 동작이 곧 계산 동작이 되도록 설계한다.
결국 CIM이 필요한 이유는 인공지능 워크로드의 병목이 더 이상 산술 연산기 부족이 아니라 메모리 대역폭과 에너지라는 점에 있다. 서버급 학습보다도, 배터리와 발열 제약이 큰 카메라·웨어러블·로봇 같은 엣지 장치에서 이 장점이 더 크게 드러난다. 다만 메모리 셀의 물리적 편차와 아날로그 오차를 관리해야 하므로, 단순히 "메모리 안에서 계산한다"는 구호만으로는 성공할 수 없다.
- 📢 섹션 요약 비유: 기존 구조가 창고에서 재료를 매번 주방으로 실어 와 요리하는 방식이라면, CIM은 재료 선반 자체가 계량과 혼합을 함께 하도록 만든 주방이다. 덕분에 왕복은 줄지만, 선반이 얼마나 정확하게 계량하느냐가 새 숙제가 된다.
Ⅱ. 아키텍처 및 핵심 원리
CIM의 핵심은 입력 벡터를 전압이나 디지털 비트열로 배열에 인가하고, 메모리 셀에 저장된 가중치를 통해 각 열에서 곱셈-누적 결과를 동시에 얻는 것이다. 아날로그 CIM에서는 셀의 컨덕턴스(Conductance)를 가중치로 매핑하고, 워드라인 (Wordline)에 입력 전압을 걸면 비트라인 (Bitline)에서 전류가 합산된다. 이때 입력값을 전압으로 바꾸는 DAC (Digital-to-Analog Converter)와, 결과 전류를 다시 숫자로 읽는 ADC (Analog-to-Digital Converter)가 주변 회로로 붙는다. 열 단위 출력은 I_j = Σ_i (V_i × G_i,j) 형태가 되며, 이는 벡터-행렬 곱과 같은 구조다. 디지털 CIM은 비트라인 안에서 부분합을 줄이는 방식으로 구현되지만, 목표는 동일하게 메모리 접근 횟수를 줄이는 데 있다.
아래 그림은 한 번의 CIM 연산이 어디서 이득을 만들고, 어디서 다시 비용이 생기는지를 보여준다.
┌────────────────────────────────────────────────────────────────────────────┐
│ CIM의 한 번의 벡터-행렬 곱셈 경로 │
├────────────────────────────────────────────────────────────────────────────┤
│ 디지털 입력 x[i] ─▶ DAC ─▶ Wordline 전압 V[i] ─┐ │
│ ├─▶ 셀 컨덕턴스 G[i,j] │
│ 가중치 W[i,j] ─▶ 메모리 셀 배열 ───────────────┘ │
│ │
│ Bitline j 전류 I[j] = Σ_i (V[i] × G[i,j]) ─▶ ADC ─▶ 디지털 출력 y[j] │
│ │ │
│ └─ 배열 내부에서는 열 단위 병렬 누적 │
└────────────────────────────────────────────────────────────────────────────┘
이 구조에서 중요한 블록은 셀 배열, 주변 회로, 정밀도 보정 로직이다. SRAM (Static Random Access Memory) 기반 CIM은 공정 성숙도와 속도 면에서 유리하지만 면적 효율이 낮고, RRAM (Resistive Random Access Memory)·MRAM (Magnetoresistive Random Access Memory) 기반 CIM은 비휘발성과 고집적 측면에서 강점이 있다. 대신 소자 편차, 쓰기 내구성, 온도 변화에 따른 드리프트를 더 엄격히 관리해야 한다.
| 구성 요소 | 역할 | 장점 | 주요 병목 |
|---|---|---|---|
| 메모리 셀 배열 | 가중치 저장과 병렬 곱셈 수행 | 데이터 이동 최소화 | 소자 편차, 정밀도 제한 |
| DAC (Digital-to-Analog Converter) | 입력 활성값을 전압/전류로 변환 | 배열 병렬성 활용 가능 | 입력 해상도와 전력 소모 |
| ADC (Analog-to-Digital Converter) | 누적 결과를 디지털 값으로 복원 | 후단 디지털 로직 연계 용이 | 전력·면적·지연의 핵심 병목 |
| 보정 회로/소프트웨어 | 오차, 드리프트, 비선형성 보정 | 정확도 유지 | 보정 비용 증가 |
핵심 트레이드오프는 분명하다. 배열 내부 계산은 매우 싸지만, 배열 밖으로 결과를 꺼내는 순간 DAC·ADC 비용이 다시 커진다. 그래서 좋은 CIM 설계는 "배열 안에서 최대한 많이 계산하고, 변환 횟수는 최소화"하는 방향으로 간다. 이 때문에 여러 층을 한 번에 묶는 아키텍처, 저비트 양자화, 센서-메모리-추론 일체형 설계가 자주 같이 논의된다.
- 📢 섹션 요약 비유: CIM 배열은 수많은 수도꼭지가 한꺼번에 물을 흘려 총량을 바로 계산하는 배관판과 같다. 문제는 마지막에 물의 양을 숫자로 다시 읽어 적는 계량기(ADC)가 느리거나 비싸면, 배관판이 아무리 빨라도 전체 속도가 그 계량기에 묶인다는 점이다.
Ⅲ. 비교 및 연결
CIM의 위치를 정확히 이해하려면 PNM (Processing-Near-Memory), PIM (Processing-In-Memory), 그리고 기존 GPU/NPU와의 경계를 구분해야 한다. PNM은 연산기를 메모리 가까이에 붙여 이동 거리를 줄이고, PIM은 메모리 내부에 디지털 연산 로직을 넣어 처리한다. CIM은 한 걸음 더 나아가 메모리 셀의 물리 현상 자체를 계산에 이용한다는 점에서 가장 급진적이다.
| 구분 | 전통적 GPU/NPU | PIM (Processing-In-Memory) | CIM (Computing-In-Memory) |
|---|---|---|---|
| 연산 위치 | 별도 연산 유닛 | 메모리 내부 디지털 로직 | 메모리 셀/배열의 물리 현상 |
| 데이터 이동 | 큼 | 중간 | 가장 작음 |
| 정밀도 확보 | 용이 | 비교적 용이 | 어려움 |
| 적합 워크로드 | 학습·범용 추론 | 특화 추론/DB 연산 | 저전력 추론·센서 융합 |
| 핵심 난제 | 메모리 대역폭 | 공정 통합, 제어 복잡도 | ADC 오버헤드, 소자 편차 |
또한 CIM 내부에서도 아날로그 CIM과 디지털 CIM의 철학 차이가 있다. 아날로그 CIM은 옴의 법칙 (Ohm's Law)과 키르히호프 전류 법칙 (Kirchhoff's Current Law)을 적극 활용해 에너지 효율을 높이지만, 정밀도와 보정이 어렵다. 디지털 CIM은 정밀도 측면에서 안정적이지만 아날로그 방식만큼 큰 에너지 이득을 얻기 어렵다. 즉 "얼마나 아날로그에 기대느냐"가 효율과 정확도 사이의 경계선이 된다.
이 개념은 다른 과목과도 자연스럽게 연결된다. 인공지능 과목에서는 양자화 (Quantization)와 모델 압축이 CIM 친화적 모델 설계로 이어지고, 반도체 공정 관점에서는 RRAM·MRAM 같은 신소자 기술과 결합된다. 시스템 설계 관점에서는 온센서 인공지능, 이벤트 기반 비전, 뉴로모픽(Neuromorphic) 아키텍처와 만나면서 "기억과 계산의 경계 붕괴"라는 더 큰 흐름을 형성한다.
- 📢 섹션 요약 비유: PNM은 창고를 공장 옆으로 옮긴 것이고, PIM은 창고 안에 작은 작업대를 넣은 것이다. CIM은 창고 선반의 재질 자체가 계산을 하게 만든 셈이라서 가장 효율적일 수 있지만, 선반 재질이 균일하지 않으면 결과가 들쑥날쑥해질 수 있다.
Ⅳ. 실무 적용 및 기술사 판단
실무에서 CIM은 "모든 인공지능 서버를 대체할 차세대 범용 칩"보다, "정해진 모델을 매우 적은 전력으로 반복 추론해야 하는 장치"에서 먼저 판단해야 한다. 예를 들어 배터리 기반 카메라, 음성 웨이크업 칩, 바이오 센서, 산업용 이상 탐지 장치처럼 입력은 많고 계산은 반복적이며, 모델 업데이트는 드문 환경이 대표적이다. 이런 환경에서는 수 mW~수백 mW 수준의 전력 절감이 곧 제품 경쟁력이 된다.
반대로 대규모 학습, 고정밀 과학 계산, 자주 가중치를 바꿔야 하는 온라인 학습에는 CIM이 불리할 수 있다. 아날로그 CIM은 8비트 이상 정밀도 확보가 어려운 경우가 많고, 재기록 비용과 보정 비용도 무시할 수 없다. 따라서 "정확도 0.1% 하락을 감수하더라도 전력을 10배 절감할 가치가 있는가" 같은 제품 관점의 질문이 먼저 와야 한다.
도입 체크리스트
- 워크로드의 대부분이 추론(Inference)이며 가중치가 자주 바뀌지 않는가?
- 모델이 8비트 정수(INT8) 이하 저비트 정밀도에서도 목표 정확도를 유지하는가?
- ADC/DAC 전력까지 포함한 시스템 전체 전력 이득이 실제로 존재하는가?
- 온도 변화, 셀 편차, 장기 드리프트를 보정할 소프트웨어 스택이 준비되어 있는가?
피해야 할 안티패턴
- 배열 내부 연산 효율만 보고 주변 회로 전력을 무시하는 판단
- 학습용 워크로드에 그대로 적용할 수 있다고 과대평가하는 설계
- 범용성보다 에너지 특화 기술이라는 점을 놓치고 모든 서비스에 일괄 적용하려는 접근
결국 기술사 관점의 답안에서는 "CIM은 메모리 월을 줄이는 유망 기술"이라고만 쓰면 부족하다. 어떤 정확도, 어떤 전력 목표, 어떤 소자 기술에서 성립하는지까지 연결해야 설계 판단이 완성된다. 좋은 답은 원리 설명보다도 채택 조건과 회피 조건을 함께 말하는 답이다.
- 📢 섹션 요약 비유: CIM은 전기차처럼 분명 강력한 장점이 있지만, 장거리 화물차와 도심 배달차를 같은 기준으로 고르면 안 된다. 배터리 제약이 큰 도심 배달에는 탁월하지만, 충전·정밀도·재설정 조건이 맞지 않으면 오히려 불편할 수 있다.
Ⅴ. 기대효과 및 결론
CIM이 제대로 성립하면 얻는 가장 큰 효과는 "연산량 증가"보다 "이동 비용 감소"다. 메모리와 연산 사이 왕복이 줄어들면 지연시간, 전력, 발열이 함께 낮아지고, 이는 곧 소형 장치의 배터리 지속시간과 실시간성 향상으로 이어진다. 특히 카메라 입력 직후 바로 특징 추출을 수행하는 온센서 추론에서는 시스템 구조 자체를 단순화할 수 있다.
하지만 한계도 분명하다. 정밀도 확보를 위해 보정 회로와 소프트웨어가 필요하고, 주변 변환기 전력이 전체 이득을 갉아먹을 수 있다. 또한 제조 공정이 성숙하지 않은 소자를 쓰는 경우 수율과 내구성 문제가 사업성에 직접 영향을 준다. 따라서 CIM의 미래는 "배열만 좋은 칩"이 아니라, 소자-회로-컴파일러-모델을 함께 최적화하는 공동 설계(Co-Design)에 달려 있다.
앞으로의 확장 방향은 세 가지로 요약할 수 있다. 첫째, ADC 부담을 줄이는 저비트·이벤트 기반 연산. 둘째, RRAM/MRAM 기반 비휘발성 셀과의 결합. 셋째, 이미지 센서·마이크·바이오 센서와 직접 연결되는 인-센서 컴퓨팅(In-Sensor Computing)이다. 결국 CIM은 "메모리에 계산기를 넣는 기술"이 아니라, 기억과 계산의 경계를 다시 정의하는 구조적 전환으로 기억하는 것이 정확하다.
- 📢 섹션 요약 비유: CIM의 진짜 가치는 더 빠른 계산기 하나를 얻는 것이 아니라, 창고와 작업장을 합쳐 왕복 자체를 없애는 데 있다. 다만 합쳐 놓은 공간이 정밀하지 않으면 생산품 품질이 흔들리므로, 설계자는 속도와 정확도 사이의 균형점을 끝까지 관리해야 한다.
📌 관련 개념 맵
| 개념 | 연결 포인트 |
|---|---|
| 메모리 월 (Memory Wall) | CIM이 해결하려는 직접적 배경으로, 데이터 이동 비용이 성능과 전력을 지배하는 현상 |
| PIM (Processing-In-Memory) | 메모리 내부 디지털 연산과 비교해 CIM의 급진성을 설명하는 기준점 |
| 양자화 (Quantization) | 저비트 모델일수록 CIM의 정밀도 제약을 흡수하기 쉬움 |
| RRAM (Resistive Random Access Memory) | 아날로그 CIM에서 가중치 저장 소자로 자주 논의되는 비휘발성 메모리 |
| 뉴로모픽 (Neuromorphic) 컴퓨팅 | 기억과 연산의 결합이라는 철학적 방향에서 CIM과 맞닿는 차세대 구조 |
📈 관련 키워드 및 발전 흐름도
폰 노이만 구조
│
▼
메모리 월 (Memory Wall)
│
├─▶ PNM (Processing-Near-Memory)
│
├─▶ PIM (Processing-In-Memory)
│
└─▶ CIM (Computing-In-Memory)
│
├─▶ 양자화 (Quantization) · 모델 압축
│
├─▶ RRAM/MRAM 기반 아날로그 배열
│
└─▶ 인-센서 인공지능 · 뉴로모픽 컴퓨팅
이 흐름은 "데이터를 옮겨 계산"하던 구조가 "저장 위치에서 직접 계산"하는 방향으로 진화해 왔음을 보여준다.
👶 어린이를 위한 3줄 비유 설명
- 보통 컴퓨터는 창고에서 장난감을 꺼내 책상으로 가져와서 계산해요.
- CIM은 창고 선반 자체가 셈을 하게 만들어서, 장난감을 왔다 갔다 옮기는 수고를 줄여요.
- 그래서 전기는 적게 쓰지만, 선반이 얼마나 정확하게 셈하느냐를 잘 맞춰 줘야 해요.