35. 리플 캐리 가산기 (Ripple Carry Adder)

핵심 인사이트 (3줄 요약)

본질: 리플 캐리 가산기(Ripple Carry Adder, RCA)는 1비트짜리 전가산기(Full Adder) 여러 개를 일렬로 나란히 이어 붙여(Daisy Chain), 다중 비트(N-bit) 정수의 덧셈을 수행하는 가장 무식하고 직관적인 1차원 조합 논리회로다.

가치: 앞사람의 꼬리($C_{out}$)를 뒷사람의 머리($C_{in}$)에 물리는 구조라 트랜지스터 면적(Area) 낭비가 극단적으로 적어, 공간과 원가가 쪼들리는 저가형 임베디드 칩(MCU)에서 최고의 가성비 아키텍처로 채택된다.

판단 포인트: 1의 자리에서 터진 올림수가 물결(Ripple)치듯 64번째 자리까지 넘어갈 때 터지는 '전파 지연(Delay)' 병목 때문에, 5GHz로 돌아가는 현대 고속 CPU에서는 절대 메인 코어로 쓸 수 없어 파이프라인이나 캐리 예측(CLA)으로 찢어버린다.

Ⅰ. 개요 및 필요성

리플 캐리 가산기는 단어 그대로 물결(Ripple)치듯 올림수가 퍼져나간다. N개의 전가산기를 꼬치구이처럼 직렬로 묶어놓고, 가장 낮은 자리(LSB)에서 만들어진 올림수를 그다음 자리로 토스하며 덧셈을 이어가는 하드웨어 구조다.

전가산기 하나로 1비트 덧셈을 성공시킨 인류는 8비트, 16비트 숫자를 더하고 싶었다. "전가산기를 8개 사 와서 일렬로 전선으로 엮자!"는 무식한 1차원적 해법이 RCA다. 논리적으로 완벽했고 칩 면적도 가장 콤팩트하게 먹어 치웠기에, 굼벵이처럼 돌던 초기 컴퓨터 시절 가장 위대한 덧셈기 뼈대로 군림했다.

📢 섹션 요약 비유: RCA는 64명이 일렬로 서서 하는 '소방 릴레이 물바가지 나르기'다. 맨 앞사람이 물바가지(올림수)를 뒷사람에게 넘겨줘야만 두 번째 사람이 자기 몫을 더해 뒤로 넘길 수 있다. 64번째 뒷사람은 앞의 63명이 전달을 다 끝낼 때까지 꼼짝없이 숨 참으며 멍때려야 하는 극악의 도미노 구조다.

Ⅱ. 아키텍처 및 핵심 원리

올림수가 전가산기를 관통하며 도미노처럼 파도치듯 뻗어나가는 직렬 맵핑 도면이다.

┌──────────────────────────────────────────────────────────────┐
│         마이크로아키텍처의 꼬리 물기: 4-bit 리플 캐리 가산기(RCA)    │
├──────────────────────────────────────────────────────────────┤
│                                                              │
│   [덧셈할 두 4비트 숫자 뭉치: A = A3 A2 A1 A0,  B = B3 B2 B1 B0] │
│                                                              │
│   MSB(최상위)                                   LSB(최하위)        │
│     A3  B3          A2  B2          A1  B1          A0  B0       │
│     │   │           │   │           │   │           │   │        │
│   ┌─▼───▼─┐       ┌─▼───▼─┐       ┌─▼───▼─┐       ┌─▼───▼─┐      │
│ ◀─│  FA 3 │◀─ C3 ─│  FA 2 │◀─ C2 ─│  FA 1 │◀─ C1 ─│  FA 0 │◀ Cin=0│
│C4 └─┬─────┘       └─┬─────┘       └─┬─────┘       └─┬─────┘      │
│     ▼               ▼               ▼               ▼            │
│     S3              S2              S1              S0           │
│                                                              │
│ * 동작 시퀀스: A와 B는 4명에게 0초 만에 동시에 쥐여지지만,               │
│   FA 3번 일꾼은 FA 2번이 'C3 올림수'를 던져줄 때까지 덧셈 절대 불가!      │
└──────────────────────────────────────────────────────────────┘

맨 오른쪽 FA 0 (1의 자리)에 A0와 B0가 들어온다. 최초 올림수 핀(Cin)은 보통 0V(GND)에 묶거나 뺄셈을 위해 1에 묶는다. FA 0이 피 터지게 더해서 C1을 뱉으면, 대기 타던 FA 1이 그 C1을 받아 더해 C2를 뱉는다. 물결이 꿀렁꿀렁 왼쪽으로 파도치듯(Ripple) 넘어가 마지막 C4 찌꺼기까지 떨어져야 비로소 4비트 완벽한 덧셈 결과가 나온다.

📢 섹션 요약 비유: 이 덧셈기는 똑같이 생긴 복제 인간 알바생(전가산기) 4명을 좁은 골목에 나란히 세워둔 콤팩트 공장이다. 공간(칩 면적) 낭비 단 1% 없이 빽빽하게 쑤셔 박을 수 있는 하드웨어 다이어트의 극치다.

Ⅲ. 비교 및 연결

왜 이 작고 싼 기계가 현대 고클럭 CPU에서는 쳐다보지도 말아야 할 안티패턴이 되었을까? 전파 지연의 저주 때문이다.

비교 항목	리플 캐리 가산기 (RCA)	캐리 예측 가산기 (CLA)
올림수 전달 방식	옆 사람의 계산이 끝날 때까지 멍때리며 릴레이 대기	입력만 보고 64자리의 모든 올림수를 0초 만에 동시 예측
전파 지연 (Delay)	비트 수가 늘수록 $O(N)$으로 지연 폭증 (CPU 뻗음)	비트 수가 늘어도 $O(1)$ 상수 시간으로 폭발적 빠름
칩 면적 (Area)	면적 극소, 트랜지스터 낭비 1도 없음 (최강 가성비)	예측 뼈대가 미치게 뚱뚱해서 칩 원가 수직 상승

만약 64비트 RCA라면, 전가산기 하나당 2나노초(ns)가 걸릴 때 총 128나노초(ns) 동안 CPU가 멈춰야 한다. 1클럭이 128ns면 7.8MHz라는 조선시대 컴퓨터 속도밖에 안 나온다! 0.2나노초 안에 덧셈을 끝내야 하는 최신 5GHz CPU 입장에선 숨통을 조르는 암 덩어리다.

📢 섹션 요약 비유: 64개의 신호등이 10미터 간격으로 있는 최악의 도로(RCA)다. 앞 신호등이 파란불(Cout)로 바뀌어야 다음 신호등이 계산을 시작한다. 64번을 가다 서다 반복해야 하니 페라리(5GHz CPU)를 타도 소달구지 속도밖에 못 내는 끔찍한 병목 도로다.

Ⅳ. 실무 적용 및 기술사 판단

원가를 1원이라도 깎으려는 팹리스 아키텍트는 타이밍과 면적의 벼랑 끝 줄타기를 한다.

체크리스트 및 판단 기준

리모컨이나 스마트워치처럼 버튼 1번 누를 때만 잠깐 돌면 되는 100MHz 이하의 초저성능/초저가 임베디드 MCU 칩인가? 그렇다면 무겁고 뚱뚱한 CLA 블록을 당장 부수고, 칩 면적을 가장 극단적으로 쥐어짜 내는 이 RCA(리플 캐리) 뼈대를 강제 채택하여 칩 하나당 단가를 껌값으로 깎아냈는가?
16비트 RCA 덧셈기에 8비트 숫자를 욱여넣어 더할 때, 남는 윗자리 구멍에 멍청하게 무조건 0을 채워 음수 연산 체계(2의 보수)를 박살 내지 않고, 부호 비트(MSB) 1을 끝까지 쫙 잡아당겨 복사해 채워 넣는 '부호 확장(Sign Extension)' 먹이기 전처리 멀티플렉서를 단단히 입혔는가?

안티패턴

속도를 올리겠다고 병렬 덧셈기를 만들라 했더니, 32개의 전가산기를 사다 놓고 32명에게 한 방에 입력(A, B)을 던져줬으니 병렬(Parallel) 연산이라고 우기며 줄줄이 꼬리만 이어놓은 초보의 망상. 입력은 0초 만에 동시에 들어갔을지언정 뱃속의 올림수(Carry)는 결국 1번부터 32번까지 직렬로 기어가야만 한다. 겉보기에 나란히 섰다고 병렬이 아니다.
📢 섹션 요약 비유: 고속도로 톨게이트 32차선을 활짝 열어놓고(입력 동시 투입), 정작 고속도로 진입로는 1차선 좁은 골목길(올림수 직렬 전파)로 만들어 둔 멍청한 공사다. 차들이 32대 동시에 우르르 들어오면 뭐 하나, 결국 한 줄로 서서 32대가 다 빠질 때까지 피 말리는 정체를 겪어야 한다.

Ⅴ. 기대효과 및 결론

리플 캐리 가산기는 다중 비트 연산을 구현함에 있어 트랜지스터 하드웨어 자원을 가장 알뜰하게 쥐어짤 수 있는 궁극의 가성비 1차원 아키텍처다.

하지만 도미노처럼 쏟아지는 치명적 '전파 지연' 병목 때문에 데스크톱 고속 CPU의 연산 심장 자리에선 퇴출당했다. 그럼에도 세상엔 5GHz의 속도를 요구하지 않는 값싼 엣지(Edge) IoT 칩들이 무수히 많으며, 칩 면적(돈)을 깎기 위해서라면 RCA는 여전히 완벽한 구원자로 생존하고 있다. "속도(Performance)를 위해 면적(Area)을 버리느냐"의 실리콘 철학을 완벽하게 관통하는 뼈대다.

📢 섹션 요약 비유: RCA는 '무궁화호 완행열차'다. 무지막지하게 느려서 KTX(최신 CPU)를 타야 하는 바쁜 출장러들에겐 버림받았지만, 화물을 엄청 싸게(칩 면적 축소) 가득 싣고 전국 구석구석을 누비기에는 이보다 더 훌륭하고 가성비 넘치는 운송 수단이 세상에 없다.

📌 관련 개념 맵

개념	연결 포인트
전가산기 (Full Adder)	RCA라는 64비트 거대 기차를 만들기 위해 64번 똑같이 복사+붙여넣기 조립해 낸 단 1개의 쇳덩어리 레고 세포
전파 지연 (Propagation Delay)	앞 전가산기가 뱉는 올림수를 멍때리고 기다리느라 생기는 RCA의 치명적 속도 한계이자 오버클럭 셧다운 원인
캐리 예측 가산기 (CLA)	RCA의 이 끔찍한 꼬리 물기 도미노 병목을 박살 내기 위해, 앞 사람 기다리지 않고 64명 올림수를 한 방에 예언해 버리는 돈 지랄 초고속 연산 뼈대

👶 어린이를 위한 3줄 비유 설명

리플 캐리는 64명의 학생들이 한 줄로 길게 서서 하는 **'귓속말 전달 게임'**이에요!
맨 앞 학생이 답을 계산해서 뒷사람 귀에 소곤소곤 넘겨줘야만, 두 번째 학생이 덧셈을 마저 할 수 있죠.
똑같은 학생 64명만 세우면 되니까 자리는 엄청 쪼금 차지해서 돈이 안 들지만, 맨 뒷사람까지 말이 다 전해지려면 시간이 미치도록 오래 걸리는 단점이 있답니다.