103. CNN 주요 아키텍처 발전사 (LeNet ~ ResNet)

⚠️ 이 문서는 이미지 인식(CNN)이라는 무기를 발명했지만 오랫동안 잠들어 있던 인공지능이 어떻게 수만 장의 사진을 인간보다 더 정확하게 맞추는 '눈(Eye)'을 갖게 되었는지, **"층(Layer)을 무식하게 계속 깊게(Deep) 쌓으면 성능이 좋아지지만 망가져 버린다"는 딥러닝의 치명적 딜레마를 뚫어내기 위해 천재들이 내놓은 ReLU 함수의 도입, 작은 돋보기(3x3)의 중첩, 그리고 잔차 연결(Skip Connection)이라는 혁명적 아이디어들이 담긴 5대 전설의 아키텍처(LeNet-5, AlexNet, VGGNet, GoogLeNet, ResNet)**의 진화 과정을 다룹니다.

핵심 인사이트 (3줄 요약)

본질: 어떻게 하면 모델의 신경망 층(Layer)을 '더 깊고(Deeper), 더 가볍게(Lighter)' 쌓아 올리면서도 학습이 실패하지 않고 똑똑해지게 만들 수 있는가에 대한 피 튀기는 구조(Architecture) 설계의 역사다.

가치: 2012년 AlexNet이 등장하며 전 세계를 딥러닝 열풍으로 몰아넣었고, 2015년 ResNet이 등장하며 마침내 인공지능의 사진 인식 오류율이 인간의 눈(오류율 5%)을 완전히 뛰어넘어버리는 인류 역사의 특이점(Singularity)을 달성했다.

기술 체계: LeNet-5(우편번호 인식 기초) $\rightarrow$ AlexNet(ReLU와 GPU 떡상) $\rightarrow$ VGGNet(무조건 3x3 작은 필터만 씀) $\rightarrow$ GoogLeNet(인셉션/병렬 처리로 파라미터 축소) $\rightarrow$ ResNet(152층을 쌓아도 안 터지는 잔차 연결 혁명)으로 이어지는 족보다.

Ⅰ. 태동과 폭발 (LeNet-5 & AlexNet)

"수학의 힘으로만 덤비던 암흑기를 뚫고, 게임용 GPU와 ReLU가 세상을 구했다."

LeNet-5 (1998년) - CNN의 시조새:
- 얀 르쿤(Yann LeCun)이 만든 전설의 시작이다. 아까 배운 '합성곱(Conv) -> 풀링(Pool)'을 반복하다가 마지막에 FC 층으로 끝나는 **현대 CNN의 뼈대(교과서)**를 최초로 완성했다.
- 미국 우체국에서 우편번호(수기 숫자)를 자동 인식하는 데 쓰였다.
- 한계: 컴퓨터 칩(CPU)이 너무 구려서 흑백 숫자 이미지같이 작은 것밖에 못 돌리고 몇십 년간 암흑기에 빠졌다.
AlexNet (2012년) - 딥러닝 르네상스의 빅뱅 $\star$:
- 이미지넷(ImageNet) 대회에서 기존 수학자들을 쳐발르고 압도적 1등을 차지하며 전 세계를 충격에 빠뜨렸다.
- 혁명 1 (ReLU 함수의 도입): 이전까지 쓰던 Sigmoid 함수는 층이 깊어지면 숫자가 0으로 쪼그라들어 학습이 멈추는(기울기 소실) 최악의 병이 있었다. 알렉스는 0 이하는 버리고 양수는 쭉 뻗게 하는 ReLU 함수를 최초로 도입해 학습 속도를 6배나 폭발시켰다.
- 혁명 2 (GPU와 Dropout): 그래픽카드(GTX 580 2대)를 병렬로 엮어 연산의 한계를 뚫었고, 수백만 개의 뇌세포가 외워서 꼼수를 부리는 걸 막기 위해 절반을 기절시키는 Dropout을 떡칠해 암기(오버피팅)를 완벽히 억제했다.

📢 섹션 요약 비유: LeNet-5는 1990년대에 라이트 형제가 최초로 만든 뼈대만 있는 프로펠러 경비행기입니다. 하늘을 날긴 했지만 무거운 짐을 싣진 못했습니다. AlexNet은 이 낡은 경비행기에 '제트 엔진(GPU)'을 달고, 날개 구조를 공기저항을 안 받는 '초음속 디자인(ReLU)'으로 뜯어고쳐 음속을 돌파해버린 F-16 전투기의 탄생입니다. 이 전투기가 뜨자마자 전 세계의 활(기존 통계학) 쏘던 학자들이 무기를 다 내려놓고 딥러닝으로 갈아타게 되었습니다.

Ⅱ. 깊이와 효율의 대결 (VGGNet & GoogLeNet)

"층을 무식하게 깊게 쌓아야 똑똑해진다! 하지만 컴퓨터 용량은 어떡하지?"

VGGNet (2014) - 무식하지만 우아한 3x3 미니멀리즘:
- "큰 돋보기(필터) 1개로 듬성듬성 보는 것보다, 아주 작은 3x3 돋보기 2개를 겹쳐서 보는 게 공간 정보도 안 찌그러지고 파라미터 개수(컴퓨터 연산량)도 훨씬 아낀다!"
- VGG의 철학은 극단적인 단순함이다. 5x5, 7x7 필터를 다 찢어버리고, 오직 $3 \times 3$ 크기의 작은 필터만 고집하여 층을 16개, 19개까지 예쁘고 규칙적인 샌드위치로 엄청 깊게 쌓아 올렸다. 구조가 너무 예뻐서 오늘날 AI 기초 교재에 1순위로 등장한다.
GoogLeNet (2014) - 인셉션(Inception) 모듈의 파라미터 다이어트:
- 구글은 층을 깊게 쌓으려니 VGGNet처럼 파라미터가 1억 3천만 개로 뚱뚱해져서 램이 터지는 게 싫었다. (구글은 스마트폰에 AI를 넣고 싶었음)
- 인셉션(Inception) 모듈: "필터를 3x3으로 할까, 5x5로 할까 굳이 고민하지 마! 그냥 1x1, 3x3, 5x5 돋보기를 가로로 쫙 찢어서 병렬로 4명한테 동시에 스캔하게 시킨 다음 나중에 하나로 뭉쳐!"
- 1x1 필터 마법: 이 병렬 처리 전에 1x1짜리 특수 돋보기를 먼저 들이대어 데이터의 두께(채널)를 팍 깎아버린 뒤(압축) 연산을 시켰다.
- 결과적으로 VGGNet보다 훨씬 똑똑한데, 파라미터 크기(무게)는 VGG의 1/20인 고작 500만 개밖에 안 되는 미친 경량화 다이어트에 성공했다.

📢 섹션 요약 비유: VGGNet은 거대한 피라미드를 쌓을 때, 큰 바위를 쓰지 않고 작고 예쁜 벽돌(3x3 필터)만 차곡차곡 무식하고 성실하게 19층까지 쌓아 올린 튼튼하지만 엄청 무거운 피라미드입니다. GoogLeNet은 외계인 건축가입니다. 층을 위로만 쌓지 않고, 한 층 안에서 인부 4명(인셉션 병렬)에게 각기 다른 두께의 벽돌을 동시에 붙이게 시켰고, 중간에 텅 빈 특수 압축 파이프(1x1 필터)를 섞어 넣어 덩치는 산만한데 무게(파라미터)는 깃털처럼 가벼운 마법의 빌딩을 지어냈습니다.

Ⅲ. 신의 경지: ResNet (Residual Network)과 152층의 기적

인류의 사진 인식 오류율이 마침내 인간의 눈을 뛰어넘었다.

기울기 소실 (Vanishing Gradient)이라는 거대한 장벽:
- 구글이 22층을 쌓고 우쭐댈 때, 사람들은 "그럼 층을 100층, 1,000층 쌓으면 AI가 신이 되겠네?"라고 시도했다.
- 하지만 층이 50층이 넘어가는 순간 참사가 터졌다. AI가 학습을 하려고 정답지와 오차(Loss)를 계산해 맨 앞단으로 거꾸로 쏴주는데(역전파), 층을 거칠 때마다 오차 신호가 0으로 깎여나가 맨 앞 층 뇌세포는 아무것도 배우지 못하고 뇌사 상태에 빠졌다. (100층짜리 모델이 오히려 20층짜리보다 더 멍청해지는 현상)
ResNet (2015) - 잔차 연결 (Skip Connection / Shortcut) $\star$:
- 마이크로소프트의 카이밍 허(Kaiming He)가 이 장벽을 다이너마이트로 날려버렸다.
- 층과 층 사이에 그냥 무식한 직통 고속도로(우회로) 1개를 허공에 뻥 뚫어버렸다.
- 데이터 $X$가 1번 층, 2번 층을 통과하며 막혀서 바보가 되더라도, 우회로를 타고 온 원본 데이터 $X$ 자체가 2번 층 출구에 냅다 "그대로 더해져(+)" 버린다. $F(X) + X$
152층의 특이점 돌파:
- 이 고속도로(잔차 연결) 덕분에, 맨 뒤에서 쏜 오차(Gradient) 신호가 100개의 층을 통과하지 않고 뻥 뚫린 고속도로를 타고 빛의 속도로 막힘없이 맨 앞단까지 다이렉트로 전달된다.
- 기울기 소실 문제가 지구상에서 완전히 박살 났고, 무려 152층이라는 경이로운 깊이를 안정적으로 학습시키는 데 성공했다. 에러율은 3.5%를 기록하며 인간의 오판율(5%)을 인류 역사상 최초로 완전히 짓밟아버린 위대한 순간이다.

📢 섹션 요약 비유: 산 꼭대기(152층)까지 물을 퍼 올려야 합니다. 옛날 모델은 1번 인부부터 152번 인부까지 물통을 릴레이로 전달했습니다. 중간에 인부들이 지쳐서 물을 다 흘리고, 152번 꼭대기에 도착하면 물이 한 방울도 안 남았습니다(기울기 소실). ResNet의 잔차 연결(Skip Connection)은 1번 인부에서 152번 꼭대기까지 뻥 뚫린 '다이렉트 소방 호스(우회로)'를 그냥 허공에 하나 설치해 버린 겁니다. 중간 인부들이 물을 좀 흘려도, 이 메인 호스를 타고 올라간 강력한 수압의 물(오차 신호)이 152층까지 단 1초도 안 멈추고 콸콸 뿜어져 나와 무한대의 높이까지 층을 쌓을 수 있게 된 딥러닝 10대 발명품 중 하나입니다.