135. CNN (Convolutional Neural Network) - 합성곱 신경망의 구조와 원리

핵심 인사이트 (3줄 요약)

본질: CNN은 합성곱(Convolution) 연산으로 입력의 지역적 패턴(엣지·텍스처·형태)을 계층적으로 추출하는 신경망이며, 이미지·영상 처리의 핵심 아키텍처이다.

가치: 전결합층(FC)은 이미지를 1D로 펼쳐 공간 정보를 잃지만, CNN은 **2D 구조를 유지하며 파라미터를 공유(가중치 공유)**하여 효율적으로 학습한다.

판단 포인트: Conv→ReLU→Pool의 반복이 기본 구조이며, AlexNet→VGGNet→ResNet→EfficientNet의 발전과 함께 Vision Transformer(ViT)가 대안으로 부상했다.

Ⅰ. 개요 및 필요성

CNN 구조: [Conv → ReLU → Pool] × N → FC → Softmax
  Conv: 필터(커널)로 지역 특징 추출
  Pool: 다운샘플링 (Max/Average)
  FC:   분류 출력

📢 섹션 요약 비유: CNN은 돋보기로 그림을 부분적으로 훑으며 패턴을 찾는 것이다. 전체를 한 번에 보는 것보다 효율적이다.

Ⅱ~Ⅴ. 결론

CNN은 컴퓨터 비전의 기본 아키텍처이며, ResNet의 Skip Connection이 딥러닝 심화의 돌파구였다.

📌 관련 개념 맵

개념	연결 포인트
Conv	합성곱 (패턴 추출)
Pool	다운샘플링
ResNet	Skip Connection
EfficientNet	효율적 스케일링
ViT	Vision Transformer (대안)

📈 관련 키워드 및 발전 흐름도

[LeNet (1998)] → [AlexNet (2012, ImageNet 우승)]
    → [VGGNet (2014)] → [ResNet (2015, Skip Connection)]
    → [EfficientNet (2019)] → [ViT (2020, Transformer 기반)]
    → [현재: ConvNeXt — CNN의 반격]

👶 어린이를 위한 3줄 비유 설명

CNN은 돋보기로 그림의 부분을 하나씩 살펴보는 거예요.
먼저 **선(엣지)**을 찾고, 다음에 모양(형태), 마지막에 **물체(고양이!)**를 인식해요.
사진 인식·얼굴 인식 등 눈(비전) 관련 AI의 핵심이에요!