99. 특성 맵 (Feature Map) / 액티베이션 맵
⚠️ 이 문서는 이미지 인식(CNN) 모델의 돋보기(필터/커널)가 원본 고양이 사진을 쾅쾅 찍으며 훑고 지나간 직후, 원본의 무의미한 픽셀 색상들은 싹 다 증발해 버리고 오직 '가로선', '세로선', '귀 모양' 같은 AI가 중요하다고 생각하는 핵심 힌트(특징)들만 마치 형광펜이 칠해진 암호 지도처럼 쭈글쭈글하게 압축되어 튀어나오는 결과물인 '특성 맵(Feature Map)'의 정체와 그 생명주기를 다룹니다.
핵심 인사이트 (3줄 요약)
- 본질: 필터(Filter)가 원본 이미지와 짝짜꿍(합성곱 연산)을 해서 만들어낸 '새로운 형태의 요약본 도화지'다. 인간의 눈에는 알아볼 수 없는 흑백의 얼룩 덩어리로 보이지만, 기계의 눈에는 고양이의 테두리와 수염 위치가 번쩍거리는 완벽한 단서 지도다.
- 가치: 100만 화소짜리 복잡한 원본 사진 1장을 그대로 뇌(신경망)로 보내면 과부하가 걸리지만, 이 특성 맵은 핵심 정보만 꾹꾹 눌러 담은 정수(엑기스)이기 때문에, 층이 깊어질수록 데이터 용량은 줄어들면서도 의미(Meaning)는 더 고차원적으로 증폭되는 마법을 부린다.
- 기술 체계: 단순히 필터를 곱해서 나온 쌩얼 지도는 선형적이라 맛이 없으므로, 그 위에 ReLU 같은 활성화 함수(Activation Function) 물감을 부어 음수(-)를 제거해버린 완성본 지도를 **'액티베이션 맵(Activation Map)'**이라고 부르며, 이 수백 장의 맵들이 모여 겹겹의 채널(Channel)을 형성한다.
Ⅰ. 특성 맵의 탄생: 원본의 멸망과 특징의 부각
기계는 색깔에 관심이 없다. 오직 '경계선'과 '패턴'에만 반응한다.
- 합성곱(Convolution)의 결과물:
- $10 \times 10$ 크기의 강아지 흑백 사진이 있다.
- 여기에 '가로선'을 기가 막히게 찾아내는 $3 \times 3$ 필터 도장을 찍으며(Stride=1) 쭉 훑는다.
- 연산이 끝나면, 원본 강아지 사진은 사라지고 새로운 $8 \times 8$ 크기의 새로운 도화지가 툭 떨어진다. 이 도화지의 숫자들을 색깔로 변환해 눈으로 보면, 강아지의 몸통 색깔은 다 까맣게(0) 죽어버리고, 강아지 귀와 턱의 가로 테두리 부분만 하얗게(100) 번쩍번쩍 빛나고 있다. 이것이 바로 특성 맵(Feature Map)이다.
- 다중 필터와 채널의 폭발:
- 그런데 고양이를 구별하려면 가로선 1개만 봐선 안 된다. 세로선, 대각선, 동그라미, 털의 질감 등 수십 개의 단서가 필요하다.
- 그래서 CNN 1번 층에 필터 도장을 무려 '64개'나 서로 다른 모양으로 세팅해서 동시에 훑게 시킨다.
- 결과적으로 원본 사진 1장을 넣었더니, 가로선 지도 1장, 세로선 지도 1장, 질감 지도 1장... 총 **64장의 두꺼운 책(64 Channel의 Feature Map 뭉치)**이 되어 다음 층으로 넘어간다.
📢 섹션 요약 비유: 복잡한 범죄 현장(원본 사진)에 64명의 전문 감식반(필터)이 들어갑니다. 혈흔 전문가는 혈흔만 형광펜으로 칠한 투명 필름(특성 맵)을 내놓고, 족적 전문가는 발자국 위치만 칠한 투명 필름 1장을 냅니다. 이 64장의 얇은 요약 필름들을 차곡차곡 포개어 책으로 철해 놓은 것(다채널 Feature Map)이 바로 1층 검색을 마친 AI의 수사 브리핑 자료입니다. 원본 현장은 치워버려도, 이 64장의 필름만 있으면 범인의 완벽한 윤곽을 잡아낼 수 있습니다.
Ⅱ. 액티베이션 맵(Activation Map)으로의 진화
필터가 찾아낸 증거들 중, 확실한 놈만 살리고 애매한 놈은 죽인다.
- 마이너스(-) 값의 무의미함:
- 필터 도장을 꽝꽝 찍어서 나온 쌩얼 지도의 숫자들을 보면
+150,-40,0등 중구난방이다. - 양수(+)는 "내가 찾는 세로선이 여기 확실히 있다!"는 강한 확신이지만, 음수(-)는 "내가 찾는 패턴이랑 완전 반대되는데?"라는 뜻이다. AI 입장에서는 음수는 쓸모없는 쓰레기 데이터에 불과하다.
- 필터 도장을 꽝꽝 찍어서 나온 쌩얼 지도의 숫자들을 보면
- ReLU 물감 붓기 (비선형성 부여):
- 뽑혀 나온 쌩얼 특성 맵 위에 ReLU (0 이하는 무조건 0으로 뭉개고, 양수는 그대로 살리는 함수)라는 활성화 함수를 촥 들이붓는다.
- 음수(-40)였던 잡음(Noise) 픽셀들이 싹 다 새까만 색(0)으로 죽어버린다.
- 오직 필터와 찰떡같이 반응했던 강력한 양수(150)들, 즉 '진짜 확실한 특징(테두리)' 픽셀들만 하얗게 번쩍번쩍 살아남아, 극도의 대비를 이루는 완벽한 **액티베이션 맵(Activation Map)**으로 최종 진화한다. (이때부터 맵은 선형을 벗어나 인간 뇌처럼 복잡한 비선형의 지능을 갖게 된다.)
📢 섹션 요약 비유: 금속 탐지기(필터)로 훑어서 나온 1차 지도(쌩얼 특성 맵)에는 "진짜 금화 100%" 신호뿐만 아니라 "콜라 캔 알루미늄 -40%" 같은 쓰레기 신호도 지저분하게 찍혀 있습니다. 여기에 ReLU라는 강력한 필터 안경(활성화 함수)을 끼고 지도를 다시 봅니다. 쓰레기 마이너스 신호들은 눈앞에서 까맣게 다 지워져 버리고(0), 오직 번쩍이는 진짜 황금(특징) 위치만 뚜렷하게 남는 눈부신 액티베이션 맵이 완성되는 통쾌한 노이즈 제거 과정입니다.
Ⅲ. 층(Layer)이 깊어질수록 벌어지는 마법
초반엔 껍데기(선)만 보다가, 뒤로 갈수록 본질(개념)을 깨닫는다.
- 얕은 층 (Low-level Features):
- CNN의 첫 1번, 2번 층에서 뽑혀 나온 특성 맵들을 사람이 화면에 띄워보면 놀랍게도 이해할 수 있다.
- 원본 사진에서 단순히 모서리 테두리(Edge), 색깔의 대비, 단순한 선 같은 원초적인 기하학적 흔적만 추출되어 있기 때문이다. (마치 스케치 앱 필터를 먹인 사진처럼 보인다.)
- 깊은 층 (High-level Features):
- 층이 10개, 50개, 100개로 미친 듯이 깊어진 곳(네트워크 뒷단)의 특성 맵을 모니터에 띄워보면 사람은 경악한다. 그냥 모자이크가 깨진 의미 없는 잿빛 블록 덩어리로만 보인다.
- 하지만 AI에게 이 깊은 층의 맵은 "고양이의 눈", "자동차의 타이어", "사람의 코" 같은 고도로 추상화된 핵심 의미(Concept) 덩어리다.
- 앞 층에서 찾은 얇은 '선'들을 겹겹이 뭉치고 조합해서 뒷단에서는 '형태와 의미'라는 차원 높은 지능(Representation)으로 응축해 낸 결과물이다.
📢 섹션 요약 비유: 유치원생(1번 층)이 강아지 사진을 묘사한 종이(특성 맵)에는 "까만 동그라미 두 개랑 세모가 있어요"라고 눈에 보이는 선(Low-level) 그대로 그려져 있습니다. 하지만 위대한 시인(100번 층)이 강아지를 묘사한 종이에는 사진 그대로의 모습은 하나도 없고, "충성스러움, 복슬복슬한 온기, 주인을 기다리는 눈동자"라는 형태를 초월한 본질적 개념(High-level)만 응축된 단어 덩어리로 쓰여 있습니다. CNN은 층이 깊어질수록 픽셀의 껍데기를 버리고 영혼(의미)을 추출해 내는 고도의 추상화 기계입니다.