363. 엔트로피 (Entropy) 및 정보 획득량

핵심 인사이트 (3줄 요약)

본질: 엔트로피(Entropy)는 데이터가 얼마나 '뒤죽박죽 섞여 있는지(불확실성)'를 0과 1 사이의 숫자로 측정한 정보량의 척도이며, 이 값이 0이면 한 가지 데이터만 있어 100% 확실하다는 뜻이고, 1이면 반반 섞여 있어 결과를 전혀 알 수 없다는 뜻이다.

가치: 의사결정 트리(Decision Tree)가 스무고개를 할 때, "어떤 질문을 먼저 던져야 집단이 가장 빠르고 깨끗하게 쪼개질까?"를 계산하기 위한 절대적인 수학적 채점 기준이 된다.

판단 포인트: 트리는 부모 노드의 엔트로피에서 자식 노드들의 엔트로피를 뺀 값인 **정보 획득량(Information Gain)**이 가장 커지는(불확실성이 가장 많이 줄어드는) 질문을 최우선 분기 조건(Root Node)으로 자동 채택하여 가지를 뻗어나간다.

Ⅰ. 개요 및 필요성

만약 주머니 속에 빨간 공 100개가 있다면, 눈을 감고 공을 뽑아도 무슨 색일지 100% 안다. 불확실성이 '0'이다. 반면 빨간 공 50개와 파란 공 50개가 섞여 있다면, 뽑을 때마다 무슨 색이 나올지 전혀 예측할 수 없다. 불확실성이 최대('1')가 된다.

정보 이론의 아버지 클로드 섀년(Claude Shannon)은 이 혼돈의 정도를 수학 공식으로 만들고 물리학의 용어를 빌려와 **엔트로피(Entropy)**라고 불렀다. 그리고 이 개념은 머신러닝의 '의사결정 트리(Decision Tree)'에 도입되어, 수많은 질문 중 "가장 먼저 물어봐야 할 최고의 질문"을 찾아주는 완벽한 내비게이션으로 진화했다.

📢 섹션 요약 비유: 방 안이 옷과 쓰레기로 뒤죽박죽 섞여 있으면 엔트로피가 높은 것이고, 종류별로 서랍에 깔끔하게 정리되어 있으면 엔트로피가 낮은 것이다. AI는 이 엔트로피 수치를 0으로 낮추기 위해 끝없이 질문을 던지는 정리 정돈 전문가다.

Ⅱ. 아키텍처 및 핵심 원리

의사결정 트리가 노드(Node)를 쪼갤 때, 엔트로피와 정보 획득량을 계산하는 파이프라인을 따라간다.

┌────────────────────────────────────────────────────────┐
│             [ 엔트로피 기반의 트리 분할 (Splitting) 원리 ]   │
├────────────────────────────────────────────────────────┤
│ 1. 엔트로피 (Entropy) 계산 공식                        │
│    E = - Σ p_i * log₂(p_i)                             │
│    - (p_i는 특정 데이터가 나올 확률)                       │
│    - 반반(0.5) 섞여 있으면 엔트로피는 최대값인 1.0!        │
│                                                        │
│ 2. 정보 획득량 (Information Gain) 계산                 │
│    - IG = (부모의 엔트로피) - (자식 노드들의 평균 엔트로피) │
│    - "질문을 던진 후, 방이 얼마나 더 깨끗해졌는가?"를 측정 │
│                                                        │
│ 3. 최적의 분할 (Best Split) 찾기                       │
│    - 수백 개의 질문(예: 나이>20?, 연봉>3000?)을 던져보고,  │
│      IG 값이 가장 큰 질문을 분기점으로 낙점!                 │
└────────────────────────────────────────────────────────┘

지니 불순도 (Gini Impurity): 엔트로피 공식에는 로그($\log$) 연산이 있어 컴퓨터가 계산하기 무겁다. 그래서 CART 알고리즘(Scikit-learn의 기본 트리)에서는 로그 대신 단순히 제곱을 쓰는 지니 불순도($1 - \sum p_i^2$)를 쓴다. 의미와 결과는 엔트로피와 99% 똑같지만 연산 속도가 훨씬 빠르다.
정보 획득량의 맹점: 아이디(ID)나 주민번호처럼 모든 값이 제각각인 변수로 질문을 던지면, 자식 노드가 무수히 많이 생겨 각 노드에 1명씩만 들어가게 되므로 엔트로피가 0(완벽)이 된다. 이를 막기 위해 정보 획득 비율(Gain Ratio) 등 페널티를 주는 보정 기법이 존재한다.

📢 섹션 요약 비유: 스무고개를 할 때 "너 안경 썼어?"라고 물어서 반이 50:50으로 정확히 쪼개지면 훌륭한 질문(정보 획득량 높음)이지만, "너 혹시 이름이 김철수야?"라고 물어서 1명만 갈라내면 최악의 질문(정보 획득량 낮음)이 된다.

Ⅲ. 비교 및 연결

분류(Classification) 문제를 풀 때 알고리즘별로 '불확실성'을 통제하는 철학을 비교해 본다.

비교 항목	의사결정 트리 (Decision Tree)	로지스틱 회귀 (Logistic Regression)	서포트 벡터 머신 (SVM)
최적화 목표	엔트로피 / 지니 불순도 0으로 만들기	로그 손실(Log Loss) 최소화	마진(Margin) 최대화
작동 원리	질문(IF)을 순차적으로 쪼개어 그룹화	확률 곡선(시그모이드)에 피팅	수학적 선(초평면) 긋기
비선형 모델링	매우 잘함 (계단식 경계선 생성)	못함 (직선)	커널 트릭으로 가능
해석력	100% 화이트박스 (누구나 이해 가능)	수식으로 해석 가능	블랙박스에 가까움

엔트로피 개념은 단순히 트리를 쪼개는 것을 넘어, 딥러닝에서 두 확률 분포의 차이를 계산하는 **교차 엔트로피 손실 함수(Cross-Entropy Loss)**로 완벽하게 핏줄이 이어진다.

📢 섹션 요약 비유: 딥러닝(교차 엔트로피)이 "AI가 찍은 정답(확률)과 실제 정답이 얼마나 다른지" 채점하는 거라면, 트리(엔트로피)는 "학생들이 비슷한 애들끼리 얼마나 잘 모여있는지" 채점하는 것이다. 결국 둘 다 '정답의 혼돈 상태'를 수치화한 것이다.

Ⅳ. 실무 적용 및 기술사 판단

실무 적용 시나리오: 은행에서 '대출 심사 시스템'을 구축한다. 트리 모델이 최상단 뿌리 노드(Root Node)에서 "과거 연체 횟수 > 2회?"라는 질문을 가장 먼저 던졌다. 이 질문의 정보 획득량이 가장 높았기 때문이다. 영업점 직원은 이 트리 그림을 출력하여 벽에 붙여놓고, 고객이 오면 "연체 횟수 2회, 연봉 3천 이하" 등의 노드를 눈으로 따라가며 대출 승인/거절을 설명한다. 완벽한 XAI(설명 가능한 AI)의 현업 적용 사례다.

기술사 판단 포인트 (Trade-off): 엔트로피를 기반으로 트리를 끝까지 키우다 보면 **'과적합(Overfitting)의 절벽'**에 부딪히게 되므로 이를 막는 아키텍처 제어가 필수다.

엔트로피를 완벽히 0으로 만들 때까지(노드에 데이터가 1개만 남을 때까지) 나무를 기르면, 과거의 데이터만 달달 외워버리는 최악의 과적합 모델이 탄생한다.
따라서 기술사는 사전에 max_depth(나무 깊이 제한)를 5 정도로 막아두거나, min_samples_leaf(마지막 잎사귀에 최소 10명은 있어야 함)를 설정하는 사전 가지치기(Pre-pruning) 하이퍼파라미터를 세팅하여 적당한 엔트로피(오류)를 남겨두는 관용을 베풀어야 한다.

📢 섹션 요약 비유: 청소를 할 때 방바닥의 먼지 한 톨(엔트로피 0)까지 다 치우겠다고 집착하면, 청소하는 데 며칠이 걸리고 나중에 친구가 찾아와 먼지를 하나 흘리면 기절해 버린다. 적당히 큰 쓰레기만 줍고(가지치기) 멈춰야 건강한 삶(일반화)이 가능하다.

Ⅴ. 기대효과 및 결론

엔트로피(Entropy)는 애매모호한 '순수도'와 '혼잡도'라는 개념을 숫자로 명확하게 정의하여, 인간의 스무고개 놀이를 기계의 논리적 탐색 알고리즘으로 진화시킨 천재적인 발명품이다.

결론적으로 단일 의사결정 트리의 엔트로피 연산은 현대 앙상블 학습(랜덤 포레스트, XGBoost)을 쌓아 올리는 가장 튼튼한 기본 벽돌(Base Learner)이다. 기술사는 아무리 화려한 딥러닝이 판을 쳐도, 가장 인간 친화적이고 직관적으로 비즈니스 룰(Rule)을 추출해 낼 수 있는 화이트박스 알고리즘으로서 트리와 엔트로피의 가치를 절대 잊어서는 안 된다.

📢 섹션 요약 비유: 엔트로피 공식은 수십만 명의 인파 속에서 "빨간 옷 입은 사람 나와!"라는 한마디의 질문으로 범인을 가장 빨리 찾아내기 위해, 어떤 질문을 먼저 던져야 하는지를 알려주는 마법의 수사 매뉴얼이다.

📌 관련 개념 맵

상위 개념: 의사결정 트리 (Decision Tree), 정보 이론 (Information Theory)
하위 개념: 지니 불순도 (Gini Impurity), 정보 획득량 (Information Gain)
연결 개념: Cross-Entropy (교차 엔트로피), 랜덤 포레스트, XAI (설명 가능한 AI)

👶 어린이를 위한 3줄 비유 설명

장난감 상자에 로봇, 인형, 블록이 마구 섞여 있으면 어떤 장난감이 나올지 알 수 없죠? 이때가 엔트로피(혼돈)가 100점인 상태예요.
상자를 "로봇만 있는 상자", "인형만 있는 상자"로 완벽하게 정리하면, 엔트로피(혼돈)가 0점이 되어서 마음이 편안해져요.
인공지능은 이 혼돈 점수(엔트로피)를 0점으로 만들기 위해, 계속해서 "이건 파란색이야?", "이건 바퀴가 있어?"라고 질문을 던지며 똑똑하게 정리를 해 나가는 거랍니다!