116. 커널 밀도 추정 (KDE, Kernel Density Estimation) - 비모수 확률 밀도 추정

핵심 인사이트 (3줄 요약)

본질: KDE(Kernel Density Estimation)는 히스토그램의 연속적 일반화로, 각 데이터 포인트에 커널 함수(가우시안 등)를 배치하고 합산하여 데이터의 확률 밀도 함수(PDF)를 비모수적으로 추정하는 기법이다.

가치: 히스토그램은 bin 크기에 따라 모양이 크게 달라지고 불연속적이지만, KDE는 매끄러운(Smooth) 연속 곡선으로 밀도를 표현하여 데이터 분포의 진정한 형태를 더 정확하게 파악한다.

판단 포인트: **대역폭(Bandwidth, h)**이 KDE의 유일한 핵심 파라미터이며, h가 너무 작으면 과적합(들쑥날쑥), 너무 크면 과평활(세부 구조 손실)이다. Silverman's Rule로 자동 설정이 일반적.

Ⅰ. 개요 및 필요성

┌───────────────────────────────────────────────────────┐
│    히스토그램 vs KDE 비교                              │
├───────────────────────────────────────────────────────┤
│  [히스토그램]          [KDE]                           │
│   ┌─┐ ┌─┐             ╭──╮                            │
│   │ │ │ │ ┌─┐         │  ╰──╮                         │
│   │ │ │ │ │ │         ╰──╮  │                         │
│   └─┘ └─┘ └─┘           ╰──╯                         │
│   불연속, bin 크기 의존   연속, 매끄러운 곡선          │
└───────────────────────────────────────────────────────┘

📢 섹션 요약 비유: 히스토그램은 막대 그래프(계단)이고, KDE는 매끄러운 산등성이(곡선)이다.

Ⅱ. 아키텍처 및 핵심 원리

KDE 수식

$\hat{f}(x) = \frac{1}{n \cdot h} \sum_{i=1}^{n} K\left(\frac{x - x_i}{h}\right)$

요소	설명
$K$	커널 함수 (가우시안, Epanechnikov 등)
$h$	대역폭 (Bandwidth) — 핵심 파라미터
$x_i$	각 데이터 포인트

대역폭(h)의 영향

h	효과	비유
너무 작음	과적합 (들쑥날쑥)	돋보기로 보기
적절	진정한 분포 반영	적정 거리에서 보기
너무 큼	과평활 (세부 손실)	먼 거리에서 보기

📢 섹션 요약 비유: 대역폭(h)은 카메라 초점이다. 너무 가까우면 노이즈까지 보이고, 너무 멀면 디테일이 사라진다.

Ⅲ. 비교 및 연결

비교	히스토그램	KDE	GMM
유형	비모수	비모수	모수 (가우시안 가정)
연속성	불연속	연속	연속
파라미터	bin 수	h (대역폭)	K, μ, Σ
용도	시각화	밀도 추정·시각화	클러스터링

Ⅳ. 실무 적용 및 기술사 판단

활용 시나리오

이상 탐지: 정상 데이터의 KDE를 추정 → 밀도가 낮은 영역의 데이터 = 이상치.
데이터 시각화: Seaborn kdeplot으로 분포 매끄럽게 시각화.
생성 모델 기초: KDE 자체가 비모수 생성 모델 (밀도에서 샘플링 가능).

Ⅴ. 기대효과 및 결론

KDE는 데이터의 진정한 분포를 비모수적으로 추정하는 가장 직관적이고 유연한 방법이며, 시각화·이상 탐지·밀도 기반 클러스터링(DBSCAN)의 수학적 기반이 된다.

📌 관련 개념 맵

개념	연결 포인트
대역폭 (Bandwidth)	KDE의 핵심 파라미터, 편향-분산 트레이드오프
가우시안 커널	가장 많이 사용되는 커널 함수
히스토그램	KDE의 불연속적 전신
DBSCAN	밀도 기반 클러스터링, KDE와 개념적 연결
GMM	모수적 밀도 추정 (KDE의 대안)

📈 관련 키워드 및 발전 흐름도

[히스토그램 (1891, Pearson) — 불연속 빈도 분포]
    │
    ▼
[KDE (1962, Parzen·Rosenblatt) — 연속 밀도 추정]
    │
    ▼
[Silverman's Rule (1986) — 자동 대역폭 선택]
    │
    ▼
[Fast KDE (2000s~) — FFT 기반 고속 계산]
    │
    ▼
[현재: Seaborn/Matplotlib 기본 시각화 도구]

👶 어린이를 위한 3줄 비유 설명

히스토그램은 막대 그래프로 데이터를 보여주는데, 계단처럼 울퉁불퉁해요.
KDE는 각 데이터에 **작은 종 모양(커널)**을 놓고 합쳐서 매끄러운 곡선을 만들어요.
카메라 초점(대역폭)을 잘 맞추면 데이터의 진짜 모양을 아름답게 볼 수 있답니다!