핵심 인사이트 (3줄 요약)
- 본질: DBSCAN(Density-Based Spatial Clustering of Applications with Noise)은 데이터 밀도가 높은 영역을 클러스터로 묶고, 밀도가 낮은 영역의 데이터를 **노이즈(이상치)**로 자동 분리하는 밀도 기반 클러스터링 알고리즘이다.
- 가치: K-Means가 K(클러스터 수)를 사전 지정해야 하고 원형 클러스터만 탐지하는 반면, DBSCAN은 K를 자동 결정하고 비구형(초승달·고리 형태) 클러스터도 탐지하며 노이즈를 자동 분리한다.
- 판단 포인트: 두 파라미터 **ε(epsilon, 반경)**과 **MinPts(최소 이웃 수)**가 결과를 결정하며, ε이 너무 크면 모든 데이터가 1개 클러스터, 너무 작으면 모두 노이즈가 되는 민감성이 있다.
Ⅰ. 개요 및 필요성
┌───────────────────────────────────────────────────────┐
│ DBSCAN 핵심 개념 │
├───────────────────────────────────────────────────────┤
│ ε-이웃(ε-Neighborhood): 반경 ε 안의 데이터 │
│ │
│ Core Point: ε 안에 MinPts개 이상 이웃이 있는 점 │
│ Border Point: Core의 ε 안에 있지만 자신은 Core 아닌 │
│ Noise: Core도 Border도 아닌 점 → 이상치! │
│ │
│ [Core]─────[Core]─────[Core] ← 클러스터 1 │
│ │ │ │
│ [Border] [Border] │
│ │
│ · (Noise) │
└───────────────────────────────────────────────────────┘
- 📢 섹션 요약 비유: DBSCAN은 사람이 모인 곳(밀도 높은 영역)을 "파티(클러스터)"로 인식하고, 혼자 떨어진 사람은 "방관자(노이즈)"로 분류하는 알고리즘이다.
Ⅱ. 아키텍처 및 핵심 원리
DBSCAN vs K-Means
| 비교 | K-Means | DBSCAN |
| K 지정 | 필수 | 자동 결정 |
| 클러스터 형태 | 원형 | 비구형 (자유 형태) |
| 노이즈 처리 | 없음 (강제 할당) | 자동 분리 |
| 파라미터 | K | ε, MinPts |
| 밀도 변화 | 대응 불가 | 대응 불가 (HDBSCAN으로 해결) |
- 📢 섹션 요약 비유: K-Means는 사전에 "3개 그룹으로 나눠!"라고 명령하는 것이고, DBSCAN은 "알아서 모인 사람끼리 그룹 짓고, 혼자 있는 사람은 제외해"라고 하는 것이다.
Ⅲ. 비교 및 연결
| 비교 | K-Means | DBSCAN | HDBSCAN |
| K 지정 | 필수 | 불필요 | 불필요 |
| 밀도 변화 | 대응 불가 | 대응 불가 | 대응 가능 |
| 노이즈 | 없음 | ✅ | ✅ |
| 속도 | O(nK) | O(n log n) | O(n log n) |
Ⅳ. 실무 적용 및 기술사 판단
ε·MinPts 설정 가이드
- ε: k-distance 그래프의 "팔꿈치(elbow)" 지점.
- MinPts: 일반적으로
2 × 차원 수. 2D → MinPts=4.
활용 시나리오
- 지리적 클러스터링: GPS 좌표로 상점 밀집 지역 탐지.
- 이상 탐지: 네트워크 트래픽에서 정상 패턴 밖 접근 = 노이즈(공격).
Ⅴ. 기대효과 및 결론
DBSCAN은 K-Means가 실패하는 비구형·노이즈 혼재 데이터에서 강력하며, HDBSCAN으로 확장하면 밀도 변화까지 대응 가능하다.
📌 관련 개념 맵
| 개념 | 연결 포인트 |
| Core Point | ε 내 MinPts 이상 이웃을 가진 핵심 점 |
| Noise | 어떤 클러스터에도 속하지 않는 이상치 |
| ε (epsilon) | 이웃 탐색 반경, 민감 파라미터 |
| HDBSCAN | DBSCAN의 밀도 변화 대응 확장 |
| K-Means | 원형·K 지정 클러스터링 (비교 대상) |
📈 관련 키워드 및 발전 흐름도
[K-Means (1957) — 원형 클러스터, K 지정]
│
▼
[DBSCAN (1996, Ester & Kriegel) — 밀도 기반, 노이즈 분리]
│
▼
[OPTICS (1999) — 가변 밀도 대응]
│
▼
[HDBSCAN (2013) — 계층적 밀도 기반, ε 자동]
│
▼
[현재: 딥 클러스터링 — Autoencoder + DBSCAN 결합]
👶 어린이를 위한 3줄 비유 설명
- K-Means는 "3개 그룹으로 나눠!"라고 미리 정해야 해요.
- DBSCAN은 사람이 많이 모인 곳을 자동으로 그룹으로 묶고, 혼자 있는 사람은 따로 빼요 (노이즈).
- 그래서 초승달 모양 같은 이상한 모양의 그룹도 잘 찾아낼 수 있답니다!