핵심 인사이트 (3줄 요약)
- 유클리드 거리는 두 점 사이의 '최단 직선 거리'를 측정하며, 맨해튼 거리는 축을 따라 이동하는 '격자형 거리'를 측정한다.
- 데이터의 차원이 높아질수록 거리 측정 방식에 따라 알고리즘(K-NN, Clustering 등)의 결과가 크게 달라질 수 있다.
- 맨해튼 거리는 이상치(Outlier)에 대해 유클리드 거리보다 상대적으로 덜 민감한(Robust) 특성을 가진다.
Ⅰ. 개요 (Context & Background)
- 배경: 머신러닝에서 데이터 간의 '유사도'를 판단하기 위해서는 거리를 수치화해야 한다. Minkowski 거리는 이를 일반화한 개념으로, $p=2$일 때 유클리드, $p=1$일 때 맨해튼 거리가 된다.
- 유클리드 거리: $\sqrt{\sum (x_i - y_i)^2}$, 피타고라스의 정리를 n차원으로 확장한 형태.
- 맨해튼 거리: $\sum |x_i - y_i|$, 뉴욕 맨해튼의 격자 모양 도로를 따라 걷는 거리에서 유래(Taxi Cab Distance).
Ⅱ. 아키텍처 및 핵심 원리 (Deep Dive)
[ Distance Metric Visualization ]
(y2) +-------+ (B)
| |
Euclid | / | Manhattan
(Line) | / | (Grid)
|/ |
(A) +-------+
(x1) (x2)
- Euclid: 직선 (Shortest Path)
- Manhattan: 가로 + 세로 (L1 Norm)
Ⅲ. 융합 비교 및 다각도 분석 (Comparison & Synergy)
| 비교 항목 | 유클리드 거리 (L2 Norm) | 맨해튼 거리 (L1 Norm) |
| 기하학적 의미 | 두 점 사이의 최단 직선 거리 | 격자 도로망을 따라 이동하는 거리 |
| 이상치 영향 | 제곱 연산으로 인해 매우 큼 | 절대값 연산으로 상대적으로 작음 |
| 주요 활용 | 회귀, K-Means, 신경망 가중치 | Lasso 회귀, 고차원 데이터, 희소 데이터 |
| 차원 이슈 | 차원의 저주에 더 취약함 | 고차원 공간에서 구별력이 조금 더 유지됨 |
Ⅳ. 실무 적용 및 기술사적 판단 (Strategy & Decision)
- 선택 기준: 데이터 특징이 연속적이고 물리적인 거리가 중요하다면 유클리드 거리를 사용하고, 특징들이 이산적이거나 각 차원이 독립적인 의미를 가질 때는 맨해튼 거리가 적합하다.
- 데이터 스케일링: 두 거리 모두 '단위'에 민감하므로, 측정 전 표준화(Standardization)나 정규화(Normalization)가 필수적으로 선행되어야 한다.
Ⅴ. 기대효과 및 결론 (Future & Standard)
- 거리 측정 방식은 추천 시스템, 이미지 검색, 군집 분석 등 거의 모든 AI 기술의 토대이다. 최근에는 고차원 데이터의 특성을 반영하기 위해 코사인 유사도(Cosine Similarity)나 마할라노비스 거리(Mahalanobis Distance)와 혼합하여 사용하는 하이브리드 전략이 표준으로 자리 잡고 있다.
📌 관련 개념 맵 (Knowledge Graph)
- 부모 개념: 민코프스키 거리(Minkowski Distance), 유사도 측정(Similarity Measure)
- 자식 개념: L1 정규화(Lasso), L2 정규화(Ridge)
- 연관 개념: K-NN, K-Means, 차원의 저주(Curse of Dimensionality)
👶 어린이를 위한 3줄 비유 설명
- 유클리드 거리는 새가 하늘을 날아서 두 지점을 '직선'으로 슝~ 가는 거리예요.
- 맨해튼 거리는 자동차가 도시의 골목길을 따라 '기역(ㄱ)' 자나 '니은(ㄴ)' 자로 꺾어서 가는 거리예요.
- 지도를 볼 때 학교까지 얼마나 먼지 재는 방법이 여러 가지가 있다는 뜻이랍니다.