유클리드 거리 vs 맨해튼 거리 (Euclidean vs Manhattan Distance)

핵심 인사이트 (3줄 요약)

유클리드 거리는 두 점 사이의 '최단 직선 거리'를 측정하며, 맨해튼 거리는 축을 따라 이동하는 '격자형 거리'를 측정한다.
데이터의 차원이 높아질수록 거리 측정 방식에 따라 알고리즘(K-NN, Clustering 등)의 결과가 크게 달라질 수 있다.
맨해튼 거리는 이상치(Outlier)에 대해 유클리드 거리보다 상대적으로 덜 민감한(Robust) 특성을 가진다.

Ⅰ. 개요 (Context & Background)

배경: 머신러닝에서 데이터 간의 '유사도'를 판단하기 위해서는 거리를 수치화해야 한다. Minkowski 거리는 이를 일반화한 개념으로, $p=2$일 때 유클리드, $p=1$일 때 맨해튼 거리가 된다.
유클리드 거리: $\sqrt{\sum (x_i - y_i)^2}$, 피타고라스의 정리를 n차원으로 확장한 형태.
맨해튼 거리: $\sum |x_i - y_i|$, 뉴욕 맨해튼의 격자 모양 도로를 따라 걷는 거리에서 유래(Taxi Cab Distance).

Ⅱ. 아키텍처 및 핵심 원리 (Deep Dive)

[ Distance Metric Visualization ]

      (y2) +-------+ (B)
           |       |
    Euclid |    /  | Manhattan
    (Line) |  /    | (Grid)
           |/      |
      (A) +-------+
          (x1)    (x2)

- Euclid: 직선 (Shortest Path)
- Manhattan: 가로 + 세로 (L1 Norm)

Ⅲ. 융합 비교 및 다각도 분석 (Comparison & Synergy)

비교 항목	유클리드 거리 (L2 Norm)	맨해튼 거리 (L1 Norm)
기하학적 의미	두 점 사이의 최단 직선 거리	격자 도로망을 따라 이동하는 거리
이상치 영향	제곱 연산으로 인해 매우 큼	절대값 연산으로 상대적으로 작음
주요 활용	회귀, K-Means, 신경망 가중치	Lasso 회귀, 고차원 데이터, 희소 데이터
차원 이슈	차원의 저주에 더 취약함	고차원 공간에서 구별력이 조금 더 유지됨

Ⅳ. 실무 적용 및 기술사적 판단 (Strategy & Decision)

선택 기준: 데이터 특징이 연속적이고 물리적인 거리가 중요하다면 유클리드 거리를 사용하고, 특징들이 이산적이거나 각 차원이 독립적인 의미를 가질 때는 맨해튼 거리가 적합하다.
데이터 스케일링: 두 거리 모두 '단위'에 민감하므로, 측정 전 표준화(Standardization)나 정규화(Normalization)가 필수적으로 선행되어야 한다.

Ⅴ. 기대효과 및 결론 (Future & Standard)

거리 측정 방식은 추천 시스템, 이미지 검색, 군집 분석 등 거의 모든 AI 기술의 토대이다. 최근에는 고차원 데이터의 특성을 반영하기 위해 코사인 유사도(Cosine Similarity)나 마할라노비스 거리(Mahalanobis Distance)와 혼합하여 사용하는 하이브리드 전략이 표준으로 자리 잡고 있다.

📌 관련 개념 맵 (Knowledge Graph)

부모 개념: 민코프스키 거리(Minkowski Distance), 유사도 측정(Similarity Measure)
자식 개념: L1 정규화(Lasso), L2 정규화(Ridge)
연관 개념: K-NN, K-Means, 차원의 저주(Curse of Dimensionality)

👶 어린이를 위한 3줄 비유 설명

유클리드 거리는 새가 하늘을 날아서 두 지점을 '직선'으로 슝~ 가는 거리예요.
맨해튼 거리는 자동차가 도시의 골목길을 따라 '기역(ㄱ)' 자나 '니은(ㄴ)' 자로 꺾어서 가는 거리예요.
지도를 볼 때 학교까지 얼마나 먼지 재는 방법이 여러 가지가 있다는 뜻이랍니다.