차원의 저주, 고차원 공간, PCA, 임베딩, 과적합
출제 빈도: ★★★★☆ | 기출: ★135회
답안.
Ⅰ. 개요
차원의 저주(Curse of Dimensionality)는 데이터의 차원(특성 수)이 증가함에 따라 데이터 분석에 필요한 샘플 수가 기하급수적으로 증가하고, 거리 함수의 의미가 퇴색되는 현상이다. Bellman(1961)이 동적 프로그래밍 연구에서 최초 명명.
Ⅱ. 핵심 구성요소
I. 차원의 저주 3가지 문제
1) 데이터 희소성 (Sparsity)
- d차원 공간에서 균일 커버리지: 10^d 샘플 필요
- d=10: 10^10 샘플 → 현실 불가능
2) 거리 집중 현상 (Distance Concentration)
고차원에서: max_dist / min_dist → 1
→ 최근접 이웃(K-NN)이 의미 없어짐
직관: d=1에서 가장 가까운 점과 가장 먼 점 차이 크지만
d→∞에서 모든 점이 비슷한 거리
3) 과적합 (Overfitting)
특성 수 >> 샘플 수 → 모델이 노이즈 학습
→ 일반화 성능 저하
II. 수학적 이해
[단위 구의 부피 변화]
d=2: π × r² (원)
d=3: (4/3)π × r³ (구)
d→∞: V_d → 0 (초구의 부피가 0에 수렴!)
→ 고차원에서 데이터가 "껍데기"에만 분포
→ 중심 근처에는 거의 데이터 없음
III. 해결 방법
해당 키워드의 기술적 구성요소와 동작 원리를 서술한다.
### Ⅲ. 특징 및 비교
핵심 기술의 장단점과 유사 기술과의 차이를 분석한다.
### Ⅳ. 적용 사례
실무 환경에서의 적용 사례와 기대효과를 제시한다.
### Ⅴ. 전망
최신 기술 동향과 향후 발전 방향을 서술한다.