4. PCA (Principal Component Analysis) — SVD 기반 차원 축소

핵심 인사이트 (3줄 요약)

본질: PCA (Principal Component Analysis, 주성분 분석) 는 분산을 최대로 보존하는 직교 방향을 순서대로 찾아 고차원 데이터를 저차원으로 투영하는 비지도 차원 축소 기법이다.

가치: 시각화(2D/3D), 노이즈 제거, 다중공선성 해소, 계산 속도 향상을 동시에 달성하며, Eigenfaces(얼굴 인식)부터 유전체 분석까지 적용 범위가 넓다.

판단 포인트: PCA는 선형 차원 축소 — 비선형 구조에는 t-SNE (t-distributed Stochastic Neighbor Embedding), UMAP (Uniform Manifold Approximation) 이 필요하며, PCA가 보존하는 것은 분산(전역 구조)이지 지역 구조가 아님을 기억하라.

Ⅰ. 개요 및 필요성

고차원 데이터의 문제점:

차원의 저주 (Curse of Dimensionality): 차원이 늘수록 밀도 급감, 거리 척도 의미 약화
계산 비용 증가, 시각화 불가, 다중공선성 (Multicollinearity)

PCA는 p차원 데이터를 k < p 차원으로 선형 투영하되, 정보 손실(분산 손실)을 최소화.

PCA 알고리즘 개요

1. 데이터 중심화 (Centering): X̃ = X - mean(X)
2. 공분산 행렬 계산: Σ = X̃ᵀX̃ / (n-1)
3. 고유분해: Σ·V = V·Λ  (또는 SVD: X̃ = UΣVᵀ)
4. 상위 k개 고유벡터(주성분) 선택
5. 투영: Z = X̃·Vₖ  (n×k 행렬)

📢 섹션 요약 비유: PCA는 "데이터 구름의 가장 긴 축 찾기"다 — 찌그러진 타원 모양의 데이터가 있을 때, 가장 긴 방향(1st PC)과 그에 수직인 방향(2nd PC) 순서로 축을 선택한다.

Ⅱ. 아키텍처 및 핵심 원리

PCA 기하적 시각화

원본 2D 데이터               PCA 변환 후
         y                          PC2
    *  * *                      *     *
   * * * *  *               * *    * *
  * * * *                       * *
 * * *                       * * * *
                     ──────►         PC1
x                           (분산 최대 방향)

1st PC (PC1): 데이터 분산 최대화 방향 2nd PC (PC2): PC1에 직교, 다음으로 큰 분산 방향

SVD를 통한 PCA 계산

중심화된 데이터 X̃의 SVD: X̃ = UΣVᵀ

주성분 방향 = Vᵀ의 행 (우 특이벡터)
주성분 점수 = UΣ  (또는 X̃·V)
분산 설명량 = σᵢ² / Σ σⱼ²   (i번째 주성분이 설명하는 분산 비율)

SVD가 공분산 행렬 고유분해보다 수치적으로 더 안정적 → 실무에서 선호.

설명 분산 비율 (Explained Variance Ratio) 시각화

Scree Plot:

분산 설명량 (%)
100 ┤
 90 ┤      ───────────────────── 누적
 80 ┤   ──
 70 ┤ ──
 50 ┤
 20 ┤
  0 └──────────────────────────►
    PC1  PC2  PC3  PC4  PC5  주성분 번호

각 막대: 개별 설명 분산 (σᵢ²/Σσⱼ²)
선: 누적 설명 분산
"엘보우 포인트" → k 선택 기준

일반적으로 누적 80~95% 설명하는 k 선택.

화이트닝 (Whitening)

투영 후 각 주성분의 분산을 1로 정규화:

Z_white = Σ⁻¹/² · Uᵀ · X̃

결과: E[Z_white · Z_whiteᵀ] = I (단위 공분산)

ICA (Independent Component Analysis) 전처리, 신경망 입력 정규화에 활용.

📢 섹션 요약 비유: 화이트닝은 "모든 주성분을 같은 크기로 맞추기"다 — 타원형 데이터 구름을 원형으로 변환해 모든 방향이 동등하게 처리되도록 만든다.

Ⅲ. 비교 및 연결

차원 축소 기법 비교

기법	방식	보존	특징
PCA	선형 변환	전역 분산	빠름, 해석 가능
t-SNE	비선형 확률적	지역 구조	시각화 탁월, 느림
UMAP	비선형 위상적	전역+지역	t-SNE보다 빠름
LDA (Fisher)	지도 선형	클래스 분리	레이블 필요
Autoencoder	비선형 신경망	재구성 오차 최소	유연, 느림

Eigenfaces — 얼굴 인식 PCA 응용

얼굴 이미지 (128×128 = 16,384 픽셀) → PCA:

학습:
  얼굴 이미지 n장 → 행렬 X (n × 16384)
  중심화 → SVD → 상위 k 고유벡터 = "Eigenfaces"

인식:
  새 얼굴 → 동일 중심화 → k차원 투영 = 특징 벡터
  학습 데이터베이스와 유클리드 거리 최소인 얼굴 = 인식 결과

k=50~100개 Eigenface로 수천 명 얼굴 인식 가능 — 차원 16,384 → 100.

다중공선성 처리

회귀 분석에서 독립변수 간 높은 상관관계(다중공선성):

원인: VIF(분산팽창인수) 높음 → 계수 불안정
해결: PCA로 직교 주성분 생성 → 주성분 회귀 (PCR)
     공분산 행렬 소형 고유값 → 해당 주성분 제거

📢 섹션 요약 비유: t-SNE vs PCA는 "전체 지도 vs 동네 상세 지도"다 — PCA가 전체 구조(전역)를 보여주는 대축척 지도라면, t-SNE는 가까운 이웃 관계(지역)를 세밀하게 보여주는 소축척 지도다.

Ⅳ. 실무 적용 및 기술사 판단

ML 파이프라인에서 PCA 활용

원본 데이터 (고차원)
  │
  ▼ 표준화 (StandardScaler) — 스케일 맞추기
  │
  ▼ PCA (n_components = 0.95 분산 설명)
  │  → k 자동 결정 (누적 95% 이상)
  │
  ▼ k차원 데이터
  │
  ▼ 모델 학습 (SVM, 신경망, ...)

유전체 분석 (Genomics) 에서 PCA

단일 뉴클레오타이드 다형성 (SNP, Single Nucleotide Polymorphism) 데이터:

수만 개 SNP × 수만 명 → PCA 적용
1st~3rd PC: 지리적 기원(조상 분포) 시각화
연관 분석에서 집단 층화 (Population Stratification) 보정

기술사 판단 포인트

"PCA와 인코더/디코더 차이는?" → PCA: 선형, 명시적 분산 최적화 / Autoencoder: 비선형, 재구성 오차 최적화
"언제 t-SNE 대신 PCA?" → 대규모 데이터 전처리, 선형 관계 탐색, 역변환(재구성) 필요 시
"PCA 주성분 수 k 결정 방법은?" → Scree plot 엘보우 or 누적 분산 ≥ 90%

📢 섹션 요약 비유: Eigenfaces는 "얼굴을 몇 가지 기본 표정 조합으로 표현"하는 것이다 — "행복 0.7 + 놀람 0.3 + 기쁨 -0.1"처럼 Eigenface 조합이 각 얼굴의 특징 벡터가 된다.

Ⅴ. 기대효과 및 결론

PCA는 데이터 이해와 전처리의 핵심 도구다. 선형 방법의 한계(비선형 구조 미탐지)가 있지만, 빠른 계산, 해석 가능성, 역투영 지원이라는 장점으로 탐색적 분석(EDA)과 전처리에서 여전히 표준이다.

최신 발전:

Kernel PCA: 커널 트릭으로 비선형 확장
Incremental PCA: 미니배치로 메모리 효율
Sparse PCA: 고유벡터에 희소성 제약 → 해석 용이
Randomized SVD: 대규모 행렬의 근사 PCA (Scikit-learn 기본)

📢 섹션 요약 비유: PCA는 "디지털 사진 정리 앱"이다 — 수천 장의 사진(고차원 데이터)에서 "이 사람이 누구인지"를 결정하는 핵심 특징(주성분)만 뽑아내 빠르게 정리한다.

📌 관련 개념 맵

개념	역할	수식
공분산 행렬 Σ	데이터 분산 구조	Σ = XᵀX/(n-1)
주성분 (PC)	분산 최대 직교 방향	Σv = λv
설명 분산 비율	k 선택 기준	σᵢ²/Σσⱼ²
Scree Plot	시각적 k 결정	누적 곡선 엘보우
t-SNE/UMAP	비선형 차원 축소	PCA 후처리/대안

📈 관련 키워드 및 발전 흐름도

[:---]
    │
    ▼
[공분산 행렬 Σ]
    │
    ▼
[주성분 (PC)]
    │
    ▼
[설명 분산 비율]
    │
    ▼
[Scree Plot]
    │
    ▼
[t-SNE/UMAP]

이 흐름도는 :---에서 출발해 t-SNE/UMAP까지 이어지며, 중간 단계가 기초 개념을 실무 구조로 발전시키는 과정을 보여준다.

👶 어린이를 위한 3줄 비유 설명

PCA는 "데이터 구름의 가장 긴 막대기 찾기": 구름 모양의 점 무리에서 가장 길게 늘어진 방향부터 축으로 정한다.
주성분 점수는 "새 좌표": 복잡한 여러 특성을 몇 개의 주성분 점수로 요약해 간단하게 표현.
t-SNE는 "가까운 이웃만 신경 쓰기": PCA가 전체 지도를 그린다면, t-SNE는 내 동네 친구 관계만 정확하게 그린다.