338. 차원 축소법 PCA (주성분 분석)

핵심 인사이트 (3줄 요약)

본질: PCA(Principal Component Analysis)는 데이터가 가진 수많은 변수(차원) 중에서, 데이터가 가장 넓게 퍼져 있는(분산이 가장 큰) 방향의 축(주성분)을 찾아내어 2~3개의 핵심 차원으로 납작하게 압축하는 수학적 선형 변환 기법이다.

가치: 100개의 변수를 가진 복잡한 데이터를 단 3개의 주성분으로 요약하여 시각화(Visualization)할 수 있게 해주며, 서로 겹치는(상관관계가 높은) 변수들을 제거하여 모델 학습 속도를 폭발적으로 높이고 다중 공선성 폭탄을 해체한다.

판단 포인트: 정보의 손실을 최소화하면서 차원을 줄이는 훌륭한 툴이지만, 새롭게 만들어진 주성분 축(PC1, PC2)은 원본 변수들이 짬뽕된 가상의 축이므로 사람이 그 의미를 직관적으로 해석(Explainability)할 수 없게 되는 치명적인 트레이드오프를 감수해야 한다.

Ⅰ. 개요 및 필요성

쇼핑몰 고객 데이터에 '키', '몸무게', '발 사이즈'라는 3개의 컬럼(3차원)이 있다고 치자. 이 3개는 사실 '신체 크기'라는 하나의 덩어리로 같이 움직인다. 굳이 3개의 변수를 모두 컴퓨터에 넣으면 연산량만 늘어나고, 쓸데없이 변수가 많아지면 모델이 멍청해지는 **'차원의 저주(Curse of Dimensionality)'**에 빠지게 된다.

이 저주를 풀기 위해, "데이터의 흩어짐(분산)을 최대한 훼손하지 않으면서, 3차원의 데이터를 1차원의 선분 위로 그림자처럼 납작하게 찍어 누를 수는 없을까?"라는 질문에서 출발한 것이 **PCA(주성분 분석)**다. 데이터의 특징을 99% 간직한 가장 완벽한 각도의 그림자 축(주성분)을 찾아내는 통계학의 위대한 마법이다.

📢 섹션 요약 비유: 3D로 된 주전자 모형을 사람들에게 보여줄 때, 가장 주전자답게 보이는 각도(손잡이와 주둥이가 다 보이는 옆모습)에서 빛을 비춰 2D 그림자로 벽에 눌러버리는 기술이다.

Ⅱ. 아키텍처 및 핵심 원리

PCA는 데이터의 '공분산 행렬'을 분해하여 주성분(Principal Component)이라는 새로운 직교 축을 찾아낸다.

┌────────────────────────────────────────────────────────┐
│             [ PCA의 차원 축소 작동 파이프라인 ]              │
├────────────────────────────────────────────────────────┤
│ 1. 데이터 중심 맞추기 (Standardization)                 │
│    - 모든 데이터의 평균을 0, 분산을 1로 스케일링             │
│                                                        │
│ 2. 공분산 행렬 (Covariance Matrix) 계산                  │
│    - 변수들끼리 서로 얼마나 같이 변하는지 행렬로 계산        │
│                                                        │
│ 3. 고유값 분해 (Eigenvalue Decomposition)              │
│    - 흩어짐이 가장 큰 방향(고유벡터)과 그 크기(고유값) 도출  │
│                                                        │
│ 4. 주성분 (PC, Principal Component) 선택               │
│    - PC1: 데이터가 가장 길게 뻗은 첫 번째 축 (분산 최대)     │
│    - PC2: PC1과 수직(직교)하면서 두 번째로 분산이 큰 축      │
│    - 누적 기여율(보통 80~90%)을 넘기는 상위 k개만 선택!       │
└────────────────────────────────────────────────────────┘

분산 최대화 (Variance Maximization): PCA의 제1 철학은 "데이터가 쫙 퍼져있는 방향이 곧 가장 정보량이 많은 방향이다"라는 것이다. 데이터가 동그랗게 뭉쳐있으면 구분이 안 되지만, 길게 늘어져 있으면 데이터 간의 특징 구분이 쉽기 때문이다.
직교 (Orthogonal): 두 번째 주성분(PC2)은 반드시 첫 번째 주성분(PC1)과 직각(90도)을 이루어야 한다. 이는 두 변수 간의 상관관계를 강제로 0으로 만들어, 악명 높은 다중 공선성(Multicollinearity)을 완벽하게 소멸시키는 핵심 장치다.
정보 손실 (Information Loss): 차원을 10개에서 2개로 깎으면 필연적으로 버려지는 정보가 생긴다. 이때 PC1과 PC2가 원본 데이터 전체 분산의 몇 %를 보존하고 있는지(설명력)를 꼭 확인해야 한다.

📢 섹션 요약 비유: 피자를 오븐에 넣기 전에 도우를 동그란 공 모양(원본)에서 밀대로 넓게 쫙 펴서(분산 최대화) 빈대떡 모양(2차원)으로 만드는 과정이다. 두께(3차원)는 잃었지만 토핑(정보)은 거의 그대로 살아있다.

Ⅲ. 비교 및 연결

데이터의 차원을 깎아내는 3대 차원 축소 알고리즘의 성격을 비교하면 PCA의 선형적 특징이 드러난다.

비교 항목	PCA (주성분 분석)	LDA (선형 판별 분석)	t-SNE / UMAP
학습 방식	비지도 학습 (정답 라벨 필요 없음)	지도 학습 (정답 라벨 필요함)	비지도 학습
축소의 기준	데이터의 전체 분산(퍼짐)을 최대화	클래스(정답) 간의 거리를 최대화	고차원의 가까운 이웃 관계를 저차원에 보존
선형/비선형	선형 변환 (직선 축 투영)	선형 변환	비선형 변환 (복잡하게 꼬인 데이터)
주요 목적	피처 엔지니어링, 다중 공선성 제거	분류(Classification) 성능 극대화	2D/3D 시각화 (Visualization) 전용

PCA는 정답(Label)이 없는 상태에서 단순히 데이터의 퍼짐만 보고 그림자 축을 정하기 때문에, 만약 불량품(빨간 점)과 정상품(파란 점)이 특정 각도에서 우연히 겹쳐 보인다면(클래스 붕괴), 이 둘을 분류해야 하는 머신러닝의 목적에는 오히려 독이 될 수 있다. 이 약점을 보완하기 위해 나온 것이 정답표를 보고 축을 돌리는 LDA다.

📢 섹션 요약 비유: PCA는 교장 선생님이 "학생들 키와 몸무게가 가장 잘 보이게 줄 서!"라고 퍼뜨려 세우는 것이고, LDA는 담임 선생님이 "청군과 백군(정답)이 안 섞이고 가장 멀리 떨어지게 줄 서!"라고 양옆으로 찢어놓는 것이다.

Ⅳ. 실무 적용 및 기술사 판단

실무 적용 시나리오: 제조 공장의 센서 데이터(온도, 압력, 습도 등 200개 컬럼)를 이용해 설비 고장 예측 AI를 만든다. 센서들이 서로 얽혀 있어(다중 공선성) 학습이 안 될 때, PCA를 돌려 누적 기여율 90%를 달성하는 상위 15개의 주성분(PC1 ~ PC15)만 뽑아낸다. 모델 학습 속도가 10배 빨라지고 과적합(Overfitting)도 방어하는 환상적인 파이프라인이 완성된다.

기술사 판단 포인트 (Trade-off): 기술사는 PCA 도입 시 **'성능'과 '해석력(Explainability)'**이라는 잔인한 트레이드오프를 결단해야 한다.

PCA를 거쳐 만들어진 'PC1'이라는 변수는 원래의 온도, 압력, 습도가 수학적으로 짬뽕된(0.5*온도 + 0.3*압력) 가상의 숫자다.
만약 모델이 "PC1 수치가 비정상이라 설비가 고장 날 것입니다!"라고 예측하면, 현장 작업자는 "그래서 온도를 낮추라는 거야, 압력을 낮추라는 거야?"라고 화를 내게 된다.
따라서 경영진이나 현장에 원인을 '설명'해야 하는 비즈니스(의료, 금융 등)라면, PCA를 절대 쓰지 말고 차라리 성능이 조금 떨어지더라도 VIF를 돌려 원본 변수를 그대로 살리는 변수 선택(Feature Selection) 전략을 채택해야 한다.

📢 섹션 요약 비유: 사과, 바나나, 딸기(원본 변수)를 믹서기에 넣고 갈아서 '과일 주스 1호(PC1)'를 만들었다. 마시기(학습)는 편해졌지만, 누군가 "여기 무슨 과일 들어갔어?"라고 물으면 대답하기 막막해지는 상황과 똑같다.

Ⅴ. 기대효과 및 결론

빅데이터 시대가 열리며 텍스트나 이미지는 수만~수백만 차원(차원의 저주)을 띠게 되었다. PCA는 이 거대한 고차원의 우주를 인간의 뇌와 구형 컴퓨터가 처리할 수 있는 납작한 저차원 공간으로 찌그러뜨리면서도, 우주의 본질(분산)을 잃지 않게 지켜준 데이터 과학의 일등 공신이다.

결론적으로 PCA는 고전적인 통계 기법임에도 불구하고 여전히 모든 데이터 전처리(ETL) 파이프라인의 필수 불가결한 '다이어트 모듈'로 군림하고 있다. 기술사는 PCA가 단순한 압축기가 아니라, 데이터에 낀 거품(다중 공선성과 노이즈)을 걷어내고 정보의 '진짜 뼈대'만 발라내는 가장 우아하고 아름다운 선형대수학의 결정체임을 이해해야 한다.

📢 섹션 요약 비유: 수백 벌의 옷으로 빵빵해진 캐리어(고차원 데이터)를 여행에 다 들고 갈 순 없다. PCA는 이 중에서 가장 겹치지 않고 코디하기 좋은 옷 3벌(주성분)만 딱 골라서 여행 가방을 아주 가볍고 스마트하게 싸주는 마법의 정리법이다.

📌 관련 개념 맵

상위 개념: 차원 축소 (Dimensionality Reduction), 비지도 학습 (Unsupervised Learning)
하위 개념: 고유값 분해 (Eigenvalue Decomposition), 공분산 행렬 (Covariance Matrix), 다중 공선성
연결 개념: LDA (선형 판별 분석), t-SNE / UMAP, 차원의 저주 (Curse of Dimensionality)

👶 어린이를 위한 3줄 비유 설명

로봇에게 100과목짜리 성적표를 주면 숫자가 너무 많아서 머리가 아파요. (차원의 저주)
PCA는 이 100과목을 수학, 국어, 체육 같은 비슷한 것끼리 뭉뚱그려서 딱 3과목짜리 '핵심 요약 성적표'로 만들어주는 마법이에요.
성적표가 엄청나게 가벼워져서 로봇이 빨리 공부할 수 있지만, 대신 "어떤 과목을 제일 잘했어?"라고 물으면 대답하기 헷갈리게 된답니다!