핵심 인사이트 (3줄 요약)
- 본질: LDA(Linear Discriminant Analysis)는 고차원의 데이터를 저차원으로 깎아낼 때, "정답(클래스)이 같은 데이터끼리는 최대한 똘똘 뭉치게 하고, 정답이 다른 데이터끼리는 최대한 멀리 떨어지게" 축을 긋는 지도 학습(Supervised Learning) 기반의 차원 축소 기법이다.
- 가치: 데이터를 단순히 퍼뜨려 놓는 PCA와 달리, '분류(Classification)'라는 뚜렷한 목적을 달성하기 위해 데이터의 클래스 경계를 가장 선명하게 나누어주는 '황금 각도'의 투영 축을 찾아내어 모델의 정확도를 극대화한다.
- 판단 포인트: 정답 라벨(Y)이 반드시 필요하다는 제약이 있으며, "데이터가 정규분포를 따르고 클래스별 공분산이 똑같다"는 엄격한 통계적 가정 하에 작동하므로 가정이 깨지는 복잡한 비선형 데이터에서는 QDA(이차 판별 분석) 등 다른 대안을 찾아야 한다.
Ⅰ. 개요 및 필요성
데이터 과학자가 강아지와 고양이 사진을 구분하는 AI를 만들려 한다. 수만 개의 픽셀(차원)을 줄이기 위해 PCA(주성분 분석)를 돌렸다. PCA는 그저 "가장 넓게 흩어지게" 축을 잡기 때문에, 재수 없으면 강아지와 고양이가 같은 자리에 겹쳐서 투영되어 버릴 수도 있다. 이래서는 차원을 줄인 뒤에 강아지와 고양이를 구별할 수가 없다.
"차원을 줄이더라도, 우리가 풀고 싶은 '분류 문제'의 정답은 명확히 쪼개져야 하지 않을까?" 이 질문에서 탄생한 것이 **LDA(선형 판별 분석)**다. 차원을 찌그러뜨릴 때 정답표(Label)를 커닝하여, 강아지 무리와 고양이 무리가 가장 뚜렷하게 갈라지는 방향으로 스크린을 기울여 그림자를 찍어내는 찰떡같은 기법이다.
📢 섹션 요약 비유: PCA가 운동장에 모인 학생들을 단순히 '가장 길게' 퍼뜨려 줄을 세우는 교장 선생님이라면, LDA는 '남학생과 여학생 무리가 가장 멀리 떨어지도록' 줄을 쪼개어 세우는 체육 선생님이다.
Ⅱ. 아키텍처 및 핵심 원리
LDA의 목적 함수는 피셔(R.A. Fisher)의 두 가지 직관적인 분산 쪼개기 원리에 기반한다.
┌────────────────────────────────────────────────────────┐
│ [ LDA의 차원 축소 및 분류 원리 ] │
├────────────────────────────────────────────────────────┤
│ 1. 클래스 내 분산 (Within-Class Scatter, S_W) │
│ - "같은 팀끼리는 똘똘 뭉쳐라!" │
│ - 빨간 점들끼리의 분산, 파란 점들끼리의 분산을 [최소화] │
│ │
│ 2. 클래스 간 분산 (Between-Class Scatter, S_B) │
│ - "다른 팀끼리는 최대한 멀어져라!" │
│ - 빨간 팀 평균과 파란 팀 평균 사이의 거리를 [최대화] │
│ │
│ 3. 피셔의 판별 기준 (Fisher's Criterion) │
│ - 최대화할 목적 함수 J(w) = (S_B) / (S_W) │
│ - 분모는 작게, 분자는 크게 만드는 최적의 투영 축(w) 도출 │
└────────────────────────────────────────────────────────┘
- 지도 학습 (Supervised Learning): PCA는 데이터 $X$만 보고 계산하지만, LDA는 데이터 $X$와 정답 라벨 $Y$(예: 암 환자/정상인)를 같이 보고 행렬 연산을 수행한다.
- 축소 차원의 한계: LDA가 깎아낼 수 있는 최대 차원의 수는 무조건 **'클래스 개수 - 1'**이다. 만약 강아지, 고양이, 쥐 3개 클래스라면 LDA는 최대 2차원(3-1)까지만 축을 만들 수 있다.
- 분류기 역할 동시 수행: LDA는 차원 축소 모듈로도 쓰이지만, 축을 긋고 나서 선형 경계면을 그려 새로운 데이터를 예측하는 독립적인 머신러닝 분류(Classifier) 모델 자체로도 훌륭하게 작동한다.
📢 섹션 요약 비유: 두 개의 포도송이(데이터 군집)에 손전등 빛을 비출 때, 벽에 비친 두 그림자가 서로 겹치지 않고 가장 멀리 떨어지게 보이도록 손전등의 각도(투영 축)를 이리저리 돌려보는 수학적 조명술이다.
Ⅲ. 비교 및 연결
가장 대표적인 차원 축소 기법인 PCA와 LDA의 목적성 차이를 명확히 구분해야 한다.
| 비교 항목 | PCA (Principal Component Analysis) | LDA (Linear Discriminant Analysis) |
|---|---|---|
| 데이터 활용 | 입력 데이터($X$)만 사용 | 입력 데이터($X$) + 정답 라벨($Y$) 사용 |
| 학습 분류 | 비지도 학습 (Unsupervised) | 지도 학습 (Supervised) |
| 최대 목표 | 전체 데이터의 분산(Variance) 보존 | 클래스(Class) 간의 분리도(Separability) 극대화 |
| 최대 차원 수 | 원본 변수 개수만큼 (제한 없음) | (클래스 수 - 1)개까지만 축소 가능 |
| 활용 시나리오 | 다중 공선성 제거, 압축, 시각화 | 분류 모델의 피처 추출(Feature Extraction), 사전 처리 |
LDA가 선형(Linear) 경계선을 긋는다면, 데이터 클래스별 분산이 다를 때 곡선(Curve) 경계선을 긋도록 진화한 것이 **QDA(Quadratic Discriminant Analysis, 이차 판별 분석)**다. 이는 서포트 벡터 머신(SVM)의 커널 트릭과 유사한 발전 방향을 보인다.
📢 섹션 요약 비유: PCA가 데이터의 '모양(외형)'을 보존하는 데 집착하는 조각가라면, LDA는 데이터의 '소속(출신)'을 구별하는 데 집착하는 출입국 심사관이다.
Ⅳ. 실무 적용 및 기술사 판단
실무 적용 시나리오: 안면 인식(Face Recognition) 시스템에서 가장 고전적이고 널리 쓰였던 피셔페이스(Fisherfaces) 알고리즘이 바로 LDA의 작품이다. 픽셀 수만 개의 사람 얼굴 사진을 넣을 때, 조명이나 표정 변화(같은 사람 내의 분산)는 철저히 뭉개버리고(최소화), 사람과 사람 사이의 얼굴 골격 차이(다른 사람 간의 분산)는 극대화하는 축을 찾아내어 얼굴을 완벽하게 식별해 낸다.
기술사 판단 포인트 (Trade-off): LDA를 실무 파이프라인에 적용할 때는 **'엄격한 통계적 가정'과 '차원 수의 제약'**을 반드시 우회 설계해야 한다.
- LDA는 모든 클래스의 데이터가 예쁜 정규분포를 따르고, 공분산이 똑같다고(둥근 럭비공 모양이 똑같다고) 가정한다. 이 가정이 깨진 찌그러진 데이터(예: 도넛 모양의 데이터)를 넣으면 분류선이 엉망진창으로 그어진다. 이때는 신경망(MLP)이나 트리(Random Forest)로 넘어가야 한다.
- 악성/정상 이진 분류(클래스=2)를 할 때, LDA는 무조건 1차원으로만 데이터를 찌그러뜨린다(2-1=1). 수만 차원의 피처를 1차원으로 줄이면 엄청난 정보 유실(Underfitting)이 발생하므로, 기술사는 1차적으로 PCA를 돌려 노이즈를 뺀 다음, 2차적으로 LDA를 적용하는 PCA+LDA 직렬 파이프라인을 구축하는 것이 실무의 정석이다.
📢 섹션 요약 비유: LDA는 모범생(정규분포)들에게만 아주 잘 통하는 시험 문제다. 불량 학생(비정규분포)이 들어오면 채점이 불가능해지니, PCA라는 과외 선생님을 먼저 붙여서 애들을 좀 둥글둥글하게 다듬어 놓은 뒤에 LDA 시험을 보게 해야 한다.
Ⅴ. 기대효과 및 결론
LDA는 통계학의 대부 로널드 피셔가 1936년에 발표한 이래, 차원 축소와 패턴 인식 분야에서 영원한 클래식으로 자리 잡고 있다. 정답을 미리 알고 있는 지도 학습 환경에서, 컴퓨터가 "어떻게 하면 적군과 아군을 가장 잘 구별할 수 있을까?"를 수학적으로 가장 우아하게 풀어낸 걸작이다.
결론적으로 LDA는 머신러닝의 궁극적 목표인 '클래스 분리도(Separability)'를 차원 축소 단계에서부터 끌어올려 주는 가장 든든한 무기다. 오늘날 딥러닝이 아무리 알아서 픽셀을 추출한다고 해도, 고차원-소표본 데이터(예: 유전자 마이크로어레이 데이터) 환경에서는 여전히 수만 개의 유전자를 선형 대수학으로 깔끔하게 쪼개버리는 LDA의 견고함을 능가하기 어렵다.
📢 섹션 요약 비유: LDA는 전쟁터에서 100만 명의 병사(차원)를 가장 쓸모 있는 3명의 정예 특수부대로 압축시킬 때, 적군과 아군을 구별하는 눈매(클래스 분산)가 가장 예리한 놈들만 골라서 선발하는 최고의 사령관이다.
📌 관련 개념 맵
- 상위 개념: 차원 축소 (Dimensionality Reduction), 지도 학습 (Supervised Learning)
- 하위 개념: 클래스 간 분산 (Between-Class Scatter), 클래스 내 분산 (Within-Class Scatter)
- 연결 개념: PCA (주성분 분석), QDA (이차 판별 분석), 고유값 분해 (Eigen Decomposition)
👶 어린이를 위한 3줄 비유 설명
- 장난감 상자에 자동차와 로봇이 수백 개씩 뒤죽박죽 섞여 있어요.
- PCA는 이 장난감들을 그저 '가장 길게 늘어놓는' 거라면, LDA는 '자동차는 왼쪽, 로봇은 오른쪽'으로 쫙 갈라지도록 책상을 기울이는 마법이에요.
- 정답(자동차냐 로봇이냐)을 커닝해서 가장 구별하기 쉬운 각도로 책상을 기울이니까, 나중에 새 장난감이 들어와도 어디로 굴러갈지 한눈에 알 수 있답니다!