356. 불균형 데이터 처리 (Imbalanced Data)

핵심 인사이트 (3줄 요약)

본질: 신용카드 사기나 암 진단처럼 정상 데이터가 99.9%이고 불량 데이터가 0.1%인 극단적인 '불균형 데이터(Imbalanced Data)' 상황에서, AI 모델이 소수의 정답을 맞추는 법을 잊어버리고 "무조건 전부 다 정상이다!"라고 찍어버리는 바보 현상을 막기 위한 데이터 전처리 기법이다.

가치: 넘쳐나는 다수(Majority) 데이터를 쳐내거나, 모자라는 소수(Minority) 데이터를 복제하는 리샘플링(Resampling) 과정을 통해 모델에게 두 집단의 중요도를 공평하게 맞춰주어, 비즈니스에서 진짜로 찾아야 하는 0.1%의 '치명적 타겟'을 잡아낼 수 있게 한다.

판단 포인트: 다수를 쳐내는 '언더샘플링(Undersampling)'은 귀중한 데이터를 잃어버리는 정보 유실 리스크가 있고, 소수를 늘리는 '오버샘플링(Oversampling)'은 똑같은 데이터를 복제하다가 과적합(Overfitting)에 빠질 수 있으므로, 두 기법을 섞거나 비용 민감 학습(Cost-sensitive Learning)으로 우회하는 판단이 필요하다.

Ⅰ. 개요 및 필요성

공장에서 만들어지는 제품의 99%는 정상이고, 1%만 불량이다. 이 100만 개의 데이터를 그대로 머신러닝에 넣으면 어떻게 될까? 컴퓨터는 아주 약은 꼼수를 부린다. 불량의 특징을 복잡하게 공부하는 대신, 제품이 들어올 때마다 묻지도 따지지도 않고 "100% 정상입니다!"라고 대답해 버린다. 이렇게 찍기만 해도 모델의 '정확도(Accuracy)'가 무려 99%가 나오기 때문이다.

하지만 공장 사장님이 원하는 것은 99%의 뻔한 정상을 맞추는 것이 아니라, 1%의 불량을 찾아내어 대형 사고를 막는 것이다. AI가 숫자의 횡포에 짓눌려 소수의 목소리를 묵살하는 현상, 이 **'불균형 데이터(Imbalanced Data)'**의 덫을 부수기 위해 데이터의 저울을 강제로 맞춰주는(Re-balancing) 튜닝 기법들이 머신러닝 파이프라인의 필수 관문으로 자리 잡았다.

📢 섹션 요약 비유: 99명의 백인과 1명의 흑인 얼굴을 보여주며 "사람 얼굴을 외워봐"라고 AI에게 시키면, AI는 백인의 특징만 외운 채 흑인은 사람이 아니라고 착각해 버린다. 그래서 흑인 사진 99장을 복사해서 100:100으로 수를 맞춰놓고 가르치는 것이다.

Ⅱ. 아키텍처 및 핵심 원리

데이터 불균형을 잡는 방법은 크게 '데이터 자체를 조작하는 방법(Resampling)'과 '모델의 알고리즘에 페널티를 주는 방법(Algorithm-level)'으로 나뉜다.

┌────────────────────────────────────────────────────────┐
│             [ 불균형 데이터 처리의 3대 파이프라인 ]          │
├────────────────────────────────────────────────────────┤
│ 1. 언더샘플링 (Undersampling)                          │
│    - 넘쳐나는 정상 데이터 중 일부만 남기고 나머지를 버림!     │
│    - 결과: 정상 100개 vs 불량 100개 (데이터 총량 대폭 감소)  │
│                                                        │
│ 2. 오버샘플링 (Oversampling)                           │
│    - 모자라는 불량 데이터를 복사기처럼 복제해서 늘림!         │
│    - 단순 복제 방식과, 유사하게 합성해 내는 방식(SMOTE) 존재 │
│    - 결과: 정상 1만 개 vs 불량 1만 개 (데이터 총량 증가)     │
│                                                        │
│ 3. 비용 민감 학습 (Cost-sensitive Learning)            │
│    - 데이터 건수는 그대로 두되, 오답의 '벌금'을 다르게 매김    │
│    - "정상을 불량으로 오해하면 벌금 1점,                     │
│       불량을 정상으로 놓치면 벌금 100점을 때린다!"            │
└────────────────────────────────────────────────────────┘

언더샘플링의 한계 (정보 유실): 다수 클래스의 데이터를 랜덤하게 버리기 때문에, 그 버려진 데이터 안에 들어있던 소중한 경계선(Boundary) 정보가 몽땅 날아가 예측 성능이 오히려 곤두박질칠 수 있다.
오버샘플링의 한계 (과적합): 소수 데이터를 그냥 (Ctrl+C, Ctrl+V)로 복사하면, 모델은 똑같은 사진만 계속 보게 되어 그 특정 사진들만 완벽하게 외우고 변형된 데이터는 못 맞추는 끔찍한 과적합(Overfitting)에 빠진다.

📢 섹션 요약 비유: 부자와 가난한 자의 목소리를 공평하게 들으려고, 부자들을 투표장에서 쫓아내거나(언더샘플링), 가난한 사람들에게 투표용지를 100장씩 쥐여주거나(오버샘플링), 아니면 가난한 사람 1명의 표를 100표로 쳐주는 룰(비용 민감 학습)을 만드는 것이다.

Ⅲ. 비교 및 연결

데이터 불균형 상황에서 머신러닝 평가지표(Metric)를 어떻게 봐야 하는지 비교하는 것이 가장 중요하다. 이 상황에서는 흔히 쓰이는 '정확도(Accuracy)'가 절대적인 사기가 되기 때문이다.

비교 항목	정확도 (Accuracy)	정밀도 (Precision)	재현율 (Recall)	F1-Score
의미	전체 중에 맞춘 비율	내가 불량이라고 찍은 것 중 진짜 불량의 비율	실제 불량 중에서 내가 불량이라고 찾아낸 비율	정밀도와 재현율의 조화 평균
불균형 시 수치	99.9% (착시 현상)	보통 낮게 나옴	보통 매우 낮게 나옴	낮게 나옴
활용 여부	절대 보면 안 됨 (폐기)	중요 (예: 스팸 필터)	가장 중요함 (예: 암 진단)	이 지표를 최종 KPI로 삼음

불균형 데이터를 다룰 때, 가장 널리 쓰이는 고급 오버샘플링 기법은 바로 **SMOTE (Synthetic Minority Over-sampling Technique)**다. 이는 단순히 똑같은 데이터를 복사하는 게 아니라, 소수 데이터들 사이의 빈 공간에 점을 찍어 '세상에 없던 가짜 데이터(합성 데이터)'를 창조해 내어 과적합을 막는 기술이다.

📢 섹션 요약 비유: 100문제 중 99문제가 1번이 정답인 시험에서, 무조건 1번으로 다 찍은 학생의 '정확도'는 99점이다. 하지만 진짜 실력을 보려면 이 학생이 그중 1문제짜리 2번 정답(불량 데이터)을 제대로 찾아냈는지(재현율)를 따로 채점해야만 한다.

Ⅳ. 실무 적용 및 기술사 판단

실무 적용 시나리오: 카드 결제 사기 탐지(FDS) 시스템이다. 사기 결제는 전체의 0.01%도 안 된다. 파이썬 imbalanced-learn 라이브러리를 써서 1차적으로 다수 데이터를 무작위로 덜어내고(Random Undersampling), 2차적으로 SMOTE를 돌려 사기 결제 패턴을 10배 증폭시킨다. 이렇게 맞춰진 5:5 밸런스 데이터를 XGBoost 모델에 넣고 학습시킨 뒤, 최종 검증은 조작되지 않은 0.01%의 원본 데이터 셋에서 재현율(Recall) 점수가 0.95 이상이 나오는지를 본다.

기술사 판단 포인트 (Trade-off): 데이터 전처리 아키텍처를 설계할 때 기술사는 반드시 **'테스트 셋(Test set) 오염의 덫'**을 차단해야 한다.

수많은 초보자가 전체 데이터에 오버샘플링(SMOTE)을 먼저 걸어 데이터를 뻥튀기한 다음, 그 뻥튀기된 데이터를 Train 셋과 Test 셋으로 나눈다.
이렇게 되면 복제되어 만들어진 가짜 데이터들이 Test 셋에 들어가게 된다. 내가 공부했던 문제(복제본)가 시험에 그대로 나오니 성능이 99%로 폭발하지만, 실제 서비스에 올리면 모델 성능이 0%로 추락하는 대형 사고(Data Leakage)가 발생한다.
기술사는 파이프라인에서 **"반드시 Train 셋과 Test 셋을 먼저 분리한 뒤, 오직 Train 셋 안에서만 오버샘플링을 수행하라"**는 검증 코드를 하드코딩으로 강제해야 한다.

📢 섹션 요약 비유: 시험공부를 할 때 부족한 오답 문제(소수 데이터)를 100번 복사해서 연습하는 건 자유다(Train). 하지만 내일 치를 진짜 수능 시험지(Test)까지 연습장처럼 똑같이 복사 조작을 해버리면, 그 시험 점수는 가짜가 될 수밖에 없다.

Ⅴ. 기대효과 및 결론

불균형 데이터 처리 기술은 인공지능이 "가장 많이 일어나는 일만 배우고, 희귀하지만 중요한 일은 무시해 버리는" 통계적 독재를 막아낸 위대한 교정 장치다. 이 전처리를 거치지 않으면 자율주행차는 수천 번 잘 직진하다가 어쩌다 한 번 나타난 희귀한 표지판을 보고 낭떠러지로 돌진해 버릴 것이다.

결론적으로 데이터 불균형은 어떤 산업에서든 피할 수 없는 현실의 민낯이다. 아무리 화려한 트랜스포머(Transformer) 모델을 가져와도 밥(데이터)의 영양분이 불균형하면 모델은 굶어 죽는다. 기술사는 샘플링 기법(SMOTE 등)과 가중치 페널티 기법(Focal Loss 등)을 양손에 쥐고, 가장 희귀한 소수의 시그널을 비즈니스의 가장 강력한 무기로 벼려내는 데이터 연금술사가 되어야 한다.

📢 섹션 요약 비유: 불균형 데이터 처리는 넓은 백사장(정상 데이터)에서 바늘(불량 데이터)을 찾으라는 막막한 미션에 직면했을 때, 백사장의 모래를 채로 쳐서 과감히 걷어내고(언더샘플링), 바늘의 크기를 10배로 뻥튀기해서(오버샘플링) 자석으로 쉽게 끌어당기게 돕는 탐색의 기술이다.

📌 관련 개념 맵

상위 개념: 데이터 전처리 (Data Preprocessing), 머신러닝 평가
하위 개념: SMOTE, Undersampling, Oversampling, Cost-sensitive Learning
연결 개념: 재현율 (Recall), 정밀도 (Precision), 1종 오류/2종 오류, Data Leakage

👶 어린이를 위한 3줄 비유 설명

윌리를 찾아라 책을 폈는데, 똑같이 생긴 흰옷 입은 사람만 1만 명이고 윌리는 딱 1명뿐이에요.
윌리가 누군지 배우려는 꼬마 로봇에게 그냥 책을 주면, 로봇은 찾기를 포기하고 "다 흰옷이네!"라고 대답해 버려요.
그래서 흰옷 사람들을 지워버리거나(언더샘플링), 윌리의 얼굴을 100장 복사해서 로봇 눈앞에 들이밀며(오버샘플링) 윌리를 확실히 외우게 만드는 훈련법이랍니다!