366. 이상치 (Outlier) 탐지 및 제거 (IQR, Z-score)

핵심 인사이트 (3줄 요약)

본질: 이상치(Outlier)는 전체 데이터의 일반적인 패턴에서 극단적으로 혼자 뚝 떨어져 있는 튀는 값을 의미하며, 이를 통계적으로 색출하기 위해 표준편차를 쓰는 Z-score와 박스플롯(Boxplot) 기반의 IQR 1.5 규칙이 쓰인다.

가치: 선형 회귀(OLS)나 K-Means처럼 '평균'과 '거리'에 민감한 머신러닝 모델들이 단 하나의 이상치 때문에 예측선이 엉망으로 뒤틀리는 대참사(과적합 및 모델 붕괴)를 사전에 차단하는 전처리의 핵심 파이프라인이다.

판단 포인트: 이상치를 기계적으로 삭제(Drop)하면 데이터가 깔끔해지지만, 신용카드 사기나 암 진단처럼 '이상치 자체가 우리가 찾아야 할 진짜 정답'인 도메인에서는 삭제가 아니라 오히려 이상치 탐지(Anomaly Detection) 모델로 살려내야 하는 날카로운 비즈니스 판단이 요구된다.

Ⅰ. 개요 및 필요성

교실에 있는 30명 학생의 평균 용돈을 구하려 한다. 다들 1~5만 원을 받는데, 전학생으로 재벌 집 아들이 와서 한 달 용돈으로 10억 원을 받는다고 치자. 이때 31명의 평균을 구하면, 모든 학생의 평균 용돈이 갑자기 3,000만 원으로 폭등해 버린다. 재벌 아들(이상치) 한 명 때문에 전체 반의 통계가 거짓말을 하게 된 것이다.

머신러닝 모델, 특히 거리를 재거나 오차의 제곱(MSE)을 구하는 선형 모델들은 이 '튀는 놈' 하나에 멱살을 잡혀 질질 끌려가는 치명적인 약점이 있다. 따라서 모델에 밥(데이터)을 먹이기 전에, "누가 봐도 비정상적으로 튀는 밥알"을 골라내어 버리거나 다른 값으로 바꿔치기하는 수술 과정이 필수적이며, 이를 **이상치 처리(Outlier Treatment)**라 부른다.

📢 섹션 요약 비유: 미꾸라지 한 마리가 온 웅덩이를 흐리듯, 100만 개의 정상 데이터가 있어도 1개의 미친 데이터(이상치)가 섞여 들어가면 인공지능이 세상을 완전히 오해하게 되므로 미리 미꾸라지를 뜰채로 건져내는 작업이다.

Ⅱ. 아키텍처 및 핵심 원리

이상치를 잡아내는 뜰채(알고리즘) 중 실무에서 가장 많이 쓰이는 통계적 아키텍처는 두 가지다.

┌────────────────────────────────────────────────────────┐
│             [ 이상치 탐지 2대 통계 아키텍처 ]                │
├────────────────────────────────────────────────────────┤
│ 1. Z-score (표준점수 기반)                             │
│    - 원리: "이 데이터는 평균에서 표준편차(σ)의 몇 배나 떨어져 있나?"│
│    - 기준: Z값이 ±3을 넘어가면 이상치로 판정! (99.7% 밖의 영역) │
│    - 한계: 데이터가 완벽한 '정규분포'라는 가정하에만 작동함    │
│                                                        │
│ 2. IQR 1.5 규칙 (사분위수 범위 기반)                     │
│    - 원리: 데이터를 일렬로 세우고 상위 25%(Q1), 상위 75%(Q3)를 찾음│
│    - IQR = Q3 - Q1 (중간에 몰려있는 50%의 덩어리 길이)       │
│    - 상한선: Q3 + (1.5 × IQR) 보다 크면 이상치!            │
│    - 하한선: Q1 - (1.5 × IQR) 보다 작으면 이상치!            │
│    - 강점: 데이터가 정규분포가 아니어도 아주 잘 작동함 (현업 표준)│
└────────────────────────────────────────────────────────┘

Z-score의 약점: Z-score 자체를 구할 때 들어가는 '평균'과 '표준편차' 자체가 이미 이상치에 의해 빵빵하게 오염되어 있을 확률이 높다. 그래서 Z-score는 생각보다 튀는 놈을 잘 못 잡아낸다.
IQR의 강건함 (Robustness): 평균 대신 '순위(줄 세우기)'를 쓰는 1사분위(Q1)와 3사분위(Q3)를 사용하므로, 재벌 아들이 100억을 받든 1,000억을 받든 IQR 박스의 크기는 변하지 않는다. 매우 튼튼한(Robust) 탐지기다.

📢 섹션 요약 비유: Z-score는 반 평균을 깎아먹는 애들을 찾는 방식이라 재벌 아들(이상치)이 오면 평균 자체가 튀어서 실패하지만, IQR은 "성적순으로 줄 세웠을 때 중간 애들(몸통)과 너무 뚝 떨어져 있는 꼬리표"를 찾는 방식이라 재벌 아들에 흔들리지 않는다.

Ⅲ. 비교 및 연결

이상치를 처리(Treatment)하는 방법은 단순히 '삭제'만 있는 것이 아니다.

처리 기법	동작 방식	장점	단점 및 리스크
제거 (Drop)	이상치 행(Row) 전체를 삭제	가장 깔끔하고 노이즈가 완벽히 사라짐	데이터 개수가 줄어들며, 정상 패턴 정보가 같이 유실될 수 있음
대치 (Imputation)	이상치를 평균, 중앙값, 최빈값으로 덮어씀	데이터 유실을 막음	원래 데이터의 분산(Variance)이 훼손되어 편향 발생
스케일링 (Scaling)	RobustScaler를 써서 이상치 영향 축소	이상치를 지우지 않고 둥글게 다듬어 씀	이상치가 여전히 모델에 미세한 악영향을 줌
클리핑 (Clipping)	상/하한선을 정해놓고 그 밖의 값은 한계값으로 깎아냄	데이터 손실 없이 극단값만 평평하게 제어	데이터 본연의 극단적 특징을 인위적으로 조작함

모델 자체의 아키텍처를 '이상치에 강건한(Robust) 모델'로 바꾸는 것도 훌륭한 방법이다. 선형 회귀(OLS)는 이상치에 쥐약이지만, **랜덤 포레스트(Random Forest)**나 XGBoost 같은 트리 기반 앙상블 모델은 분기 조건(If-Then)만 보기 때문에 100억짜리 이상치가 들어와도 눈 하나 깜짝하지 않고 소화해 낸다.

📢 섹션 요약 비유: 암 덩어리(이상치)가 발견되었을 때 아예 잘라내거나(제거), 약물로 억누르거나(스케일링), 다른 정상 조직으로 덮어씌우는(대치) 수술법들이다. 의사(데이터 과학자)는 환자의 체력(데이터의 양)을 보고 최적의 수술법을 골라야 한다.

Ⅳ. 실무 적용 및 기술사 판단

실무 적용 시나리오: 쇼핑몰의 고객 세분화(K-Means 군집화) 시스템을 구축한다. 총구매액을 기준으로 K-Means를 돌렸더니, 구매액 10억 원인 리셀러(도매상) 1명이 혼자서 '군집 1'을 차지하고, 나머지 99만 명의 일반 고객이 전부 '군집 2'로 뭉쳐버리는 끔찍한 결과가 나왔다. 파이썬 scipy의 IQR 규칙으로 이 1명의 리셀러를 이상치로 간주하여 데이터셋에서 과감히 제거(Drop)한 뒤에야, 비로소 일반 고객들이 VIP, Gold, Silver로 예쁘게 쪼개졌다.

기술사 판단 포인트 (Trade-off): 기술사는 이상치를 기계적으로 지우기 전, **'이것이 에러(Error)인가, 아니면 진정한 인사이트(Anomaly)인가?'**를 도메인 지식으로 판별해야 한다.

몸무게가 500kg으로 적혀 있다면 이건 타이핑 실수(기계적 에러)이므로 무조건 삭제하거나 평균으로 대치해야 한다.
하지만 신용카드 결제액이 밤 12시에 아프리카에서 500만 원이 찍힌 이상치는 절대 지우면 안 된다. 이것은 우리가 죽어라 찾고 있던 사기 거래(FDS 타겟) 그 자체이기 때문이다.
기술사는 단순한 파이썬 스크립트(IQR > 1.5)에 의존하지 않고, 머신러닝의 타겟(Y)과 이상치(Outlier)의 관계를 분석하여 "이상치 자체가 새로운 비즈니스 모델(이상 탐지, Anomaly Detection)이 될 수 있는가?"를 아키텍처 레벨에서 결단해야 한다.

📢 섹션 요약 비유: 모래사장에서 황금(이상치)을 주웠을 때, "이건 모래가 아니네!"라며 쓰레기통에 버리는 바보(단순 코더)가 될 것인가, 아니면 "이게 진짜 보물이구나!"라며 세공을 맡기는 보석상(기술사)이 될 것인가의 차이다.

Ⅴ. 기대효과 및 결론

이상치(Outlier)의 탐지와 제어는 쓰레기 데이터가 들어오면 쓰레기가 나간다(GIGO: Garbage In, Garbage Out)는 머신러닝의 제1법칙을 방어하는 최전선 초소다. Z-score와 IQR 규칙은 수많은 빅데이터의 바다에서 튀는 놈들을 1초 만에 색출해 내는 수학적 그물망 역할을 충실히 해왔다.

결론적으로 데이터 전처리에서 이상치는 무조건 없애야 할 '악(Evil)'이 아니다. 딥러닝과 오토인코더(Autoencoder), Isolation Forest 같은 고도화된 비지도 학습 모델이 등장하면서, 이상치를 지우는 것을 넘어 **"왜 튀었을까?"**를 스스로 학습하여 새로운 블랙스완(Black Swan)을 예측해 내는 '이상 탐지(Anomaly Detection)'의 거대한 생태계로 진화하고 있다. 기술사는 튀는 데이터를 대하는 태도가 그 시스템의 지능 수준을 결정함을 명심해야 한다.

📢 섹션 요약 비유: 이상치는 오케스트라에서 삑사리를 내는 바이올린일 수도 있지만, 시대를 앞서가는 천재 솔로 가수일 수도 있다. 지휘자(기술사)는 무작정 쫓아내는 대신 이 튀는 소리를 어떻게 앙상블로 엮어낼지 고민해야 한다.

📌 관련 개념 맵

상위 개념: 데이터 전처리 (Data Preprocessing), 탐색적 데이터 분석 (EDA)
하위 개념: IQR (Interquartile Range), Boxplot (상자 수염 그림), Z-score
연결 개념: 결측치 대치 (Imputation), RobustScaler, 이상 탐지 (Anomaly Detection)

👶 어린이를 위한 3줄 비유 설명

반 친구들 30명이 100원짜리 사탕을 먹는데, 전학생이 갑자기 100만 원짜리 금가루 사탕을 먹고 있어요!
선생님이 반 친구들의 '평균 간식값'을 계산하려는데, 전학생 때문에 평균이 3만 원으로 껑충 뛰어버렸죠.
IQR이라는 깐깐한 탐정은 줄을 세워서 "너무 심하게 튀는 전학생은 평균 계산에서 빼자!"라고 골라내어 진짜 우리 반의 모습을 찾아주는 역할을 한답니다!