76. 이상치 (Outlier) 탐지 - IQR, Z-Score, DBSCAN, Isolation Forest

핵심 인사이트 (3줄 요약)

본질: 이상치(Outlier) 탐지는 정상 패턴에서 유난히 멀리 떨어진 데이터를 찾아내는 기술이다.

가치: 전처리에서는 이상치를 제거·보정해 모델 왜곡을 막고, 사기 탐지나 불량품 검출에서는 이상치 자체가 핵심 신호가 된다.

판단 포인트: IQR(Interquartile Range), Z-score, DBSCAN, Isolation Forest는 각각 가정과 차원이 다르므로 데이터 분포와 업무 목적에 맞게 골라야 한다.

Ⅰ. 개요 및 필요성

이상치는 평균과 표준편차를 흔들고, 회귀와 군집화 결과를 왜곡한다. 그래서 데이터 분석에서는 먼저 "이 값이 정말 정상인가"를 봐야 한다. 이상치 탐지는 데이터 청소의 출발점이자, 때로는 이상 행동을 찾는 탐지 모델의 본체이기도 하다.

문제는 이상치가 항상 나쁜 것이 아니라는 점이다. 임금 데이터에서는 100억 원이 오류일 수 있지만, 신용카드 사기 탐지에서는 그 1건이 가장 중요한 사건일 수 있다. 따라서 "삭제할지, 살릴지"가 탐지 자체만큼 중요하다.

데이터 분포
    │
    ├─ 정상 밀집 구간
    └─ 외딴 점 / 희귀 패턴
            │
            ▼
    이상치 탐지 및 처리

이 구조는 단순히 "튀는 값"을 찾는 게 아니라, 그 값을 어떻게 해석할지 결정하는 과정이다.

📢 섹션 요약 비유: 반에서 한 명만 너무 멀리 떨어져 앉아 있으면 눈에 띈다. 그 학생이 그냥 조용한 사람인지, 도움이 필요한 사람인지까지 봐야 한다.

Ⅱ. 아키텍처 및 핵심 원리

이상치 탐지는 크게 통계 기반, 밀도 기반, 분리 기반으로 나뉜다. 1차원 데이터에는 IQR과 Z-score가 간단하고, 다차원 데이터에는 DBSCAN과 Isolation Forest가 더 유용하다.

방법	원리	장점	한계
IQR(Interquartile Range)	사분위 범위 밖을 제거	robust, 직관적	1차원 중심
Z-score	평균에서 표준편차 몇 배 떨어졌는지	간단, 빠름	정규분포 가정
DBSCAN	밀도 낮은 점을 잡음으로 판단	군집 모양 유연	파라미터 민감
Isolation Forest	분할이 쉬운 점을 이상치로 간주	고차원에 강함	해석이 상대적으로 어려움

IQR의 일반적 경계는 다음과 같다.

하한 = Q1 - 1.5 × IQR
상한 = Q3 + 1.5 × IQR

정상 구간 ──────┬───────────────┬────── 정상 구간
                 │               │
               하한            상한
                이상치         이상치

DBSCAN은 eps와 min_samples가 중요하고, Isolation Forest는 contamination이 결과를 크게 좌우한다. 즉, 방법마다 "정답 파라미터"가 아니라 "데이터에 맞는 감도"를 찾는 작업이 필요하다.

📢 섹션 요약 비유: 양팔 저울이 흔들리면 어디가 무거운지 알 수 있다. 각 방법은 저울의 기준이 다르다.

Ⅲ. 비교 및 연결

IQR과 Z-score는 통계적 규칙이 명확하고 설명하기 쉽다. 반면 DBSCAN과 Isolation Forest는 다차원 패턴과 복잡한 구조를 잡는 데 강하다.

기준	IQR	Z-score	DBSCAN	Isolation Forest
데이터 차원	낮음	낮음	중~높음	중~높음
분포 가정	거의 없음	정규분포에 유리	없음	없음
해석성	높음	높음	중간	중간
주요 용도	전처리	간단한 경계선	군집 밖 점 찾기	다차원 이상 징후

이렇게 보면 IQR과 Z-score는 "간단한 칼", DBSCAN과 Isolation Forest는 "복잡한 레이더"다. 어떤 것을 쓸지는 데이터의 모양과 목적이 결정한다.

📢 섹션 요약 비유: 한 줄 서기에서는 자로 재면 되고, 미로에서는 드론이 필요하다. 상황에 맞는 도구가 다르다.

Ⅳ. 실무 적용 및 기술사 판단

전처리 목적이라면 이상치를 제거하거나 capping/winsorizing으로 완화할 수 있다. 하지만 fraud, fault, intrusion처럼 희귀 사건이 중요한 문제에서는 이상치를 없애면 안 된다. 오히려 이상치가 정답 레이블이 된다.

체크리스트

데이터가 거의 정규분포인가, 아니면 왜도가 큰가?
1차원 규칙이면 충분한가, 다차원 구조를 봐야 하는가?
이상치를 삭제할지, 따로 태그할지, 보정할지 정했는가?
비즈니스가 이상치를 "오류"로 보는지 "사건"으로 보는지 확인했는가?
개입 후 모델 성능이 실제 업무 지표와 맞는가?

안티패턴

Z-score를 모든 데이터에 무작정 적용
이상치를 무조건 삭제
DBSCAN 파라미터를 설명 없이 임의 설정
탐지 결과를 현업 검토 없이 자동 삭제

기술사 답안에서는 "이상치 탐지는 통계 청소와 사건 탐지의 두 얼굴을 가진다"고 정리하면 좋다.

📢 섹션 요약 비유: 반에서 조금 튀는 친구를 무조건 내보내면 안 된다. 그냥 다른 옷을 입은 것인지, 진짜 도움이 필요한 것인지 봐야 한다.

Ⅴ. 기대효과 및 결론

이상치 탐지는 모델 안정성, 데이터 품질, 이상 징후 탐지 성능을 모두 높인다. 하지만 기준을 잘못 잡으면 중요한 사건까지 지워 버릴 수 있다.

따라서 이상치 탐지는 "찾는 기술"이면서 동시에 "어떻게 다룰지 결정하는 기술"로 기억해야 한다. 데이터 분석에서 가장 중요한 것은 값이 튀었는지보다, 그 튐이 무엇을 의미하는지다.

📢 섹션 요약 비유: 눈에 띄는 점 하나를 봤을 때, 지우개로 지울지 별표를 달지 먼저 정해야 한다.

📌 관련 개념 맵

개념	연결 포인트
IQR(Interquartile Range)	사분위 기반 이상치 탐지
Z-score	평균/표준편차 기반
DBSCAN	밀도 기반 군집/잡음 탐지
Isolation Forest	분리 용이성 기반
Anomaly Detection	이상 징후 탐지 전반
Preprocessing	모델 입력 정제

📈 관련 키워드 및 발전 흐름도

통계 기반 탐지(IQR, Z-score)
    │
    ▼
밀도 기반(DBSCAN)
    │
    ▼
트리 기반(Isolation Forest)
    │
    ▼
이상 탐지 + 사기/장애 모니터링

이 흐름은 단순한 경계선 찾기에서 다차원 이상 징후 탐지로 확장된 과정을 보여준다. 앞으로는 이상치 탐지와 원인 추적이 함께 묶여 더 자동화될 것이다.

👶 어린이를 위한 3줄 비유 설명

친구들 사이에서 너무 멀리 떨어진 사람은 눈에 띄어요.
그 사람이 그냥 혼자인지, 진짜 문제가 있는지 봐야 해요.
이상치 탐지는 튀는 점을 찾아서 어떻게 할지 정하는 일이에요.