368. 데이터 스케일링 (정규화, 표준화) 및 민감도

핵심 인사이트 (3줄 요약)

본질: 데이터 스케일링(Data Scaling)은 '연봉(천만 원)'과 '나이(살)'처럼 단위(Scale)와 덩치가 전혀 다른 변수들을, 0~1 사이로 압축(Min-Max)하거나 평균 0, 분산 1의 정규분포 모양(Standard)으로 통일시켜 컴퓨터가 공평하게 계산할 수 있도록 다듬는 물리적 변환 과정이다.

가치: 숫자가 큰 변수가 거리 계산을 지배해 버리는 현상을 막아주며, 경사 하강법(Gradient Descent)이 길을 헤매지 않고 최적해(Global Minimum)로 빠르고 안정적으로 굴러떨어지도록 손실 함수의 지형을 둥글게 만들어준다.

판단 포인트: 트리(Tree) 기반의 앙상블 모델은 분기 조건만 보므로 스케일링이 전혀 필요 없지만, K-NN, SVM, K-Means 등 '거리'를 재는 모델과 딥러닝처럼 '가중치를 학습'하는 모델 앞에는 스케일러(Scaler) 파이프라인이 절대적으로 필수적이다.

Ⅰ. 개요 및 필요성

인공지능에게 "A대리와 B과장 중 누가 더 회사에 오래 다닐까?"를 예측하게 하려 한다. A대리는 연봉 5,000만 원에 30살이고, B과장은 연봉 6,000만 원에 40살이다. 인간은 두 데이터의 '단위(원, 살)'가 다르다는 것을 안다. 하지만 수학 공식밖에 모르는 컴퓨터가 유클리디안 거리(거리 = 차이의 제곱)를 구하면, 연봉 차이는 1,000만이고 나이 차이는 10이므로 컴퓨터의 눈에는 '나이'라는 변수는 아예 보이지도 않고 오직 '연봉'만으로 모든 것을 결정해 버린다.

이처럼 숫자의 크기가 가진 횡포(Scale Dominance)를 막고 모든 변수에게 공평한 발언권을 주기 위해, 모든 데이터를 똑같은 눈금의 자(Ruler)로 맞춰주는 작업이 바로 **데이터 스케일링(Data Scaling)**이다.

📢 섹션 요약 비유: 코끼리 1마리와 개미 10마리의 힘을 겨루게 할 때, 그냥 체중계를 재면 코끼리가 100% 이긴다. 공평한 시합을 위해 코끼리의 몸무게도 10점 만점으로 환산하고, 개미의 몸무게도 10점 만점으로 환산해서 비교하는 공평한 규칙이다.

Ⅱ. 아키텍처 및 핵심 원리

가장 널리 쓰이는 두 가지 스케일링 파이프라인인 정규화(Normalization)와 표준화(Standardization)는 데이터를 깎는 수학적 철학이 다르다.

┌────────────────────────────────────────────────────────┐
│             [ 데이터 스케일링의 2대 대표 아키텍처 ]            │
├────────────────────────────────────────────────────────┤
│ 1. Min-Max Scaler (정규화, Normalization)              │
│    - X_new = (X - Min) / (Max - Min)                   │
│    - 모든 데이터를 정확히 0과 1 사이의 네모 박스 안에 가둠      │
│    - 단점: 100억짜리 이상치(Outlier)가 하나 껴있으면,          │
│      나머지 정상 데이터들이 전부 0.001처럼 바닥에 뭉개져 버림!  │
│                                                        │
│ 2. Standard Scaler (표준화, Standardization)           │
│    - X_new = (X - 평균) / 표준편차(σ) (Z-score 공식)      │
│    - 모든 데이터의 중심(평균)을 0으로 옮기고, 퍼짐(분산)을 1로 맞춤│
│    - 이상치가 있어도 0~1 박스에 가두지 않아 데이터가 안 뭉개짐! │
└────────────────────────────────────────────────────────┘

Robust Scaler: 만약 이상치가 너무 심하다면 평균과 표준편차 대신, 이상치에 흔들리지 않는 1사분위(Q1), 3사분위(Q3), 중앙값(Median)을 사용하여 스케일링하는 방법이다. (IQR 규칙 활용)
경사 하강법 최적화: 스케일링을 안 하면 손실 함수(Loss Function)의 등고선이 길쭉한 타원형이 되어, 최적점을 찾으러 내려갈 때 지그재그로 심하게 요동친다. 스케일링을 하면 등고선이 완벽한 둥근 그릇 모양이 되어 최단 거리로 쏙 빨려 들어간다 (학습 속도 10배 상승).

📢 섹션 요약 비유: 정규화(Min-Max)는 1등을 100점, 꼴등을 0점으로 강제로 매겨서 박스에 넣는 절대평가고, 표준화(Standard)는 "너 평균에서 몇 등급이나 떨어져 있어?"라고 묻는 상대평가(수능 등급) 방식이다.

Ⅲ. 비교 및 연결

머신러닝 알고리즘별로 스케일링에 대한 '민감도(Sensitivity)'를 비교해 보면 어떤 모델 앞단에 스케일러를 붙일지 명확해진다.

알고리즘 종류	대표 모델	스케일링 민감도	이유
거리 기반 모델	K-NN, K-Means, DBSCAN	초고위험 (필수)	숫자 단위가 크면 그 변수가 유클리디안 거리를 다 잡아먹음
선형 및 기하학 모델	선형/로지스틱 회귀, SVM, PCA	초고위험 (필수)	마진 계산이나 회귀 계수(W)가 스케일에 직접 비례해 널뜀
딥러닝 신경망	CNN, RNN, Transformer	초고위험 (필수)	안 하면 Gradient 폭발/소실 발생, 수렴 속도 최악
트리 기반 모델	Decision Tree, Random Forest, XGBoost	안전 (불필요)	"연봉 > 3,000만 원인가?"라는 스무고개 분기만 하므로 단위 상관없음

특히 트리 기반 앙상블(XGBoost, LightGBM)은 스케일링이라는 귀찮은 전처리 과정을 생략해도 성능이 완벽히 똑같이 나온다는 점이 캐글(Kaggle) 등 실무에서 환영받는 가장 큰 이유다.

📢 섹션 요약 비유: 거리로 재는 모델(K-NN)에게 cm와 km가 섞인 지도를 주면 길을 잃는다(스케일링 필수). 하지만 갈림길에서 표지판만 보고 왼쪽, 오른쪽으로 꺾는 모델(트리)에게는 표지판 거리가 cm로 써 있든 km로 써 있든 알 바가 아니다(스케일링 불필요).

Ⅳ. 실무 적용 및 기술사 판단

실무 적용 시나리오: 이미지 분류 CNN 모델(ResNet 등)을 학습시킬 때, 이미지를 구성하는 픽셀 값은 0부터 255까지다. 실무에서는 이미지를 불러오자마자 무조건 image / 255.0 코드를 쳐서 모든 픽셀 값을 0.0 ~ 1.0 사이로 찌그러뜨린다(Min-Max 정규화). 이 한 줄의 코드 유무가 모델이 학습에 성공하느냐 영원히 에러를 뱉느냐를 가른다.

기술사 판단 포인트 (Trade-off): 데이터 파이프라인에서 스케일러 아키텍처를 짤 때, 기술사는 'Data Leakage(데이터 누수)' 방지를 통제해야 한다.

초보자들은 전체 데이터셋에 StandardScaler.fit_transform()을 걸어서 평균과 분산을 계산한 뒤, 데이터를 Train 셋과 Test 셋으로 쪼갠다.
이렇게 되면 미래에 들어올 모르는 데이터(Test 셋)의 평균값 정보가 Train 셋의 스케일링에 몰래 섞여 들어가서, 모델이 미래의 힌트를 커닝하게 된다.
기술사는 무조건 Train 셋만 넣어서 fit()(기준점 계산)을 수행한 뒤, 그 똑같은 기준점을 Test 셋에 transform()만 하도록 파이프라인(Scikit-learn의 Pipeline 클래스)을 하드코딩해야 한다. Test 셋의 범위가 0~1을 뚫고 나가더라도 절대 기준을 다시 잡아서는 안 된다.

📢 섹션 요약 비유: 모의고사(Train) 성적으로 수능 등급컷(스케일러 기준점)을 정했으면, 실제 수능(Test) 날 엄청난 천재가 나타나서 100점을 넘기더라도, 모의고사 때 정해둔 그 낡은 기준선으로 평가해야 시험의 공정성(데이터 분리)이 유지된다.

Ⅴ. 기대효과 및 결론

데이터 스케일링은 알고리즘의 화려함에 가려져 있지만, 머신러닝 모델이 밥(데이터)을 씹고 소화할 수 있도록 만들어주는 가장 기본적인 치아(Teeth)의 역할을 한다. 아무리 좋은 알고리즘이라도 스케일링이 안 된 생고기를 넘겨주면 소화불량(발산)에 걸려 죽고 만다.

결론적으로 스케일링은 딥러닝 아키텍처 깊숙한 곳으로 스며들어, 층과 층 사이를 넘어갈 때마다 데이터를 강제로 예쁘게 다듬어주는 **배치 정규화(Batch Normalization)**라는 혁명적인 레이어로 진화했다. 기술사는 단순히 StandardScaler를 호출하는 것을 넘어, 데이터의 분포(정상, 이상치 존재 여부)와 모델의 특성(트리 vs 거리 기반)을 종합적으로 꿰뚫어 보고 맞춤형 스케일러를 라우팅하는 식견을 발휘해야 한다.

📢 섹션 요약 비유: 각기 다른 나라의 악기(변수)들이 모였을 때, 스케일링은 연주를 시작하기 전 모든 악기가 똑같은 음높이(평균 0)와 똑같은 박자(분산 1)를 맞추는 '조율(Tuning)' 작업이다. 조율 없는 오케스트라는 소음일 뿐이다.

📌 관련 개념 맵

상위 개념: 데이터 전처리 (Data Preprocessing), 피처 엔지니어링
하위 개념: Min-Max Scaler (정규화), Standard Scaler (표준화), Robust Scaler
연결 개념: Data Leakage, 경사 하강법 최적화, 배치 정규화 (Batch Norm), 이상치 (Outlier)

👶 어린이를 위한 3줄 비유 설명

코끼리 몸무게 5,000kg과 강아지 몸무게 5kg을 숫자로만 비교하면 코끼리가 너무 압도적이라 강아지는 보이지도 않아요.
스케일링은 코끼리의 몸무게도 "코끼리 동네에서 몇 등?", 강아지의 몸무게도 "강아지 동네에서 몇 등?"으로 등수(0~100점)로 바꿔주는 마법이에요.
이렇게 하면 코끼리와 강아지가 서로 동등하게 10점 만점짜리 표 위에서 1대1로 공평하게 비교될 수 있답니다!