354. 부스팅 기법 (AdaBoost, GBM)

핵심 인사이트 (3줄 요약)

본질: 부스팅(Boosting)은 수많은 얕은 나무(약한 학습기)들을 '순차적으로' 학습시키면서, 앞선 나무가 틀린 문제(오차)에 더 큰 가중치를 부여하여 다음 나무가 그 틀린 문제를 집중적으로 고치도록 만드는 앙상블(Ensemble) 기법이다.

가치: 랜덤 포레스트(배깅)가 평범한 여러 명의 투표로 '안정성(분산 감소)'을 챙겼다면, 부스팅은 틀린 문제를 끝까지 물고 늘어지는 오답 노트 릴레이를 통해 모델의 '절대적인 정확도(편향 감소)'를 극한까지 끌어올린다.

판단 포인트: 정확도는 머신러닝 알고리즘 중 최강이지만, 앞 나무가 끝나야 다음 나무를 만들 수 있어 병렬 처리(속도 향상)가 불가능하고 이상치(Outlier)마저 억지로 맞추려다 과적합(Overfitting)에 빠지기 쉽다는 치명적인 약점이 있다.

Ⅰ. 개요 및 필요성

랜덤 포레스트는 여러 나무가 동시에 각자 시험을 보고 다수결을 내는 훌륭한 방법(배깅)이다. 하지만 어려운 수학 문제는 100명이 각자 푼다고 해서 정답이 나오지 않는다. 100명이 모두 틀려버리면 다수결도 오답이 되기 때문이다.

"다 같이 한 번에 풀지 말고, 한 명씩 릴레이로 풀게 하자. 1번 학생이 풀고 채점한 뒤, 1번이 틀린 문제만 모아서 2번 학생에게 과외를 시키자. 2번이 또 틀린 건 3번에게 넘기자."

이처럼 앞선 모델의 약점을 다음 모델이 보완하는 릴레이 학습 아이디어가 바로 **부스팅(Boosting)**이다. 어설픈 성능의 약한 학습기(Weak Learner)들을 모아 강력한 강한 학습기(Strong Learner)로 '부스팅(끌어올림)'하는 이 기법은 캐글(Kaggle) 등 데이터 과학 대회를 휩쓰는 전설적인 알고리즘의 뼈대가 되었다.

📢 섹션 요약 비유: 부스팅은 100명의 학생이 모인 '릴레이 오답 노트 스터디'다. 앞사람이 틀린 문제에 빨간펜으로 별표(가중치)를 크게 쳐놓으면, 다음 사람은 그 별표 친 문제만 죽어라 파고들어서 결국 팀 전체가 100점을 맞게 만드는 훈련법이다.

Ⅱ. 아키텍처 및 핵심 원리

부스팅의 두 가지 역사적 이정표인 AdaBoost와 GBM은 '틀린 문제를 어떻게 다음 사람에게 넘겨줄 것인가'에 대한 철학이 다르다.

┌────────────────────────────────────────────────────────┐
│             [ 부스팅 (Boosting)의 진화 아키텍처 ]             │
├────────────────────────────────────────────────────────┤
│ 1. 에이다부스트 (AdaBoost: Adaptive Boosting)            │
│    - 오답 데이터의 '가중치(Weight)'를 펌핑시킴             │
│    - 모델 1이 틀린 데이터의 가중치를 늘려 모델 2에게 줌       │
│    - 모델 2는 가중치가 큰(별표 쳐진) 데이터 위주로 학습함     │
│                                                        │
│ 2. 그래디언트 부스팅 (GBM: Gradient Boosting Machine)    │
│    - 오답 데이터 대신, 진짜 정답과의 '잔차(Residual)'를 넘김 │
│    - 모델 1 예측: 70점 (정답 100점, 잔차 = +30점)          │
│    - 모델 2는 원본 데이터가 아니라 잔차 '30'을 타겟으로 학습! │
│    - 모델 2 예측: 20점 (남은 잔차 = +10점)                 │
│    - 모델 3는 잔차 '10'을 타겟으로 학습... (무한 반복)       │
└────────────────────────────────────────────────────────┘

AdaBoost (초기 부스팅): 데이터의 '중요도'를 조절한다. 맞춘 데이터는 작게, 틀린 데이터는 크게 부풀려서 다음 모델이 틀린 데이터에 집착하게 만든다.
GBM (현대 부스팅의 표준): 미적분(Gradient) 개념을 도입했다. 앞 모델이 맞추지 못한 '남은 오차(잔차)' 자체를 새로운 정답(Target)으로 삼아, 그 찌꺼기 오차를 0으로 만들기 위해 다음 나무들이 투입되는 기가 막힌 수학적 아키텍처다.

📢 섹션 요약 비유: AdaBoost가 틀린 문제에 형광펜을 칠해서 다시 풀게 하는 방식이라면, GBM은 1번 학생이 스케치를 하고, 2번 학생이 튀어나온 선을 지우고, 3번 학생이 색칠을 해서 그림을 완성하는 점진적 덧셈 방식이다.

Ⅲ. 비교 및 연결

앙상블 학습을 지배하는 두 거두, 배깅(랜덤 포레스트)과 부스팅(GBM)의 철학을 비교해 본다.

비교 항목	배깅 (랜덤 포레스트)	부스팅 (GBM)
학습 순서	병렬 (Parallel) - 동시에 100그루 생성	직렬 (Sequential) - 1그루씩 차례대로 생성
개별 나무의 깊이	깊고 복잡함 (과적합된 강한 나무들)	매우 얕음 (결정 노드 1~3개짜리 멍청한 나무들)
최종 예측 방식	100그루의 결과를 단순 다수결/평균	100그루의 결과를 가중치를 두어 덧셈
주요 감소 타겟	분산 (Variance) 감소 -> 안정성 확보	편향 (Bias) 감소 -> 정확도 극대화
이상치(Outlier)	영향을 덜 받음 (다수결에 묻힘)	매우 취약함 (이상치를 맞추려다 모델이 꼬임)

부스팅 모델에 깊고 복잡한 나무를 쓰면, 1번 나무가 이미 정답을 100% 맞춰버려서(과적합) 2번 나무가 할 일이 없어진다. 따라서 부스팅은 반드시 질문을 딱 1~2번만 하는 아주 멍청한 나무(Stump) 수천 개를 이어 붙여야만 모델이 서서히 정교해지는 마법이 일어난다.

📢 섹션 요약 비유: 랜덤 포레스트가 각자 자기 멋대로 연주하는 오케스트라의 소리를 평균 내서 듣기 좋게 뭉개는 거라면, 부스팅은 지휘자가 피아노 소리를 듣고 모자란 베이스 소리를 채우고, 다시 모자란 드럼 소리를 더하며 완벽한 화음을 맞춰나가는 합주다.

Ⅳ. 실무 적용 및 기술사 판단

실무 적용 시나리오: 보험사의 '대출 부도 예측(Default Prediction)' 시스템에 사용된다. 수만 건의 고객 데이터 중 부도를 내는 사람은 극소수(불균형 데이터)다. 랜덤 포레스트는 다수결을 따르느라 이 극소수를 묻어버릴 수 있지만, 부스팅(GBM)은 앞선 모델이 부도 고객을 놓치면(오차 발생), 다음 나무들이 이 부도 고객의 특징에만 무섭게 집착하여 결국 부도 패턴을 악착같이 찾아낸다.

기술사 판단 포인트 (Trade-off): GBM 기반 아키텍처를 도입할 때 기술사는 **'학습 시간 지연'과 '과적합의 공포'**를 제어해야 한다.

직렬로 나무를 만들기 때문에 분산 컴퓨팅(Hadoop, Spark)으로 쪼개서 학습시킬 수가 없어 데이터가 많으면 학습에 며칠이 걸린다. (이 속도 문제를 해결하기 위해 나온 것이 XGBoost다.)
나무를 1,000개, 2,000개 계속 이어 붙이면, 결국 데이터에 섞여 있는 노이즈(기계 오류, 입력 실수)마저 "내가 꼭 풀어야 할 오답"으로 착각하고 억지로 껴맞추게 된다. 따라서 기술사는 **학습률(Learning Rate)**을 매우 작게(예: 0.01) 설정하고, 검증 세트의 오차가 다시 올라가기 시작하면 즉시 나무 생성을 멈추는 조기 종료(Early Stopping) 로직을 반드시 파이프라인에 심어야 한다.

📢 섹션 요약 비유: 부스팅은 100점을 맞을 때까지 오답 노트를 파고드는 독종이다. 하지만 너무 독종이라 시험지에 잉크가 번진 자국(이상치)마저 수학 기호로 착각하고 밤새 고민하다가 다음 날 시험을 망칠 수 있으니, 선생님(기술사)이 적당한 때에 자라고 불을 꺼줘야 한다.

Ⅴ. 기대효과 및 결론

부스팅(Boosting)은 "약한 자들이 힘을 합치면 가장 강해진다"는 철학을 증명한 알고리즘이다. 무작위로 찍는 것보다 아주 약간만 나은 51%짜리 정답률을 가진 멍청한 나무라도, 이들을 순차적으로 엮어 오차를 채워나가게 하면 99%의 정확도를 자랑하는 최강의 모델로 재탄생한다.

결론적으로 GBM(Gradient Boosting Machine)은 현대 머신러닝의 기준점이다. 비록 연산 속도가 느리다는 단점이 있었지만, 이 철학과 수학적 토대(미분을 통한 잔차 축소) 위에 컴퓨터 공학자들의 병렬 처리 최적화 기술이 덧입혀지면서 XGBoost, LightGBM이라는 현대 정형 데이터 대회의 무적함대가 탄생할 수 있었다.

📢 섹션 요약 비유: 부스팅은 조각가 1,000명이 한 덩어리의 대리석을 다듬는 과정이다. 1번 조각가가 대충 윤곽을 깎고, 2번이 얼굴을 파고, 마지막 1,000번째 조각가가 머리카락의 질감을 다듬어내는, 끝을 모르는 완벽주의의 결정체다.

📌 관련 개념 맵

상위 개념: 앙상블 학습 (Ensemble Learning), 지도 학습
하위 개념: 편향 감소 (Bias Reduction), 잔차 (Residual), 약한 학습기 (Weak Learner)
연결 개념: 랜덤 포레스트 (배깅), XGBoost / LightGBM, 과적합 (Overfitting)

👶 어린이를 위한 3줄 비유 설명

랜덤 포레스트가 반 친구들 100명한테 "정답이 뭐야?"라고 한 번에 물어보고 다수결로 찍는 거라면,
부스팅은 1번 친구가 푼 시험지를 2번 친구한테 넘겨서 "얘가 틀린 것만 네가 다시 풀어봐"라고 시키는 릴레이 퀴즈예요.
앞사람의 실수를 뒷사람이 계속 고쳐나가니까, 100번째 친구가 펜을 놓을 때쯤엔 100점 만짜리 완벽한 시험지가 탄생한답니다!