328. 결정 계수 (R-Squared, R²)

핵심 인사이트 (3줄 요약)

본질: 결정 계수($R^2$)는 우리가 만든 회귀 모델(예측선)이 실제 데이터의 들쭉날쭉한 변동성(분산)을 얼마나 잘 '설명'하고 있는지를 0에서 1 사이의 비율로 나타낸 절대적 평가지표다.

가치: 예측값의 오차를 단순히 숫자로 보여주는 MSE나 RMSE와 달리, $R^2$는 "이 모델이 데이터 전체를 80%($R^2 = 0.8$)나 커버하고 있다"는 직관적인 백분율 점수를 제공하여 비즈니스 의사결정자에게 모델의 신뢰도를 가장 쉽게 설득할 수 있다.

판단 포인트: $R^2$는 독립 변수(입력 데이터 종류)가 늘어날수록 쓸데없는 변수라도 무조건 값이 커지는 수학적 착시 현상을 일으키므로, 다중 회귀 분석 실무에서는 반드시 변수의 개수를 페널티로 주는 **'조정된 결정 계수(Adjusted $R^2$)'**를 최종 평가지표로 삼아야 한다.

Ⅰ. 개요 및 필요성

데이터 과학자가 열심히 회귀 분석 모델을 만들어 "이 방정식으로 내일의 매출을 예측할 수 있습니다"라고 보고했을 때, 사장님이 묻는다. "그래서 그 공식이 얼마나 정확한데?"

이때 "오차가 1,530원 정도 납니다"라고 대답하면 감이 오지 않는다. 1,530원이 큰 오차인지 작은 오차인지 비교할 기준이 없기 때문이다. 누구나 알아듣기 쉬운 **'100점 만점짜리 시험 점수'**가 필요했다. 즉, "우리가 만든 예측 모델이 전체 데이터의 흩어짐 중 약 85%를 정확히 꿰뚫고 있습니다"라고 말할 수 있게 해주는 마법의 지표가 바로 **결정 계수($R^2$)**다.

📢 섹션 요약 비유: 오차 금액(RMSE)을 말하는 것은 "이번 시험에서 3개 틀렸어요"라고 말하는 것과 같다. 10문제 중 3개를 틀린 건지 100문제 중 3개를 틀린 건지 모르니, "저는 이번 시험에서 90점($R^2=0.9$)을 받았습니다"라고 깔끔하게 환산해 주는 성적표다.

Ⅱ. 아키텍처 및 핵심 원리

결정 계수는 세 가지 제곱합(Sum of Squares)의 수학적 비율로 계산된다.

┌────────────────────────────────────────────────────────┐
│             [ 결정 계수(R²)의 분산 쪼개기 원리 ]             │
├────────────────────────────────────────────────────────┤
│ 1. SST (Total): 총 변동 (실제 데이터 - 평균)                │
│    - "데이터가 원래 평균에서 얼마나 제멋대로 흩어져 있는가?"│
│                                                        │
│ 2. SSR (Regression): 회귀 모델이 설명하는 변동              │
│    - "내가 그은 선이 평균보다 얼마나 더 똑똑하게 맞췄는가?"  │
│                                                        │
│ 3. SSE (Error): 모델이 설명하지 못하는 변동 (잔차)           │
│    - "내가 그은 선조차도 맞추지 못하고 빗나간 오차"         │
│                                                        │
│ [ 핵심 수식 ]                                          │
│ R² = SSR / SST = 1 - (SSE / SST)                        │
│ (전체 변동 중에서 내 모델이 완벽하게 설명해 낸 비율)          │
└────────────────────────────────────────────────────────┘

SST (총 변동): 아무런 모델 없이, 단순히 전체 데이터의 '평균(Mean)' 선만 띡 그어놓았을 때 발생하는 총 오차다. (가장 멍청한 베이스라인 모델)
SSE (오차 변동): 내가 심혈을 기울여 만든 회귀선($y=ax+b$)을 그었음에도 불구하고 여전히 틀린 오차(잔차의 제곱합)다.
$R^2$의 의미: "가장 멍청한 모델(평균)이 틀린 양(SST) 중에서, 내 똑똑한 모델이 에러를 얼마나 줄여냈는가?"를 뜻한다. 수식이 $1 - (SSE/SST)$인 이유가 바로 이 때문이다.

📢 섹션 요약 비유: 아무 생각 없이 '모든 학생은 평균 50점 맞을 거야'라고 찍은 멍청한 선생님(SST)보다, 학생들의 공부 시간을 꼼꼼히 분석한 내 예측 모델이 오차를 80%나 줄였다면, 내 모델의 $R^2$ 점수는 0.8(80점)이 되는 원리다.

Ⅲ. 비교 및 연결

회귀 모델을 평가하는 다양한 지표들을 목적에 따라 비교해 볼 수 있다.

평가지표	공식 요약	주요 특징 및 해석	단위(Scale) 종속성
$R^2$ (결정 계수)	$1 - (SSE/SST)$	0~1 사이의 절대적 비율 (설명력)	단위 없음 (직관적 비교 가능)
Adjusted $R^2$	패널티 항 추가	쓸데없는 변수 추가 시 점수가 떨어짐	단위 없음
MSE / RMSE	오차 제곱의 평균	오차가 얼마나 되는지 직관적 파악 가능	데이터 원본 단위에 종속 (예: 원, 달러)
MAE	오차 절댓값 평균	큰 이상치(Outlier)에 덜 민감함	데이터 원본 단위에 종속

$R^2$는 머신러닝의 파이프라인에서 하이퍼파라미터 튜닝 시 가장 자주 쓰이는 스코어링 메트릭(Scoring Metric) 중 하나로, 로지스틱 회귀의 '정확도(Accuracy)'와 동일한 위상을 갖는다.

📢 섹션 요약 비유: RMSE가 "네 예측이 실제와 5만 원 정도 차이 나네"라고 말해준다면, $R^2$는 "네 예측 모델은 전체 세상의 진리를 80% 정도 이해하고 있네"라고 평가해 주는 차원의 지표다.

Ⅳ. 실무 적용 및 기술사 판단

실무 적용 시나리오: 마케팅 믹스 모델링(MMM)을 할 때, 매출에 영향을 미치는 수십 개의 변수(TV 광고비, 날씨, 유튜브 광고비 등)를 집어넣는다. 이때 TV 광고비만 넣었을 때 $R^2$가 0.4였다가 유튜브 광고비를 추가했더니 $R^2$가 0.85로 뛰었다면, "유튜브 광고가 매출 변동성의 45%를 추가로 완벽히 설명해 낸다"고 경영진에게 명확히 보고할 수 있다.

기술사 판단 포인트 (Trade-off): 회귀 아키텍처 설계 시 **'$R^2$의 수학적 착시 현상'**을 방어하는 것이 기술사의 가장 중요한 임무다.

단순 $R^2$는 회귀 모델에 '마케팅 팀장의 신발 사이즈', '오늘 점심 메뉴' 같은 매출과 아무 상관 없는 쓰레기 변수(Feature)를 마구잡이로 집어넣어도 절대 떨어지지 않고 오히려 미세하게 올라간다. (수학적 맹점)
따라서 실무에서 다중 회귀 모델(변수가 2개 이상)을 평가할 때는 무조건 **조정된 결정 계수(Adjusted $R^2$)**를 지표로 삼아야 한다. 이는 변수의 개수($p$)가 늘어날 때마다 패널티 분모를 키워, 정말 의미 있는 변수를 넣었을 때만 점수가 오르도록 강제하는 방어막(Regularization 효과)이다.

📢 섹션 요약 비유: $R^2$는 학생이 아무 책(쓰레기 변수)이나 가방에 쑤셔 넣으면 무조건 지식의 양(점수)이 늘었다고 착각하는 바보 체중계다. 가방 개수만큼 패널티를 주는 '조정된 $R^2$' 체중계만이 진짜 뇌에 든 지식을 잴 수 있다.

Ⅴ. 기대효과 및 결론

결정 계수($R^2$)는 복잡한 통계학과 수학 수식을 단 하나의 깔끔한 퍼센티지(%) 점수로 포장해 주는 훌륭한 커뮤니케이션 도구다. 이 지표 덕분에 데이터 엔지니어와 비즈니스 경영진이 동일한 눈높이에서 예측 모델의 가치를 논의할 수 있게 되었다.

결론적으로 $R^2$는 선형 회귀의 절대적인 평가 기준이지만 맹신해서는 안 된다. 이상치(Outlier) 하나에 의해 점수가 요동칠 수 있고, 인과관계가 아닌 단순한 우연의 일치에도 점수는 높게 나올 수 있다. 기술사는 $R^2$를 과대평가하지 말고, 잔차도(Residual Plot) 시각화와 도메인 지식을 결합하여 모델의 진짜 숨겨진 성능을 입체적으로 감리(Audit)해야 한다.

📢 섹션 요약 비유: $R^2$는 모델의 화려한 성적표다. 성적표가 올백(1.0)이라고 해서 그 학생이 진짜 창의적인 천재인지, 아니면 기출문제만 달달 외운 암기 기계(과적합)인지 판별하는 것은 결국 통계 선생님(기술사)의 날카로운 면접이다.

📌 관련 개념 맵

상위 개념: 회귀 분석 (Regression Analysis), 모델 평가 지표 (Evaluation Metric)
하위 개념: SST, SSR, SSE, 잔차 (Residual)
연결 개념: Adjusted $R^2$ (조정된 결정 계수), MSE/RMSE, 과적합 (Overfitting)

👶 어린이를 위한 3줄 비유 설명

내가 내일 아이스크림이 몇 개 팔릴지 맞히는 마법 공식을 하나 만들었어요.
결정 계수($R^2$)는 이 마법 공식이 "아무렇게나 대충 찍은 것보다 얼마나 더 똑똑한가?"를 100점 만점의 점수로 매겨주는 시험 성적표예요.
이 점수가 90점(0.9)이면 내 마법 공식이 90% 확률로 세상을 꿰뚫어 보고 있다는 뜻이랍니다!