결정 계수 (Coefficient of Determination) - R-Squared

핵심 인사이트 (3줄 요약)

R-Squared($R^2$)는 회귀 모델이 종속 변수의 전체 변동성 중 얼마나 많은 부분을 설명(Explain)할 수 있는지를 0에서 1 사이의 수치로 나타낸 상대적 지표임.
평균값으로만 예측하는 단순 모델 대비 현재 모델이 얼마나 개선되었는지를 측정하며, 1에 가까울수록 모델의 설명력이 완벽함을 의미함.
절대적인 오차 크기(RMSE 등)와 달리 데이터의 스케일에 영향을 받지 않아, 서로 다른 데이터셋을 사용하는 모델들 간의 성능 비교에 필수적임.

Ⅰ. 개요 (Context & Background)

회귀 분석의 궁극적인 목표는 데이터의 흩어짐(Variation)을 모델이 얼마나 잘 '설명'하느냐에 있다. 단순히 오차가 작다고 해서 좋은 모델은 아니다. 데이터 자체가 워낙 변동이 심하다면 큰 오차도 훌륭한 결과일 수 있기 때문이다. R-Squared는 전체 분산 대비 모델이 줄여준 분산의 비율을 계산하여, 모델의 통계적 기여도를 평가한다. 정보관리기술사 시험에서는 회귀 모델의 유의성 검정 후 반드시 따라오는 핵심 지표로 다루어진다.

Ⅱ. 아키텍처 및 핵심 원리 (Deep Dive)

R-Squared는 전체 오차(SST)를 모델에 의한 오차(SSR)와 설명되지 못한 오차(SSE)로 분해하는 원리에 기반한다.

[ R-Squared Decomposition Architecture ]

Total Variation (SST) = Regression Variation (SSR) + Error Variation (SSE)
(실제값 - 평균)²     = (예측값 - 평균)²          + (실제값 - 예측값)²

    R² = SSR / SST  = 1 - (SSE / SST)

      ^ Actual (Y)
      |         . (Data Point)
      |        /|
      |       / | SSE (Unexplained)
      |      /  v
      |     *--- (Predicted Ŷ)
      |    /    ^
      |   /     | SSR (Explained)
      |  /      v
      | /-------* (Mean Ȳ)
      +----------------------------> Independent (X)

[ Bilingual Comparison ]
- SST (Total Sum of Squares): 전체 제곱합. 데이터 본연의 총 변동량.
- SSR (Regression Sum of Squares): 회귀 제곱합. 모델이 설명해낸 변동량.
- SSE (Sum of Squared Errors): 잔차 제곱합. 모델이 설명하지 못한 오차.
- Explainability (설명력): 모델이 타겟의 변화를 얼마나 예측 가능한가.

$R^2$가 0.8이라면, "Y의 변동 중 80%는 독립변수 X에 의해 설명된다"고 해석할 수 있다.

Ⅲ. 융합 비교 및 다각도 분석 (Comparison & Synergy)

비교 항목	R-Squared ($R^2$)	Adjusted R-Squared (수정된 결정 계수)
계산 방식	1 - (SSE / SST)	변수 개수와 표본 크기에 따른 패널티 적용
특성	변수가 늘어날수록 무조건 증가 (함정)	유의미하지 않은 변수 추가 시 감소
용도	단순 회귀 분석	다중 회귀 분석 (변수 선택 시 표준)
기술사적 판단	모델의 기본적인 설명력 확인	변수 과다 선택에 의한 과적합(Overfitting) 방지

Ⅳ. 실무 적용 및 기술사적 판단 (Strategy & Decision)

(과적합 경계) 변수를 무작정 추가하면 $R^2$는 1에 가까워지지만, 이는 실제 성능 향상이 아닌 노이즈까지 학습한 결과일 수 있다. 따라서 실무에서는 항상 Adjusted R-Squared를 확인하여 독립변수의 효율성을 따져야 한다.
(도메인별 기준) 사회과학이나 마케팅 데이터는 변동이 심해 $R^2$가 0.3~0.5만 되어도 의미가 있다고 보지만, 반도체 공정이나 정밀 물리 실험에서는 0.99 이상이 아니면 신뢰할 수 없는 모델로 간주한다.
(RMSE와의 상호보완) $R^2$는 상대적 지표이므로, 실제 오차의 크기를 알 수 있는 RMSE와 함께 제시하여 "모델이 80%를 설명하며, 실제 오차는 ±5만원 수준이다"라고 종합적으로 서술해야 한다.

Ⅴ. 기대효과 및 결론 (Future & Standard)

R-Squared는 회귀 모델의 성적표와 같다. 복잡한 AI 알고리즘이 쏟아지는 환경에서도, 모델이 데이터의 본질적인 패턴을 얼마나 장악했는지 보여주는 가장 직관적인 척도다. 향후에는 비선형 관계를 측정하는 유사 결정 계수(Pseudo R-Squared)와 결합하여, 더 복잡한 딥러닝 회귀 모델의 설명 가능성을 높이는 핵심 도구로 남을 것이다.

📌 관련 개념 맵 (Knowledge Graph)

Correlation (상관관계): $R^2$는 상관계수($r$)의 제곱과 같음 (단순회귀)
F-test: 회귀 모델 전체의 유의성을 검정하는 통계 도구
Multicollinearity: $R^2$는 높으나 개별 변수 설명력이 낮을 때 의심
Overfitting: $R^2$ 수치만 맹신할 때 발생하는 모델 오류

👶 어린이를 위한 3줄 비유 설명

친구의 점수가 왜 올랐는지 설명할 때, "학원 덕분이야"라고 말하는 것과 같아.
R-Squared가 높으면 "진짜 학원 덕분에 점수가 오른 게 맞네!"라고 끄덕이는 거야.
1에 가까울수록 친구의 실력을 완벽하게 설명할 수 있는 '똑똑한 분석가'라는 뜻이지!