71. 분산 분석 (ANOVA, Analysis of Variance)

⚠️ 이 문서는 "강남점, 홍대점, 부산점 세 지점의 매출 평균이 똑같은가요, 아니면 유독 장사가 잘되는 튀는 지점이 있나요?"처럼 비교해야 할 집단(그룹)이 **단 2개일 때 쓰던 T-검정의 한계를 넘어, 3개 이상의 다수 집단들이 진짜로 실력 차이(평균 차이)가 있는지를 '집단 간의 퍼짐(분산)'과 '집단 내부의 퍼짐(분산)'의 비율을 찢어 발겨서 단 한 방에 수학적으로 판결해 내는 통계학의 샷건(Shotgun), '분산 분석(ANOVA)'**을 다룹니다.

핵심 인사이트 (3줄 요약)

  1. 본질: 이름은 '분산(Variance)' 분석이지만, 사실 그 궁극적인 목적은 집단 간의 '평균(Mean)'이 똑같은지 다른지를 캐묻는 역설적인 통계 기법이다. (분산을 재료로 써서 평균의 차이를 요리해 낸다.)
  2. 가치: A/B/C/D 4가지 쇼핑몰 버튼 색깔(빨강, 파랑, 노랑, 흑백) 중 어느 것이 클릭률이 높은지 1:1로 6번이나 귀찮게 T-검정을 돌리다 1종 오류(사기당할 확률)가 폭발하는 재앙을 막고, 4개 그룹을 한 번에 통째로 솥에 넣고 끓여서 "4개 중 적어도 하나는 확실히 다르다!"라는 팩트를 한 큐에 뽑아낸다.
  3. 기술 체계: **귀무 가설(H0)**은 "모든 집단의 평균은 똑같다($A=B=C$)"이다. 데이터의 흩어짐을 '집단끼리 멀어진 거리(Between)'와 '자기 반 안에서의 성적 널뛰기(Within)' 두 개로 나눈 뒤, 그 비율을 구한 **F-값(F-value)**이 미친 듯이 크면(집단 간 거리가 멀면) 귀무 가설을 기각하고 차이를 인정받는다.

Ⅰ. T-검정의 한계와 1종 오류(사기)의 폭발

집단이 3개가 넘어가는 순간 1:1 결투(T-검정)는 멈춰야 한다.

  1. 상황극 (버튼 4개의 클릭률 테스트):
    • 마케터가 결제 버튼 색깔을 빨강(A), 파랑(B), 노랑(C), 초록(D) 4개로 만들어 테스트를 돌렸다. 4개 그룹의 클릭률 평균이 모두 진짜로 똑같은지(차이 없음) 확인하고 싶다.
    • 통계 초보자는 T-검정만 배웠으므로, A-B, A-C, A-D, B-C, B-D, C-D 이렇게 총 6번의 T-검정 노가다를 돌리며 짝짜꿍 비교를 한다.
  2. 1종 오류(Type I Error) 알파($\alpha$)의 누적 폭발:
    • T-검정 1번 할 때 속을 확률(유의 수준 $\alpha$)을 5%($0.05$)로 잡았다 치자.
    • 하지만 이걸 6번 반복하면, 한 번이라도 우연히 뽀록이 터져서 "차이 있다!"고 헛발질(오판)할 확률이 $\approx 1 - (0.95)^6 = 26.5%$ 로 미친 듯이 폭증해 버린다.
    • 즉, 4개는 사실 전부 클릭률이 똑같은 맹물 버튼인데, 6번이나 찌르다 보니 4번 중 1번꼴(26%)로 "오! 파란색이 대박 났어요!(사기)"라고 사장님께 허위 보고를 올리게 되는 대참사가 터진다 (가족 오류율, FWER 문제).
  3. ANOVA의 샷건 등판:
    • ANOVA는 6번 찌르지 않는다. A, B, C, D 4개 그룹을 거대한 솥(공식)에 한꺼번에 쏟아붓고 버튼 딱 1번만 눌러서 F-값을 구한다.
    • 1번만 검사하므로 1종 오류(사기 확률)는 여전히 완벽하고 깔끔하게 5%($0.05$)로 굳건히 방어된다. 다수 집단 비교의 절대 규율이다.

📢 섹션 요약 비유: 경찰(통계학자)이 용의자 4명 중에 범인이 있는지 심문합니다. 초보 경찰(T-검정)은 용의자들을 2명씩 짝지어서 "너희 둘이 싸워봐"라며 6번의 결투를 시킵니다. 결투를 너무 많이 하다 보니 무고한 사람이 다치거나(1종 오류 폭발) 엉뚱한 자백이 나옵니다. 베테랑 형사(ANOVA)는 4명을 취조실 하나에 몽땅 다 몰아넣고 압박등을 켠 뒤, 단 1번의 묵직한 호통(F-검정 1회)을 쳐서 "이 방 안에 확실히 범인(평균이 튀는 놈)이 1명이라도 존재한다!"라는 완벽하고 안전한 팩트를 한 방에 도출해 내는 심문의 고수입니다.


Ⅱ. 분산 분석(ANOVA)의 심장: 분산을 찢어 평균을 본다

두 가지 퍼짐(분산)의 싸움. "너네 반 애들끼리 다를까, 아니면 반과 반 사이가 다를까?"

  1. F-값 (F-value)의 공식 비밀:
    • $F = \frac{\text{집단 간 분산 (Between Variance)}}{\text{집단 내 분산 (Within Variance)}}$
    • 이것이 ANOVA의 뇌관이다. 전체 학생의 점수가 널뛰는 이유를 '두 가지 원인'으로 찢어 발긴다.
  2. 집단 내 분산 (Within Variance) - 통제 불가한 개인기 (노이즈):
    • 강남점(A) 식당 손님 10명의 테이블 단가 결제액이 다 제각각이다. 어떤 놈은 1만 원, 어떤 놈은 10만 원을 먹는다.
    • 이건 식당 지점의 차이가 아니다. 그냥 사람들의 식성이나 돈통 두께가 달라서 생기는 어쩔 수 없는 '개인차(오차, 노이즈)'다. 이 분모 값이 클수록 통계는 지저분해진다.
  3. 집단 간 분산 (Between Variance) - 진짜 실력 차이 (신호):
    • 강남점(A) 평균은 5만 원, 홍대점(B) 평균은 2만 원, 부산점(C) 평균은 10만 원이다. 각 지점의 '평균 점수들'끼리 서로 엄청나게 멀리 떨어져서 널뛰기(분산)를 하고 있다.
    • 이 분자 값이 클수록 "와, 지점(집단) 간에 확실히 뭔가 환경적/지역적 '진짜 뚜렷한 차이(신호)'가 개입되어 있구나!"라는 강력한 증거가 된다.
  4. 판사의 결론 (F-값 폭발 $\rightarrow$ $p$-value 떡락):
    • 분모(지들끼리의 개인차)는 좁쌀만 한데, 분자(지점 평균들 간의 거리)가 수 킬로미터로 멀어져서 $F$-값이 100 처럼 무지막지하게 커졌다면?
    • 기계가 뱉는 $p$-value는 0.0001로 바닥을 뚫고 지하실로 간다.
    • 판결: "개인차(우연)를 압도할 만큼 지점들 사이의 평균 거리가 너무 멀다! 귀무 가설(세 지점 평균 똑같다) 기각! 세 지점 중 적어도 한 놈은 무조건 매출 실적이 통계적으로 다르다(대립 가설 채택)!"

📢 섹션 요약 비유: 3개 양궁 팀(A, B, C팀)이 활을 쐈습니다. $F$-값의 분모(집단 내 분산)는 A팀 10명 선수들끼리 자기들 과녁 안에서 화살이 얼마나 지저분하게 흩뿌려졌는지(개인차 오차)를 뜻합니다. 분자(집단 간 분산)는 A팀, B팀, C팀이 쏜 과녁판의 '정중앙 중심점' 3개가 10m씩 뚝뚝 멀리 떨어져 있는지(진짜 팀 간 실력차)를 잽니다. 만약 선수들끼리는 과녁에 옹기종기 예쁘게 뭉쳐서 잘 쐈는데(분모 작음), 세 팀의 과녁 뭉치 3개가 완전히 엉뚱한 허공 3곳에 박혀있다면(분자 큼), $F$-값이 폭발하면서 "이건 바람이 불어서(우연) 그런 게 아니라, 세 팀의 과녁 조준 실력(평균)이 진짜로 극명하게 다르다!"라고 수학적 팩트 폭행을 때려버리는 원리입니다.


Ⅲ. ANOVA의 함정과 사후 분석 (Post-Hoc Test)

"범인이 방 안에 있는 건 알겠는데, 그래서 4명 중 누군데?"

  1. ANOVA의 태생적 한계 (누가 다른지 안 알려줌):
    • ANOVA를 솥에 넣고 끓여서 $p < 0.05$ 가 나와 귀무 가설을 통쾌하게 부쉈다!
    • 그런데 사장님이 "잘했어! 그래서 빨강, 파랑, 노랑, 초록 버튼 4개 중에서 도대체 무슨 색깔이 제일 클릭률이 높아서 평균을 튀게 만든 거야?" 라고 묻는다.
    • 치명적이게도 ANOVA는 4개 중 "최소 1개는 다르다"라는 사실만 사이렌을 울려줄 뿐, 어느 버튼과 어느 버튼이 구체적으로 다른지 범인의 얼굴은 절대 지목해 주지 못하는 멍청한 알람 기계다.
  2. 구원 투수: 사후 분석 (Post-Hoc Test):
    • ANOVA 알람이 울린(유의미함) 직후에만 2단계로 출동하는 암살 부대다.
    • 대표적으로 튜키(Tukey), 셰페(Scheffe), 던칸(Duncan) 형님들의 이름이 붙은 통계법들이 있다.
    • 이 사후 분석 기계에 데이터를 다시 넣으면, 아까 문제가 되었던 1종 오류(사기 확률 폭발)의 패널티를 내부적으로 수학적으로 보정(방어)하면서, A-B, B-C 등을 안전하게 후드려 패며 짝짜꿍 비교를 알아서 다 해준다.
    • 최종 결과: "사장님, 사후 분석 결과 파란색 버튼(B)이 빨간색(A)과 노란색(C)보다 확실히 5% 이상 유의미하게 클릭률이 높아서 범인으로 색출되었습니다!"라는 완벽한 최종 비즈니스 보고서가 완성된다.

📢 섹션 요약 비유: 탐정(ANOVA)이 용의자 4명이 모인 방 밖에서 냄새를 킁킁 맡더니 "이 방 안에 확실히 똥을 밟고 온 놈(평균이 튀는 놈)이 최소 1명 존재한다($p$-value<0.05)!"라고 완벽하게 선언했습니다. 하지만 탐정은 문을 열고 들어가 "너지!" 하고 멱살을 잡을 권한이 없습니다. 이때 지시를 받은 행동대장(사후 분석 Tukey)이 방 문을 뻥 차고 들어가서, 4명의 신발 밑창을 1:1로 안전하고 꼼꼼하게 다 뒤집어 깐 뒤, "찾았습니다 사장님, 파란 옷 입은 놈(B) 구두에 똥이 묻어있습니다!"라고 핀셋으로 정확한 범인을 적발해 사형대에 세우는 완벽한 2단계 수사 콤보입니다.