70. T-검정 (t-Test) - 두 집단의 평균 차이 검증

⚠️ 이 문서는 "남학생 반 평균이 80점이고 여학생 반 평균이 85점이니까 여학생이 더 공부를 잘하네요!"라는 섣부른 뇌피셜(1차원적 비교)을 통계학 판사가 가로막고, **"그 5점 차이가 단순히 우연의 일치(노이즈)인지, 아니면 진짜 두 집단의 실력 차이가 통계적으로 뚜렷한(Significant) 것인지를 표본의 데이터 퍼짐(분산)을 고려하여 수학적으로 냉혹하게 찢어 발겨 판결을 내려주는 '가설 검정의 기초 뼈대인 T-검정(t-Test)'"**을 다룹니다.

핵심 인사이트 (3줄 요약)

  1. 본질: 두 개의 집단(A그룹과 B그룹)이 있을 때, 두 집단의 '평균 점수'가 진짜로 통계적으로 의미 있는 차이가 나는지(대립 가설), 아니면 그냥 운빨로 차이가 나 보이는 건지(귀무 가설) $p$-value를 통해 증명하는 가장 강력하고 흔한 통계 도구다.
  2. 가치: A/B 테스트의 심장이다. 마케터가 "빨간 버튼(A) 클릭률 5%, 파란 버튼(B) 클릭률 6%니 파란색으로 바꿉시다!"라고 우길 때, T-검정 기계에 넣고 돌려서 "$p$-value가 0.30이라 우연이네요. 기각합니다. 돈 쓰지 마세요"라며 헛발질 예산 낭비를 원천 방어해 준다.
  3. 기술 체계: 완전히 쌩판 남남인 두 그룹을 비교하는 **독립 표본 T-검정(Independent t-test)**과, 다이어트 약을 먹기 전의 '내' 몸무게와 먹은 후의 '내' 몸무게처럼 쌍(Pair)이 묶여있는 놈들을 비교하는 **대응 표본 T-검정(Paired t-test)**으로 나뉘어 전투를 벌인다.

Ⅰ. 평균만 보고 우기면 바보가 되는 이유 (분산의 함정)

"5점이나 차이 나는데 왜 차이가 없다고 우기십니까, 판사님?"

  1. 상황극: 5점 차이의 착시 현상:
    • A반(10명) 평균 80점, B반(10명) 평균 85점이다. 일반인은 무조건 B반이 공부를 잘한다고 생각한다.
    • 하지만 A반은 전원이 79점, 80점, 81점을 맞아서 80점이 된 '초밀집(분산이 작음)' 반이고, B반은 0점 맞고 자는 놈과 100점 천재가 뒤섞여(분산이 미친 듯이 큼) 운 좋게 평균이 85점이 된 반이라고 치자.
  2. T-검정의 통찰력 (분산이라는 엑스레이):
    • 통계학 판사는 겉으로 보이는 '평균의 차이(5점)' 절대 믿지 않는다.
    • 판사는 데이터가 얼마나 넓게 퍼져서 널뛰기하고 있는지(분산/표준편차)를 분모에 깔고 나눗셈을 때려버린다.
    • $t \text{-값(t-value)} = \frac{\text{두 집단의 평균 차이}}{\text{두 집단의 흩어진 정도(표준오차)}}$
    • 만약 B반처럼 점수가 중구난방으로 지저분하게 널뛰고(분산 폭발) 있으면, 분모가 엄청나게 커져서 $t$-값이 $0$에 가깝게 쪼그라든다.
    • $t$-값이 쪼그라들면? 판사는 "야, 점수가 이렇게 널뛰는데 5점 차이 난 건 그냥 이번 시험에 100점 맞은 천재 1명 때문에 우연히 일어난 뽀록(우연)이네! 두 반의 실력 차이 없다(귀무 가설 승리)!"라고 냉혹하게 사형 선고를 내려버린다.

📢 섹션 요약 비유: A 선수는 양궁 10발을 모두 8점 과녁 1mm 근처에 촘촘하게 꽂았습니다(분산 0). B 선수는 1점, 10점, 허공, 과녁 정중앙을 오가며 미친 듯이 활을 쏴서(분산 폭발) 어쩌다 보니 평균이 8.5점이 되었습니다. 단순한 관중은 평균 점수가 0.5점 높은 B가 훌륭하다고 박수(뇌피셜)를 치지만, 감독(T-검정)은 과녁의 흩어짐(분산)을 보고 "B는 실력이 아니라 운(우연)이 좋았을 뿐, 진짜 안정적인 실력 차이는 없다"라고 팩트 폭격을 날려 망상(오류)을 박살 내는 현미경 심사입니다.


Ⅱ. 독립 표본 T-검정 (Independent t-test)

완전히 남남인 두 마피아 조직이 진짜 실력 차이가 있는지 맞짱을 뜬다.

  1. 상황 및 목적:
    • A 집단과 B 집단이 서로 1%의 연관도 없는 완전히 독립적인 쌩판 남일 때 쓴다.
    • 예: '남성 고객'의 월평균 결제액 vs '여성 고객'의 월평균 결제액.
    • 예: 쇼핑몰의 '파란색 UI를 본 A 그룹(500명)'의 구매율 vs '빨간색 UI를 본 B 그룹(500명)'의 구매율. (이것이 100% 리얼 A/B 테스트의 실체다.)
  2. 검정 프로세스와 승리(기각) 조건:
    • 앞서 배운 마지노선(유의 수준 $\alpha$)을 $0.05 (5%)$로 그어놓는다.
    • 남성 그룹 엑셀 데이터와 여성 그룹 엑셀 데이터를 통계 프로그램(Python SciPy 등)에 던져 넣는다.
    • 기계가 평균과 분산을 다 갈아 넣고 씹어서 마침내 $p$-value를 토해낸다.
    • 만약 기계가 뱉은 $p$-value가 $0.02 (2%)$가 나왔다 치자.
    • "오! 두 남녀 그룹의 구매액이 똑같다(귀무 가설)고 쳤을 때, 지금 이 데이터 차이가 터질 확률이 고작 2%밖에 안 되네? 커트라인(5%) 뚫었네! 기적이다! 남녀 간에는 진짜 통계적으로 유의미한 엄청난 결제액 차이가 존재한다(대립 가설 H1 채택)!"

📢 섹션 요약 비유: 복싱 체육관 A(남성)와 B(여성)에서 선수를 100명씩 무작위로 뽑아 단체 난투극(독립 표본 T-검정)을 벌입니다. A 체육관이 조금 더 많이 이긴 것 같습니다. 그런데 "이게 진짜 A 체육관이 복싱을 잘 가르쳐서 이긴 건가? 아니면 하필 오늘 B 체육관 에이스들이 감기에 걸려서 우연히 이긴 건가?"를 수학 공식(t-값과 $p$-value)에 넣어 재판합니다. 계산 결과 "이 정도 점수 차이가 우연히 터질 확률이 로또 확률($p<0.05$)입니다"라는 판결이 떨어지면, 그때야 비로소 "A 체육관이 B 체육관보다 확실히 우월하다(대립 가설 통과)!"라고 전 세계에 광고 현수막을 걸 자격이 주어집니다.


Ⅲ. 대응 표본 T-검정 (Paired t-test)

어제의 나와 오늘의 나가 맞짱을 뜬다. 외부 변수를 차단한 1:1 데스매치.

  1. 상황 및 목적:
    • 쌩판 남남(독립)을 비교하는 게 아니라, **'동일한 한 사람(쌍, Pair)'에게 어떤 짓(약물 투여, 교육)을 하기 전(Before)과 한 후(After)**의 성적 차이를 비교할 때 쓰는 치명적인 필살기다.
    • 예: 철수의 다이어트 약 복용 전 몸무게(100kg) vs 3달 뒤 복용 후 몸무게(95kg). 영희의 복용 전(60kg) vs 복용 후(58kg).
  2. 독립 표본과의 비교 (쌍으로 묶기의 무서움):
    • 왜 굳이 '대응(Paired)'이라는 귀찮은 기법을 쓸까? 만약 약 먹은 A 그룹 100명과 안 먹은 B 그룹 100명을 독립 표본으로 비교(남남 비교)하면, A 그룹에 하필 운동선수(체질이 다른 노이즈)가 섞여 있어서 효과가 왜곡될 수 있다.
    • 하지만 '과거의 철수'와 '현재의 철수'를 1:1로 묶어버리면(대응 표본), 철수의 기초 대사량, 유전자, 식습관 같은 더럽고 복잡한 외부 변수(노이즈)들이 완벽하게 수학적으로 소거(통제)되어 버린다.
    • 오직 '다이어트 약의 효과'라는 순수한 정수(차이값 $D$) 하나만 남아 검정 기계로 들어가기 때문에, 100명을 독립 비교하는 것보다 고작 10명만 데리고 대응(Paired) 비교를 돌리는 것이 약의 진짜 효과($p$-value)를 훨씬 더 기가 막히고 예민하게(검정력 폭발) 캐치해 낼 수 있다.

📢 섹션 요약 비유: 화장품의 피부 미백 효과를 증명하고 싶습니다. 독립 표본 T-검정은 백인 10명에게 화장품을 바르고, 원래 까무잡잡한 아프리카인 10명과 피부색을 비교하며 "우리 화장품 짱 하얘지죠?"라고 우기는 멍청한(노이즈 가득한) 테스트입니다. 인종 차이라는 변수가 다 오염시켰기 때문입니다. 대응 표본 T-검정은 '한 사람의 왼쪽 뺨(Before)'과 그 사람의 '오른쪽 뺨(After)'에만 화장품을 발라 1:1로 묶어서 완벽히 비교합니다. 유전자, 자외선 노출 같은 방해꾼 변수들이 100% 소거되고, 오직 순수한 화장품의 미백 효과 단 하나만이 현미경에 찍혀 나오는 궁극의 쌍방울(Pair) 증명법입니다.