67. 통계적 가설 검정 (Hypothesis Testing) 프로세스
⚠️ 이 문서는 데이터 분석가가 "우리 쇼핑몰 버튼 색깔을 빨간색으로 바꿨더니 클릭률이 3% 올랐습니다! 대박 났어요!"라고 호들갑을 떨 때, 그것이 진짜 디자인 변경의 효과인지 아니면 우연히 운이 좋아서(지나가던 사람이 실수로 누른 것) 오차가 튄 것인지를 냉혹한 수학의 잣대로 판별하여 억지 주장을 차단하는, **증명의 책임을 뒤집어씌워 진짜 효과(대립 가설)를 입증해 내는 통계학의 근본 재판 과정인 '가설 검정(귀무 가설 vs 대립 가설)'**을 다룹니다.
핵심 인사이트 (3줄 요약)
- 본질: "효과가 있다"고 우기기 전에, 먼저 "효과가 전혀 없고 우연일 뿐이다(귀무 가설, H0)"라는 절대 방어막을 쳐놓고 시작한다. 이 억지스러운 방어막을 수학적 증거(P-value)로 때려 부수어 기각(Reject)시켜야만 비로소 내가 주장하고 싶은 "효과가 있다(대립 가설, H1)"가 인정받는 법정 싸움이다.
- 가치: A/B 테스트의 핵심 원리다. 마케터의 '뇌피셜'과 '우연한 뽀록'에 회사 예산 수십억이 타오르는 것을 막아주고, 오직 수학적으로 우연이 아님(통계적 유의성)이 95% 이상 증명된 액션(기능 개선, 신약 개발)에만 돈을 쓰게 해주는 이성적인 브레이크다.
- 기술 체계: 방어막인 **귀무 가설(H0)**과 내가 뚫으려는 **대립 가설(H1)**을 세우고, 내 주장이 '우연히 발생했을 확률'인 **P-value(유의 확률)**를 구한다. 이 P-value가 0.05(5%)보다 낮으면 "우연이라고 하기엔 기적에 가까우니, 내 주장이 진짜다!"라며 귀무 가설의 멱살을 잡고 승리(기각)한다.
Ⅰ. 가설의 세팅: 창(H1)과 방패(H0)의 싸움
무죄 추정의 원칙. 검사가 유죄를 완벽히 입증하기 전까지 피고인은 무죄다.
- 대립 가설 (H1, Alternative Hypothesis) - 내가 찌르는 '창':
- 데이터 분석가가 목숨을 걸고 입증하고 싶은 새로운 주장, 차이, 효과다.
- 예: "새로 만든 빨간색 결제 버튼($B$)은 기존 파란색 버튼($A$)보다 클릭률이 더 높을 것이다! ($A < B$)"
- 신약 개발: "우리가 개발한 새 항암제는 기존 약보다 생존율을 10% 더 높일 것이다!"
- 귀무 가설 (H0, Null Hypothesis) - 세상의 절대 '방패':
- "니 주장은 뻥이고, 세상엔 아무 차이도 없고, 효과도 없고, 다 우연이다"라는 꼰대 같은 억지 주장이다. 무로 돌아간다(歸無)는 뜻이다.
- 예: "빨간색이든 파란색이든 클릭률은 똑같다. 니가 본 3% 차이는 그냥 어쩌다 지나가던 놈이 잘못 누른 우연일 뿐이다! ($A = B$)"
- 증명의 논리 (귀류법적 접근):
- 통계학은 대립 가설(H1)이 '진실이다'라고 직접 증명할 방법이 없다 (세상의 모든 사람을 다 테스트해 볼 수 없으므로).
- 그래서 꼼수를 쓴다. "방패인 귀무 가설(H0, 아무 차이 없다)이 사실이라고 억지로 100% 가정해 놓고, 지금 나온 데이터(클릭률 3% 상승)가 터질 확률을 구해보자. 그 확률이 번개 맞을 확률처럼 미친 듯이 낮다면? 귀무 가설(방패)이 애초에 틀린 쓰레기 가정이란 뜻이니까, 방패를 깨부수고(기각, Reject) 내 주장(창, H1)을 승리로 쟁취하자!"
📢 섹션 요약 비유: 법정 드라마입니다. 검사(분석가)는 "저 놈이 살인범이다!(대립 가설 H1)"라고 외칩니다. 하지만 판사는 절대 원칙인 '무죄 추정의 원칙(귀무 가설 H0)' 방패를 칩니다. "일단 무죄(차이 없음)라고 가정하겠다." 검사는 칼에 묻은 피, 알리바이 등 엄청난 증거(데이터)를 퍼부어 판사의 무죄 방패를 찢어발겨야(기각)만, 비로소 "유죄(차이 있음)" 판결을 받아내는 짜릿한 역전극이 바로 가설 검정입니다.
Ⅱ. 승패의 기준: 유의 수준($\alpha$)과 P-value
판사가 방패를 깰지 말지 결정하는 '기적의 확률 마지노선'이다.
- P-value (유의 확률, Probability Value):
- 귀무 가설(차이 없다)이 100% 진실이라고 가정했을 때, 지금 내 눈앞에 펼쳐진 결과(클릭률 3% 차이)가 '순전히 우연만으로' 일어날 수 있는 확률이다.
- P-value가
0.40 (40%)이라면? "아, 차이 없다고 치고 주사위 굴려도 10번 중 4번은 이 정도 3% 차이가 우연히 나오네." $\rightarrow$ 내 주장은 헛소리다. 우연일 뿐이다 (H0 기각 실패). - P-value가
0.01 (1%)이라면? "어? 차이가 없다고 가정했는데 이런 결과가 나올 확률이 100번 중 1번밖에 안 된다고? 이건 우연이라 보기 힘들다! 뭔가 진짜 마법(효과)이 일어난 거다!" $\rightarrow$ 쾌재를 부르며 내 주장이 맞다고 우긴다 (H0 기각 성공).
- 유의 수준 ($\alpha$, Alpha) - 마지노선 설정:
- 그렇다면 P-value가 몇 %보다 낮아야 '우연이 아니다(유의미하다)'라고 인정해 줄 것인가?
- 판사들(통계학계)이 정해놓은 암묵적인 국룰 마지노선이 바로 **5% (0.05)**다. (의학이나 목숨이 오가는 약물 테스트는 더 깐깐하게 **1% (0.01)**를 쓴다.)
- 즉,
P-value < 0.05이면 귀무 가설(방패)을 찢어버리고, 대립 가설(내 주장)을 통계적으로 입증(채택)하는 잭팟이 터진 것이다.
📢 섹션 요약 비유: 친구가 동전을 10번 던져 10번 다 앞면이 나왔다며 "이 동전은 앞면만 나오는 마법 동전(H1)이야!"라고 주장합니다. 저는 "뻥치지 마, 그냥 정상 동전(H0)인데 우연히 그런 거야"라고 방패를 칩니다. 계산해보니 정상 동전을 던져 10연속 앞면이 나올 확률(P-value)은 고작 0.1%(0.001)입니다. 5%(0.05, 마지노선)보다 택도 없이 낮습니다. 우연치고는 너무나도 기적적인 확률이기 때문에, 저는 방패(H0)를 깨부수고 무릎을 꿇으며 "와, 네 주장이 진짜 맞구나(H1 기각 성공)!"라고 인정하게 되는 확률 기반의 팩트 폭행입니다.
Ⅲ. 치명적 오판: 1종 오류와 2종 오류의 딜레마
판사도 신이 아니기에, 확률에 속아 애먼 사람을 잡아넣거나 진짜 범인을 풀어준다.
- 제1종 오류 (Type I Error, $\alpha$ 오류) - 잘나가는 생사람 잡기:
- 실제로는 아무 효과가 없는데(귀무 가설 진실), 우연히 데이터가 미친 듯이 튀어서 P-value가 0.05 밑으로 나와버린 경우다.
- 분석가가 "클릭률 올랐어요! 대박입니다!" 하고 전사 코드를 빨간 버튼으로 확 바꿨는데, 다음 달부터 매출이 폭락한다. (효과 없는 약을 명약이라고 출시해 버린 최악의 헛발질). 이를 통제하는 값이 바로 아까 설정한 '유의 수준(5%)'이다.
- 제2종 오류 (Type II Error, $\beta$ 오류) - 진짜 범인 놓치기:
- 실제로는 엄청난 효과가 있는데(대립 가설 진실), 하필 내가 데이터 표본을 10개밖에 안 뽑는 바람에 운이 나빠서 P-value가 0.20으로 훌쩍 높게 나와버린 경우다.
- 100억을 벌어줄 세기의 혁신 아이템이었는데, 판사가 "증거 부족! 우연임!"이라고 기각을 안 해주는 바람에 그 아이디어를 휴지통에 버리고 포기하게 되는 뼈아픈 실수다. (이를 막기 위해 표본 수(N)를 엄청나게 늘려 통계적 검정력(Power)을 높인다.)
📢 섹션 요약 비유: 제1종 오류는 죄 없는 선량한 시민(효과 없음)을 억지로 엮어 연쇄살인범(효과 있음)으로 사형시키는 최악의 사법 살인입니다. 제2종 오류는 눈앞에 증거가 살짝 부족하다며 진짜 연쇄살인범(효과 있음)을 "무죄!"라고 길거리에 풀어줘서 또다시 살인(아이디어 폐기)이 일어나게 놔두는 무능한 재판입니다. 둘 다 나쁘지만, 보통 돈이나 목숨을 헛되이 날리는 '1종 오류(가짜 명약 승인)'를 인류는 훨씬 더 끔찍하게 경계하여 5% 이하로 꽁꽁 틀어막는 통제(알파 통제)를 가장 중요하게 여깁니다.