68. 유의 수준 ($\alpha$) 과 유의 확률 ($p$-value)

⚠️ 이 문서는 통계학적 가설 검정 법정에서 "제가 새롭게 만든 빨간색 결제 버튼이 기존 파란 버튼보다 확실히 매출을 올렸습니다!"라는 분석가의 주장(대립 가설)이 순전한 우연이나 뽀록이 아님을 수학적으로 입증하기 위해, '아무런 차이가 없다(귀무 가설)'고 억지로 가정했을 때 지금 내 눈앞의 결과가 튀어나올 기적의 확률인 '$p$-value'와, 판사가 방패를 부수고 승소 판결을 내려주는 절대 마지노선 기준인 '유의 수준($\alpha$)'의 냉혹한 판결 메커니즘을 다룹니다.

핵심 인사이트 (3줄 요약)

  1. 본질: $p$-value(유의 확률)는 내 주장의 '우연성'을 나타내는 성적표다. 이 숫자가 작을수록 "이건 우연히 터진 뽀록이 아니다! 진짜 뭔가 강력한 원인(효과)이 개입된 거다!"라는 내 주장의 힘이 폭발적으로 세진다.
  2. 가치: 마케터의 뇌피셜이나 사장님의 감(Gut feeling)으로 수십억짜리 프로젝트 방향을 트는 것을 막아준다. 오직 $p$-value가 판사가 정해놓은 합격선($0.05$ 등)을 뚫고 내려갈 때만 그 결정을 '통계적으로 유의미하다(Statistically Significant)'고 인정하여 예산을 집행하게 만드는 과학적 제동 장치다.
  3. 기술 체계: 분석 전에 미리 재판의 기준선인 **유의 수준($\alpha$, 보통 $0.05$ 또는 $5%$)**을 땅에 긋고 시작한다. 그 뒤 데이터를 돌려 얻은 $p$-value가 $\alpha$보다 작으면($p < 0.05$), 꼰대 같은 귀무 가설(차이 없음)을 발로 차서 기각(Reject)하고 나의 대립 가설(효과 있음)을 화려하게 채택한다.

Ⅰ. 방패와 창의 대결 세팅 (복습과 심화)

통계학은 삐딱하다. 내 주장이 맞다는 걸 직접 증명하지 않고, 반대 주장을 박살 낸다.

  1. 상황극: 다이어트 약의 개발:
    • A 제약회사가 신약을 만들었다. 환자 100명에게 먹였더니 몸무게가 평균 2kg 빠졌다.
    • 대립 가설 (H1, 나의 창): "이 신약은 진짜 다이어트 효과가 있다! (약 먹은 그룹 $\neq$ 안 먹은 그룹)"
    • 귀무 가설 (H0, 세상의 방패): "헛소리 마라. 약은 밀가루고, 2kg 빠진 건 그냥 그 100명이 우연히 요새 밥맛이 없어서 빠진 뽀록일 뿐이다! (약 먹은 그룹 $=$ 안 먹은 그룹)"
  2. 통계학 판사의 귀류법:
    • 판사는 먼저 방패(H0)의 손을 들어준다. "좋아, 일단 네 약은 효과가 없는 맹물(귀무 가설 참)이라고 100% 억지로 쳐보자."
    • "맹물을 먹었는데도 사람들이 평균 2kg이나 살이 빠지는 기적 같은 현상이 '순전히 우연만으로' 일어날 확률을 계산해 와라. 그 확률이 바로 $p$-value다."

📢 섹션 요약 비유: 검사(제약회사)가 "저놈이 범인(신약 효과 있음)입니다!"라고 소리쳐도, 판사(통계학)는 일단 "무죄 추정의 원칙(귀무 가설: 효과 없음)"을 발동합니다. 판사는 "저 놈이 완벽히 무죄(맹물)라고 쳤을 때, 하필 범행 현장에 저 놈의 지문과 혈흔(2kg 감량 데이터)이 우연히 묻어있었을 확률($p$-value)을 계산해 와!"라고 지시하며 냉혹한 확률 계산의 막을 올립니다.


Ⅱ. $p$-value (유의 확률): 우연이 만들어낸 기적의 점수

이 숫자가 0에 수렴할수록, 나의 주장은 진실에 가까워진다.

  1. $p$-value 계산 결과 1: $p = 0.30 (30%)$ 일 때:
    • "약을 맹물이라고 쳤을 때, 우연히 2kg이 빠질 확률이 무려 30%나 되네?"
    • 판사의 판결: "야, 10번 테스트하면 3번은 우연히 일어나는 흔한 일이잖아! 네 약이 대단해서 빠진 게 아니라 그냥 우연의 일치야. 돌아가!" $\rightarrow$ 귀무 가설 기각 실패 (효과 입증 실패).
  2. $p$-value 계산 결과 2: $p = 0.01 (1%)$ 일 때:
    • "약을 맹물이라고 쳤을 때, 우연히 사람들의 살이 2kg이나 빠질 확률이 고작 1%밖에 안 된다고?"
    • 판사의 판결: "맹물을 먹고 이런 결과가 나올 확률이 100번에 1번꼴의 기적이라고? 그렇다면 애초에 내 가정('이 약은 맹물이다') 자체가 썩어빠진 쓰레기 가정이구나! 방패(H0)를 찢어버려라. 네 약은 진짜 다이어트 효과가 있다(H1)고 인정해 주마!" $\rightarrow$ 귀무 가설 기각 성공 (효과 입증 성공).
  3. 오해의 늪 (절대 주의):
    • $p$-value는 "내 약이 가짜일 확률"이 아니다! (많은 사람들이 착각한다.)
    • 정확한 정의는 **"내 약이 가짜(H0 참)라고 가정했을 때, 지금 이 데이터(또는 더 극단적인 데이터)가 튀어나올 확률"**이다.

📢 섹션 요약 비유: 친구가 동전을 던지며 자기가 초능력자(H1)라고 우깁니다. 제가 "넌 사기꾼이고 동전은 정상(H0)이야"라고 가정합니다. 친구가 동전을 2번 던져 앞면이 2번 연속 나옵니다. 정상 동전으로 2연속 앞면이 나올 확률($p$-value)은 25%입니다. 저는 "운 좋네(기각 실패)"라며 콧방귀를 뀝니다. 그런데 친구가 10번을 던져 10번 연속 앞면이 나옵니다. 이 확률($p$-value)은 0.1%입니다. 우연 치고는 너무 기적이라 저는 무릎을 꿇고 "내가 졌어(H0 기각), 넌 진짜 초능력자야(H1 승리)!"라고 인정하는 과정입니다.


Ⅲ. 유의 수준 ($\alpha$): 합격 커트라인 땅에 긋기

도대체 $p$-value가 몇 점 밑으로 내려가야 무릎을 꿇어줄 것인가?

  1. 사전 세팅의 철칙 (유의 수준 $\alpha$):
    • 실험을 다 하고 나서 $p$-value가 0.08이 나왔다고 "에이, 커트라인을 0.10(10%)으로 쳐서 통과시키자!"라고 우기면 사기꾼이 된다.
    • 통계학에서는 실험을 1건이라도 돌리기 전에, 미리 판사가 도장을 찍어줄 절대 마지노선(유의 수준 $\alpha$)을 바닥에 딱 그어놓고 시작해야 한다.
  2. 국룰 커트라인: $0.05 (5%)$:
    • 가장 대중적인 마케팅/웹 분석 A/B 테스트에서 전 세계가 합의한 국룰 커트라인은 $\alpha = 0.05$ 다.
    • "우연히 터질 확률($p$-value)이 $5%$보다 작아야만 널 진짜 실력자(유의미함)로 인정해 주겠다"는 뜻이다.
  3. 생명이 오갈 땐 더 깐깐하게: $0.01 (1%)$:
    • 다이어트 약이 아니라, 먹으면 죽을 수도 있는 항암제(목숨)나 비행기 자율주행 알고리즘을 테스트한다 치자.
    • 우연히 뽀록이 터진 걸 진짜 효과라고 믿었다가 부작용으로 사람 1만 명이 죽으면 대참사다 (1종 오류의 공포).
    • 이때는 판사가 잣대를 미친 듯이 올려 $\alpha = 0.01$ 이나 $\alpha = 0.001$ 이라는 지독한 커트라인을 땅에 긋는다. $p$-value가 $0.02$로 엄청 낮게 나와도 $\alpha$($0.01$)를 못 뚫었으니 가차 없이 "효과 없음(기각 실패)!"이라며 신약 출시를 폐기해 버린다.

📢 섹션 요약 비유: 유의 수준($\alpha$)은 올림픽 오디션 심사위원(판사)이 오디션 시작 전에 미리 벽에 그어놓은 '키 제한 선(예: 180cm)'입니다. 지원자(데이터)가 와서 키($p$-value의 역수 개념)를 쟀을 때 179cm가 나오면 아무리 아슬아슬해도 가차 없이 탈락시킵니다. 만약 우주비행사를 뽑는 오디션(생명 직결)이라면 심사위원은 이 선을 190cm($\alpha=0.01$)로 미친 듯이 높여버려서, 진짜 확실한 괴물급 천재(극단적으로 낮은 $p$-value)가 아니면 절대 통과시켜 주지 않는 깐깐한 커트라인 조절의 묘미입니다.