75. 조건부 확률 (Conditional Probability) 및 베이즈 정리 (Bayes' Theorem)

⚠️ 이 문서는 "내일 비가 올 확률은 10%다"라는 멍청한 초기 예측(사전 확률)을 맹신하다가 우산을 안 챙겨 쫄딱 젖는 바보를 위해, **"아침에 하늘을 보니 시커먼 먹구름이 끼었다(새로운 정보/사건 발생)"는 명백한 증거를 획득한 뒤, 이 새로운 조건(먹구름)을 수학 방정식에 쑤셔 넣어서 "먹구름이 끼었을 때 내일 비가 올 진짜 확률은 무려 80%로 떡상한다!"라고 과거의 뇌피셜 확률을 최신화(업데이트)시켜 버리는 통계학 역사상 가장 위대한 추론 기법인 '조건부 확률과 베이즈 정리'**를 다룹니다.

핵심 인사이트 (3줄 요약)

  1. 본질: 고정된 확률은 없다. 확률은 새로운 정보(데이터)가 추가될 때마다 끝없이 진화하고 업데이트된다. $A$가 일어났다는 '조건' 하에 $B$가 일어날 확률을 구하는 것이 조건부 확률($P(B|A)$)의 전부다.
  2. 가치: 스팸 메일 필터링과 코로나19 진단 키트의 핵심 심장이다. "어떤 메일에 '무료'라는 단어가 들어왔을 때(증거), 이 메일이 스팸일 확률(결론)은 얼마인가?"를 기가 막히게 역추적하여 현대 머신러닝의 뼈대를 박아버린 마법의 공식이다.
  3. 기술 체계: 뇌피셜인 **사전 확률(Prior)**에, 그 사건이 일어날 만한 힌트였던 **우도/가능도(Likelihood)**를 곱해서, 진리가 반영된 최종 수정본인 **사후 확률(Posterior)**을 도출해 내는 베이즈 방정식으로 돌아간다.

Ⅰ. 조건부 확률: 새로운 힌트가 확률의 우주를 쪼그라뜨린다

주사위를 굴렸다. 짝수가 나올 확률은 50%다. 그런데 누군가 "방금 나온 숫자는 3보다 크대!"라고 귀띔을 해주었다면?

  1. 일반 확률의 무지함:
    • 주사위를 굴려 짝수(2, 4, 6)가 나올 확률은 $P(\text{짝수}) = 3/6 = \textbf{50%}$ 다. 이것이 '사전 확률'이다. 아무 정보도 없을 때의 기본값.
  2. 조건부 확률의 발동 ($P(B|A)$):
    • 기호 $P(\text{짝수}|\text{3초과})$ 로 쓴다. "| (바)" 뒤에 있는 것이 **"이미 발생한 팩트(조건)"**이다.
    • 해석: "주사위가 3보다 크다(4, 5, 6)는 사실이 확정되었을 때, 그 숫자가 짝수(4, 6)일 확률은?"
    • 우주의 붕괴와 재창조: 원래 주사위 우주의 크기는 1,2,3,4,5,6 (6개)였다. 그런데 3보다 크다는 힌트를 얻는 순간! 1, 2, 3이라는 잉여 우주는 펑 터져 사라지고, 나의 새로운 우주는 오직 [4, 5, 6] 딱 3개로 팍 쪼그라든다(분모의 축소).
    • 이 좁아진 새로운 3개의 우주 안에서 짝수는 4, 6 두 개뿐이다. 따라서 확률은 $2/3 = \textbf{66.6%}$로 떡상한다.
  3. 결론:
    • 새로운 데이터(조건)를 얻으면, 전체 우주(분모)가 쪼그라들고 확률이 극적으로 업데이트된다. 이것이 조건부 확률의 위대한 힘이다.

📢 섹션 요약 비유: 장님(일반 확률)이 거리에 100명의 사람이 있는데 그중 남자가 50명이라 "남자일 확률은 50%"라고 찍습니다. 그런데 옆에서 힌트 요정(조건부 확률)이 귓속말을 합니다. "야, 방금 지나간 사람 군복 입고 있었어(새로운 조건/증거)!" 장님의 머릿속 우주는 미친 듯이 좁혀집니다. 군복을 입은 사람은 100명 중 10명(새로운 좁은 분모 우주)뿐이고, 그중 남자는 9명입니다. 장님은 즉시 확률표를 지우고 "저 사람 남자일 확률 90%로 수정!"이라고 광속으로 확률을 업데이트하는 족집게 수사법입니다.


Ⅱ. 베이즈 정리 (Bayes' Theorem): 원인과 결과의 역추적

"증상(기침)을 보고 병(감기)을 맞춘다." 결과를 보고 원인을 역주적하는 마법.

  1. 원인 $\rightarrow$ 결과 (우도, Likelihood):
    • 우리가 쉽게 아는 통계다. "감기 환자 100명을 모아놓고 조사해보니, 그중 80명이 기침을 쿨럭쿨럭 하더라."
    • 수식: $P(\text{기침}|\text{감기}) = 80%$. (감기에 걸렸을 때 기침을 할 확률). 의사들이 연구해서 논문에 써놓은 쉬운 지표다.
  2. 결과 $\rightarrow$ 원인 (사후 확률, Posterior)의 미스터리:
    • 근데 병원 문을 열고 들어온 일반 손님(나)은 저런 통계 따위 관심 없다. 나는 그저 **"의사 쌤, 저 지금 기침(결과) 나는데, 저 감기(원인) 걸린 건가요, 폐렴 걸린 건가요?"**라는 정반대의 확률을 알고 싶을 뿐이다.
    • 수식: $P(\text{감기}|\text{기침})$. (기침을 한다는 '증거'가 터졌을 때, 내 몸속의 '진짜 원인'이 감기일 확률).
  3. 베이즈 목사님의 기적의 공식:
    • 수학자 토마스 베이즈는 এই 정반대의 질문을 풀기 위해 앞뒤를 뒤집는 기적의 공식을 만들었다.
    • 사후 확률 = (우도 $\times$ 사전 확률) $/$ 증거 확률
    • $P(\text{감기}|\text{기침}) = \frac{P(\text{기침}|\text{감기}) \times P(\text{감기})}{P(\text{기침})}$
    • "네가 진짜 감기일 확률은 = (감기 환자가 기침할 확률 $\times$ 평소 전 국민 감기 걸릴 확률) $\div$ (전 국민 중 기침하는 놈의 총비율)"
    • 이 공식 하나로, 우리는 **'눈앞에 벌어진 결과(기침, 스팸 단어)'를 토대로 '보이지 않는 진짜 원인(감기, 스팸 메일)'을 100% 역추적해서 잡아낼 수 있는 AI의 심장부(나이브 베이즈 분류기)**를 완성하게 된 것이다.

📢 섹션 요약 비유: 일반적인 통계(우도)는 "도둑(원인)이 담을 넘으면 90% 확률로 발자국(결과)을 남긴다"를 연구하는 경찰청의 통계입니다. 베이즈 정리(사후 확률)는 현장에 출동한 형사가 **"바닥에 발자국(결과)이 찍혀있는데, 이게 진짜 도둑(원인)이 남긴 발자국일까, 아니면 그냥 동네 개가 밟은 걸까?"**라는 정반대의 미스터리를 푸는 기법입니다. 형사는 동네에 며칠에 한 번 꼴로 도둑이 드는지(사전 확률)를 곱해서, 눈앞의 발자국이 진짜 도둑일 확률을 기가 막히게 역으로 꿰뚫어 보는 탐정의 추리 공식입니다.


Ⅲ. 진단 키트의 절망적 딜레마 (베이즈 정리 실전)

"코로나 검사기 정확도가 99%인데, 양성이 떴다고 진짜 코로나일 확률은 2%라고?"

  1. 정확도 99% 맹신의 함정:
    • 코로나 진단 키트를 샀다. 박스에 적혀있다. "실제 감염자를 양성으로 잡아낼 확률(민감도/우도) 99%!"
    • 제가 코를 쑤셨는데 '두 줄(양성)'이 떴습니다. 멘붕에 빠집니다. "아... 나 99% 확률로 코로나 걸렸네 ㅠㅠ 유서 써야겠다."
  2. 베이즈 정리가 내리는 팩트 폭행:
    • 통계학자가 등짝을 때리며 베이즈 공식을 꺼낸다.
    • $P(\text{진짜 감염}|\text{양성판정})$. 즉, "양성 판정이라는 조건 하에, 네 몸이 진짜 코로나일 사후 확률"을 계산해보자.
    • 핵심은 **사전 확률(Prior)**이다. 현재 전 국민 1,000만 명 중 코로나에 걸린 진짜 감염자는 단 1만 명(0.1%)뿐이라고 치자. 이게 나의 뇌피셜(사전 확률) 베이스다.
    • 베이즈 계산: "너 같이 정상인 99.9% 집단에서, 진단 키트가 1%의 확률로 '가짜 양성(오진)'을 뱉어내는 숫자가, 진짜 0.1%의 감염자를 잡아내는 숫자보다 압도적으로 훨씬 많아 임마!"
  3. 충격적인 결과:
    • 베이즈 공식에 넣고 돌려보니, 키트가 99% 정확도를 자랑하더라도 워낙 질병이 희귀(0.1%)하기 때문에, **두 줄(양성)이 떴을 때 내가 진짜 감염자일 확률은 고작 "9%"**밖에 안 된다는 충격적인 결과가 나온다. 나머지 91%는 기계의 오진(False Positive)에 내가 재수 없게 걸려든 것이다.
    • 이 베이즈 정리를 이해하지 못하면, 의사들은 무고한 사람의 배를 가르고(1종 오류), 스팸 필터는 중요한 회사 합격 메일을 스팸통에 처박아버리는 대재앙을 저지르게 된다.

📢 섹션 요약 비유: 테러범 적발 AI 카메라가 있습니다. "테러범을 99% 확률로 얼굴을 인식해 잡아냅니다!" 경찰은 환호합니다. 공항에 100만 명의 선량한 시민이 지나갑니다. AI 카메라는 1%의 오작동(가짜 양성)을 일으켜 선량한 시민 1만 명의 얼굴에 시뻘건 '테러범!' 경고등을 터뜨립니다. 실제 공항에 섞여 있던 진짜 테러범은 고작 1명이었습니다. 경찰은 경고등이 울린 10,001명을 잡아다가 조사하지만, 진짜 테러범일 확률(사후 확률 베이즈 정리)은 10,001명 중 딱 1명(0.009%)에 불과합니다. 기계의 정확도(99%)라는 마케팅 문구에 속아 1만 명의 애먼 사람을 고문하는 삽질을 막아주는 통계학 최후의 지성, 그것이 바로 베이즈 정리입니다.