핵심 인사이트

조건부 확률 (Conditional Probability) P(A|B) 는 "B라는 제약된 세계 안에서 A가 일어날 확률"이다. 전체 표본공간을 B로 축소하는 것이 핵심이다. 연쇄 법칙 (Chain Rule) 은 복잡한 결합 확률을 조건부 확률의 곱으로 분해하여, 베이즈 네트워크와 언어 모델의 수학적 기반을 이룬다. 검사자 오류 (Prosecutor's Fallacy) 처럼 조건 방향을 뒤집으면 완전히 다른 확률이 나오므로, P(A|B) ≠ P(B|A) 를 항상 명심해야 한다.


Ⅰ. 조건부 확률의 정의와 기하학적 의미

공식 정의

P(A|B) = P(A∩B) / P(B),   단 P(B) > 0

해석: B가 발생했을 때, A도 함께 발생할 확률

기하학적 해석

조건부 확률은 표본공간을 B로 축소한 후, 그 안에서 A가 차지하는 비율이다.

┌──────────────────────────────────────────────────┐
│  원래 표본공간 Ω                                  │
│  ┌────────────────────────┐                      │
│  │                        │                      │
│  │    A    │ A∩B │   B    │                      │
│  │ (A만)   │(교집합)│(B만) │                      │
│  │         │      │       │                      │
│  └────────────────────────┘                      │
│                                                  │
│  B가 주어졌을 때: 표본공간이 B로 축소됨           │
│                                                  │
│  ┌──────────────────┐                            │
│  │ 축소된 공간 B     │                            │
│  │   │  A∩B  │      │                            │
│  │   └───────┘      │                            │
│  └──────────────────┘                            │
│                                                  │
│  P(A|B) = 넓이(A∩B) / 넓이(B)                   │
└──────────────────────────────────────────────────┘

예시: 주사위를 던져 짝수(B)가 나왔을 때, 6이 나올 확률(A)?

P(A∩B) = P(6) = 1/6
P(B) = P(짝수) = 3/6 = 1/2
P(A|B) = (1/6) / (1/2) = 1/3

📢 섹션 요약 비유: 조건부 확률은 "전국 지도" 대신 "서울 지도"만 펼치고 그 안에서 길을 찾는 것이다 — 공간이 좁아지면 같은 위치도 다른 비율로 보인다.


Ⅱ. 곱셈 법칙과 연쇄 법칙

곱셈 법칙 (Multiplication Rule)

조건부 확률 정의를 변형하면:

P(A∩B) = P(A|B) · P(B) = P(B|A) · P(A)

연쇄 법칙 (Chain Rule)

n개 사건의 결합 확률을 조건부 확률의 곱으로 분해:

P(A₁∩A₂∩...∩Aₙ)
  = P(A₁) · P(A₂|A₁) · P(A₃|A₁,A₂) · ... · P(Aₙ|A₁,...,Aₙ₋₁)
  = Πᵢ P(Aᵢ | A₁, ..., Aᵢ₋₁)

예시 — 카드 3장을 순서대로 뽑기 (비복원):

P(첫 번째 에이스) = 4/52
P(두 번째 에이스|첫 번째 에이스) = 3/51
P(세 번째 에이스|앞 두 개 에이스) = 2/50

P(3에이스 연속) = (4/52) × (3/51) × (2/50) ≈ 0.000181

언어 모델에서의 연쇄 법칙

P(나는 밥을 먹었다)
  = P(나는) × P(밥을|나는) × P(먹었다|나는,밥을)

이것이 GPT 류 대형 언어 모델 (LLM, Large Language Model) 의 핵심 수학이다.

📢 섹션 요약 비유: 연쇄 법칙은 "복잡한 요리의 레시피"를 단계별 조건("계란 후라이를 만들었을 때, 그 다음 볶음밥은?")으로 쪼개서 전체 확률을 구하는 방식이다.


Ⅲ. 수형도로 조건부 확률 시각화

수형도 (Tree Diagram) 는 여러 단계로 이어지는 조건부 확률을 직관적으로 표현한다.

                    ┌─── P(A₁∩B₁) = 0.6×0.9 = 0.54
          ┌─ B₁(0.9)┤
          │          └─── P(A₁∩B̄₁) = 0.6×0.1 = 0.06
    A₁(0.6)
   /        \         ┌─── P(A₁∩B₂) 계산 오류 방지 위해
  /           \       │    별도 가지로 표현
 /             \
시작            ┌─ B₁(0.4)┐
   \            │          └─ P(A₂∩B₁) = 0.4×0.4 = 0.16
    A₂(0.4)────┤
                └─ B̄₁(0.6)──── P(A₂∩B̄₁) = 0.4×0.6 = 0.24

P(B₁) = P(B₁|A₁)·P(A₁) + P(B₁|A₂)·P(A₂)
      = 0.9×0.6 + 0.4×0.4 = 0.54+0.16 = 0.70

📢 섹션 요약 비유: 수형도는 "가능한 모든 길"을 나뭇가지처럼 펼쳐 놓고, 각 분기점에서 확률을 곱해가는 지도다.


Ⅳ. 주요 응용 — ML 및 DB

ML에서 조건부 독립 (Conditional Independence)

A와 B가 C에 대해 조건부 독립이면:

P(A∩B|C) = P(A|C) · P(B|C)
즉: P(A|B,C) = P(A|C) — B를 알아도 C만 알면 A에 추가 정보 없음

응용:

  • 나이브 베이즈: 모든 특징이 클래스 레이블에 대해 조건부 독립 가정
  • 마르코프 체인 (Markov Chain): 미래 상태는 현재 상태에만 조건부 종속
  • 베이즈 네트워크: 조건부 독립 관계를 DAG 로 명시적 표현

데이터베이스 쿼리 최적화 — 선택도 (Selectivity) 추정

쿼리 옵티마이저 (Query Optimizer) 는 조건부 확률로 필터 선택도를 추정한다:

SELECT * FROM orders
WHERE region = 'Seoul' AND amount > 100000;
P(amount > 100K | region = 'Seoul')
  ≠ P(amount > 100K)  ← 지역별 소비 패턴이 다르면 조건부

추정 방법:
  단순 독립 가정: P(A∩B) ≈ P(A)·P(B)
  상관 있는 경우: 히스토그램(Histogram) 기반 결합 분포 추정
추정 방법정확도비용사용 조건
독립 가정낮음저비용상관 없는 컬럼
히스토그램중간중간단일 컬럼 분포
다차원 통계높음고비용조인 컬럼

📢 섹션 요약 비유: 옵티마이저가 "서울 사람이면서 고액 결제자"를 찾을 때, "서울 사람 중 고액 결제자 비율"을 아는 것이 "서울 사람 비율 × 고액 결제자 비율"보다 훨씬 정확한 것처럼, 조건부 확률은 현실의 상관관계를 포착한다.


Ⅴ. 검사자 오류 — 조건 방향을 뒤집는 실수

검사자 오류 (Prosecutor's Fallacy) 는 P(증거|무죄) 와 P(무죄|증거) 를 동일시하는 논리적 오류다.

범죄 현장 혈액형 일치 확률:
  P(혈액형 일치 | 무고한 사람) = 0.1   (10%의 사람이 같은 혈액형)

검사의 잘못된 주장:
  "혈액형이 일치하므로 무죄 확률은 10%다"
  → P(무죄 | 혈액형 일치) = 0.1 ← 완전히 다른 확률!

베이즈 정리로 올바른 계산:
  P(무죄 | 증거) = P(증거 | 무죄) · P(무죄) / P(증거)
  → 유죄 추정(Prior)과 증거의 특이성(Likelihood)을 모두 고려해야 함

조건부 확률 vs 결합 확률 vs 주변 확률 비교:

종류기호의미예시
주변 확률 (Marginal)P(A)A만의 확률P(비) = 0.3
결합 확률 (Joint)P(A∩B)A와 B 동시 발생P(비∩우산) = 0.25
조건부 확률 (Conditional)P(A|B)B 주어졌을 때 AP(비|우산) = 0.83

📢 섹션 요약 비유: "비 오는 날 우산을 들고 있을 확률"과 "우산을 들었을 때 비가 올 확률"은 완전히 다른 질문이다. 조건의 방향을 바꾸면 전혀 다른 세계가 열린다.


📌 관련 개념 맵

개념연결 개념관계
조건부 확률베이즈 정리P(A|B)의 역방향 활용
연쇄 법칙언어 모델 (LLM)문장 확률 분해
조건부 독립나이브 베이즈단순화 가정
선택도 추정쿼리 옵티마이저DB 성능 최적화
검사자 오류확증 편향논리적 오류 유형
마르코프 성질마르코프 체인조건부 독립의 특수 형태

📈 관련 키워드 및 발전 흐름도

[:---]
    │
    ▼
[조건부 확률]
    │
    ▼
[연쇄 법칙]
    │
    ▼
[조건부 독립]
    │
    ▼
[선택도 추정]
    │
    ▼
[검사자 오류]

이 흐름도는 :---에서 출발해 선택도 추정까지 이어지며, 중간 단계가 기초 개념을 실무 구조로 발전시키는 과정을 보여준다.

👶 어린이를 위한 3줄 비유 설명

  • 전체 학생 중 축구를 좋아할 확률이 아니라, "남자 학생 중" 축구를 좋아할 확률처럼, 조건을 붙이면 계산 대상이 좁아져.
  • P(A|B)는 "B라는 울타리 안에서만 생각할게"라는 뜻이야.
  • 검사자 오류는 "우산 든 사람이 비 맞는다"고 착각하는 것처럼, 조건의 방향을 거꾸로 뒤집는 실수야.