3. 조건부 확률 (Conditional Probability) — P(A|B)

핵심 인사이트

조건부 확률 (Conditional Probability) P(A|B) 는 "B라는 제약된 세계 안에서 A가 일어날 확률"이다. 전체 표본공간을 B로 축소하는 것이 핵심이다. 연쇄 법칙 (Chain Rule) 은 복잡한 결합 확률을 조건부 확률의 곱으로 분해하여, 베이즈 네트워크와 언어 모델의 수학적 기반을 이룬다. 검사자 오류 (Prosecutor's Fallacy) 처럼 조건 방향을 뒤집으면 완전히 다른 확률이 나오므로, P(A|B) ≠ P(B|A) 를 항상 명심해야 한다.

Ⅰ. 조건부 확률의 정의와 기하학적 의미

공식 정의

P(A|B) = P(A∩B) / P(B),   단 P(B) > 0

해석: B가 발생했을 때, A도 함께 발생할 확률

기하학적 해석

조건부 확률은 표본공간을 B로 축소한 후, 그 안에서 A가 차지하는 비율이다.

┌──────────────────────────────────────────────────┐
│  원래 표본공간 Ω                                  │
│  ┌────────────────────────┐                      │
│  │                        │                      │
│  │    A    │ A∩B │   B    │                      │
│  │ (A만)   │(교집합)│(B만) │                      │
│  │         │      │       │                      │
│  └────────────────────────┘                      │
│                                                  │
│  B가 주어졌을 때: 표본공간이 B로 축소됨           │
│                                                  │
│  ┌──────────────────┐                            │
│  │ 축소된 공간 B     │                            │
│  │   │  A∩B  │      │                            │
│  │   └───────┘      │                            │
│  └──────────────────┘                            │
│                                                  │
│  P(A|B) = 넓이(A∩B) / 넓이(B)                   │
└──────────────────────────────────────────────────┘

예시: 주사위를 던져 짝수(B)가 나왔을 때, 6이 나올 확률(A)?

P(A∩B) = P(6) = 1/6
P(B) = P(짝수) = 3/6 = 1/2
P(A|B) = (1/6) / (1/2) = 1/3

📢 섹션 요약 비유: 조건부 확률은 "전국 지도" 대신 "서울 지도"만 펼치고 그 안에서 길을 찾는 것이다 — 공간이 좁아지면 같은 위치도 다른 비율로 보인다.

Ⅱ. 곱셈 법칙과 연쇄 법칙

곱셈 법칙 (Multiplication Rule)

조건부 확률 정의를 변형하면:

P(A∩B) = P(A|B) · P(B) = P(B|A) · P(A)

연쇄 법칙 (Chain Rule)

n개 사건의 결합 확률을 조건부 확률의 곱으로 분해:

P(A₁∩A₂∩...∩Aₙ)
  = P(A₁) · P(A₂|A₁) · P(A₃|A₁,A₂) · ... · P(Aₙ|A₁,...,Aₙ₋₁)
  = Πᵢ P(Aᵢ | A₁, ..., Aᵢ₋₁)

예시 — 카드 3장을 순서대로 뽑기 (비복원):

P(첫 번째 에이스) = 4/52
P(두 번째 에이스|첫 번째 에이스) = 3/51
P(세 번째 에이스|앞 두 개 에이스) = 2/50

P(3에이스 연속) = (4/52) × (3/51) × (2/50) ≈ 0.000181

언어 모델에서의 연쇄 법칙

P(나는 밥을 먹었다)
  = P(나는) × P(밥을|나는) × P(먹었다|나는,밥을)

이것이 GPT 류 대형 언어 모델 (LLM, Large Language Model) 의 핵심 수학이다.

📢 섹션 요약 비유: 연쇄 법칙은 "복잡한 요리의 레시피"를 단계별 조건("계란 후라이를 만들었을 때, 그 다음 볶음밥은?")으로 쪼개서 전체 확률을 구하는 방식이다.

Ⅲ. 수형도로 조건부 확률 시각화

수형도 (Tree Diagram) 는 여러 단계로 이어지는 조건부 확률을 직관적으로 표현한다.

                    ┌─── P(A₁∩B₁) = 0.6×0.9 = 0.54
          ┌─ B₁(0.9)┤
          │          └─── P(A₁∩B̄₁) = 0.6×0.1 = 0.06
    A₁(0.6)
   /        \         ┌─── P(A₁∩B₂) 계산 오류 방지 위해
  /           \       │    별도 가지로 표현
 /             \
시작            ┌─ B₁(0.4)┐
   \            │          └─ P(A₂∩B₁) = 0.4×0.4 = 0.16
    A₂(0.4)────┤
                └─ B̄₁(0.6)──── P(A₂∩B̄₁) = 0.4×0.6 = 0.24

P(B₁) = P(B₁|A₁)·P(A₁) + P(B₁|A₂)·P(A₂)
      = 0.9×0.6 + 0.4×0.4 = 0.54+0.16 = 0.70

📢 섹션 요약 비유: 수형도는 "가능한 모든 길"을 나뭇가지처럼 펼쳐 놓고, 각 분기점에서 확률을 곱해가는 지도다.

Ⅳ. 주요 응용 — ML 및 DB

ML에서 조건부 독립 (Conditional Independence)

A와 B가 C에 대해 조건부 독립이면:

P(A∩B|C) = P(A|C) · P(B|C)
즉: P(A|B,C) = P(A|C) — B를 알아도 C만 알면 A에 추가 정보 없음

응용:

나이브 베이즈: 모든 특징이 클래스 레이블에 대해 조건부 독립 가정
마르코프 체인 (Markov Chain): 미래 상태는 현재 상태에만 조건부 종속
베이즈 네트워크: 조건부 독립 관계를 DAG 로 명시적 표현

데이터베이스 쿼리 최적화 — 선택도 (Selectivity) 추정

쿼리 옵티마이저 (Query Optimizer) 는 조건부 확률로 필터 선택도를 추정한다:

SELECT * FROM orders
WHERE region = 'Seoul' AND amount > 100000;

P(amount > 100K | region = 'Seoul')
  ≠ P(amount > 100K)  ← 지역별 소비 패턴이 다르면 조건부

추정 방법:
  단순 독립 가정: P(A∩B) ≈ P(A)·P(B)
  상관 있는 경우: 히스토그램(Histogram) 기반 결합 분포 추정

추정 방법	정확도	비용	사용 조건
독립 가정	낮음	저비용	상관 없는 컬럼
히스토그램	중간	중간	단일 컬럼 분포
다차원 통계	높음	고비용	조인 컬럼

📢 섹션 요약 비유: 옵티마이저가 "서울 사람이면서 고액 결제자"를 찾을 때, "서울 사람 중 고액 결제자 비율"을 아는 것이 "서울 사람 비율 × 고액 결제자 비율"보다 훨씬 정확한 것처럼, 조건부 확률은 현실의 상관관계를 포착한다.

Ⅴ. 검사자 오류 — 조건 방향을 뒤집는 실수

검사자 오류 (Prosecutor's Fallacy) 는 P(증거|무죄) 와 P(무죄|증거) 를 동일시하는 논리적 오류다.

범죄 현장 혈액형 일치 확률:
  P(혈액형 일치 | 무고한 사람) = 0.1   (10%의 사람이 같은 혈액형)

검사의 잘못된 주장:
  "혈액형이 일치하므로 무죄 확률은 10%다"
  → P(무죄 | 혈액형 일치) = 0.1 ← 완전히 다른 확률!

베이즈 정리로 올바른 계산:
  P(무죄 | 증거) = P(증거 | 무죄) · P(무죄) / P(증거)
  → 유죄 추정(Prior)과 증거의 특이성(Likelihood)을 모두 고려해야 함

조건부 확률 vs 결합 확률 vs 주변 확률 비교:

종류	기호	의미	예시
주변 확률 (Marginal)	P(A)	A만의 확률	P(비) = 0.3
결합 확률 (Joint)	P(A∩B)	A와 B 동시 발생	P(비∩우산) = 0.25
조건부 확률 (Conditional)	P(A\|B)	B 주어졌을 때 A	P(비\|우산) = 0.83

📢 섹션 요약 비유: "비 오는 날 우산을 들고 있을 확률"과 "우산을 들었을 때 비가 올 확률"은 완전히 다른 질문이다. 조건의 방향을 바꾸면 전혀 다른 세계가 열린다.

📌 관련 개념 맵

개념	연결 개념	관계
조건부 확률	베이즈 정리	P(A\|B)의 역방향 활용
연쇄 법칙	언어 모델 (LLM)	문장 확률 분해
조건부 독립	나이브 베이즈	단순화 가정
선택도 추정	쿼리 옵티마이저	DB 성능 최적화
검사자 오류	확증 편향	논리적 오류 유형
마르코프 성질	마르코프 체인	조건부 독립의 특수 형태

📈 관련 키워드 및 발전 흐름도

[:---]
    │
    ▼
[조건부 확률]
    │
    ▼
[연쇄 법칙]
    │
    ▼
[조건부 독립]
    │
    ▼
[선택도 추정]
    │
    ▼
[검사자 오류]

이 흐름도는 :---에서 출발해 선택도 추정까지 이어지며, 중간 단계가 기초 개념을 실무 구조로 발전시키는 과정을 보여준다.

👶 어린이를 위한 3줄 비유 설명

전체 학생 중 축구를 좋아할 확률이 아니라, "남자 학생 중" 축구를 좋아할 확률처럼, 조건을 붙이면 계산 대상이 좁아져.
P(A|B)는 "B라는 울타리 안에서만 생각할게"라는 뜻이야.
검사자 오류는 "우산 든 사람이 비 맞는다"고 착각하는 것처럼, 조건의 방향을 거꾸로 뒤집는 실수야.