26. 인과 추론 (Causal Inference) — 상관관계를 넘어 인과관계 규명

핵심 인사이트 (3줄 요약)

본질: 인과 추론(Causal Inference)은 관찰 데이터 또는 실험 데이터에서 "X가 Y의 원인인가?" 즉 X를 변화시켰을 때 Y가 어떻게 달라지는가를 통계적으로 추정하는 방법론으로, 단순 상관관계(Correlation) 분석과 근본적으로 다르다.

가치: 빅데이터 분석의 한계는 대부분 상관관계를 인과관계로 오해하는 것이다. "아이스크림 판매량 증가 → 익사 사고 증가"는 상관관계지만 인과관계가 아니다(공통 원인: 더운 날씨). 인과 추론은 이 혼동변수(Confounder)를 제어하여 실제 인과효과를 추정한다.

판단 포인트: 인과 추론의 황금 기준(Gold Standard)은 무작위 대조 실험(RCT, Randomized Controlled Trial)이다. 그러나 RCT가 불가능한 경우(윤리적, 비용적 제약) 준실험 설계(Quasi-Experimental Design)인 도구 변수(IV), 이중차분법(DiD), 회귀 불연속 설계(RDD)를 활용한다.

Ⅰ. 개요 및 필요성

┌────────────────────────────────────────────────────────┐
│        상관관계 vs. 인과관계 비교                        │
├────────────────────────────────────────────────────────┤
│                                                         │
│ 상관관계:  X ↔ Y  (함께 변한다, 방향 불명)              │
│                                                         │
│ 인과관계:  X → Y  (X가 Y를 변화시킨다)                  │
│            단, Z(혼동변수)를 통제해야 함                 │
│                                                         │
│ 예: 광고비(X) → 매출(Y)? vs. 계절(Z) → X, Y 동시 영향?  │
└────────────────────────────────────────────────────────┘

�� 섹션 요약 비유: 상관관계는 "아침에 닭이 울면 해가 뜬다"이다. 함께 발생하지만 닭이 해를 뜨게 하는 것은 아니다. 인과 추론은 닭의 울음이 없어도 해가 뜨는지 실험해보는 것이다.

Ⅱ. 아키텍처 및 핵심 원리

인과 추론 주요 방법론

방법	핵심 아이디어	활용 예
RCT	무작위 처치·통제 집단 분리	A/B 테스트, 임상 실험
DiD (이중차분법)	처치 전후 + 통제 집단 비교	정책 효과 평가
RDD (회귀 불연속)	임계값 前後 집단 비교	장학금 vs. 학업 성취도
IV (도구 변수)	외생 변수로 내생성 제거	군복무 → 임금 효과
PSM (성향점수 매칭)	비슷한 통제·처치 집단 생성	관찰 데이터 준실험

반사실적 추론 (Counterfactual)

인과효과 추정 = (실제 관찰값) - (처치를 받지 않았다면의 값)
                                  ↑
                         이것이 관찰 불가능 → 추정 필요

RCT: 무작위 배정으로 통제 집단이 반사실적 값의 최선 추정치
DiD: 처치 전 트렌드로 반사실적 값 외삽

📢 섹션 요약 비유: 인과효과는 "내가 이 약을 안 먹었다면 어땠을까?"이다. 같은 사람이 동시에 약을 먹고 안 먹을 수 없으므로, 비슷한 사람(통제 집단)이 약을 안 먹은 결과를 대신 관찰한다.

Ⅲ. 비교 및 연결

비교	전통 ML 예측	인과 추론
목적	Y 예측	X→Y 인과효과 추정
방법	상관관계 패턴 학습	혼동변수 통제
활용	분류, 회귀	정책 효과, 처치 효과
한계	분포 변화 취약	RCT 불가 시 가정 필요

📢 섹션 요약 비유: ML 예측은 "비가 올 확률"을 계산하고, 인과 추론은 "구름씨 뿌리기(처치)가 실제 비를 만드는가?"를 검증한다. 예측과 인과는 완전히 다른 질문이다.

Ⅳ. 실무 적용 및 기술사 판단

마케팅 인과 분석 예시

문제: "광고가 실제로 구매를 증가시키는가? 아니면 구매 의향이 높은 사람에게만 광고가 노출되는가?"
해결: A/B 테스트(RCT) — 랜덤 노출 집단 vs. 미노출 집단 비교.
결과: 광고 처치효과(ATE, Average Treatment Effect) = 구매율 차이.

정책 효과 평가 (DiD)

처치 집단: 최저임금 인상 적용 지역
통제 집단: 인상 미적용 인접 지역
Before/After 비교 → 고용 변화가 최저임금 인상 효과인지 분리

📢 섹션 요약 비유: DiD는 쌍둥이 중 한 명에게만 특별 교육을 시키는 실험이다. 교육 전후 두 쌍둥이의 성적 차이 변화(이중 차이)가 교육의 순수 효과다.

Ⅴ. 기대효과 및 결론

기대효과	내용
의사결정 개선	상관관계 함정 회피, 실제 효과 기반 투자
정책 평가	개입(Intervention) 효과의 객관적 측정
AI 설명가능성	인과 그래프(SCM)로 모델 의사결정 해석

인과 머신러닝(Causal ML)은 전통 인과 추론과 ML을 결합하여 대규모 관찰 데이터에서 이질적 처치 효과(CATE)를 추정하고, 개인화 의사결정(Policy Learning)에 활용하는 방향으로 발전하고 있다.

📢 섹션 요약 비유: Causal ML은 인과 추론의 정밀 조준 시스템이다. "이 광고가 평균적으로 효과가 있다"에서 나아가 "이 사람에게는 광고 효과가 얼마나 되는가?"까지 개인화 수준으로 내려간다.

📌 관련 개념 맵

개념	연결 포인트
혼동변수	처치와 결과 모두에 영향을 주는 제3 변수
RCT	인과 추론의 황금 기준 (A/B 테스트)
DiD	정책 효과 평가의 준실험 설계
SCM (구조적 인과 모델)	인과 그래프 기반 모델링
Causal ML	인과 추론 + ML 결합 방법론

📈 관련 키워드 및 발전 흐름도

[상관관계 분석 — 패턴 발견, 인과 미규명]
    │
    ▼
[인과 추론 (RCT, DiD, IV, RDD) — 혼동변수 통제]
    │
    ▼
[인과 그래프 (DAG, SCM) — 인과 구조 시각화]
    │
    ▼
[Causal ML — 대규모 관찰 데이터 인과 효과 추정]
    │
    ▼
[개인화 정책 학습 — CATE 기반 최적 처치 결정]

👶 어린이를 위한 3줄 비유 설명

인과 추론은 "이 약이 진짜 효과가 있는지" 검증하는 과학이에요! 비슷한 두 그룹 중 한 그룹에만 약을 주고 비교해요.
"아이스크림을 많이 먹는 날 물에 빠지는 사람이 많다"는 상관관계지만, 아이스크림이 원인은 아니에요 — 둘 다 더운 날씨 때문이에요!
AI와 결합한 인과 ML은 "이 사람에게는 이 광고가 얼마나 효과적인가?"를 개인별로 계산해준답니다!