83. 연관 규칙 탐색 (Association Rule) - Apriori 알고리즘

핵심 인사이트 (3줄 요약)

본질: 연관 규칙 탐색 (Association Rule Mining)은 거래 데이터에서 X → Y 형태의 동시 발생 패턴을 찾아내는 규칙 기반 마이닝이다.
가치: 지지도 (Support), 신뢰도 (Confidence), 향상도 (Lift)를 함께 봐야 빈도·신뢰·우연 초과 여부를 분리해서 판단할 수 있다.
판단 포인트: Apriori 알고리즘은 해석성과 단순성이 강점이지만 후보 집합 폭발이 커서, 데이터가 크면 FP-Growth (Frequent Pattern Growth)로 넘어가야 한다.

Ⅰ. 개요 및 필요성

마트 영수증, 장바구니, 웹 클릭스트림처럼 "한 번의 거래에 여러 항목이 함께 나온다"는 데이터에서는 단일 분류보다 동시성 패턴이 더 중요하다. 연관 규칙 탐색은 바로 이 부분을 다룬다. 예를 들어 "빵을 산 고객은 버터도 산다"는 문장을 수학적으로 검증하는 것이 핵심이다.

이 기법이 필요한 이유는 추천과 진열이 직관만으로는 부족하기 때문이다. 어떤 상품을 가까이 두어야 하는지, 어떤 묶음 쿠폰을 설계해야 하는지, 어떤 장애 경보가 함께 뜨는지 같은 문제는 거래 단위의 관계를 찾아야 풀린다. 여기서 중요한 점은 연관이 곧 인과는 아니라는 사실이다. 규칙은 "같이 나타난다"를 말할 뿐, "원인"을 말하지 않는다.

┌──────────────────────────────────────────────────────────────┐
│ 거래 데이터 → 빈발 항목 집합 → 연관 규칙 → 추천/진열         │
├──────────────────────────────────────────────────────────────┤
│ T1 {빵, 우유}  T2 {빵, 계란}  T3 {우유, 기저귀}              │
└──────────────────────────────────────────────────────────────┘

📢 섹션 요약 비유: 영수증 더미를 쌓아 놓고 "무엇이 같이 자주 나왔는가"를 찾는 마트 탐정이다.

Ⅱ. 아키텍처 및 핵심 원리

연관 규칙의 형태는 X → Y다. 여기서 X가 나오면 Y가 얼마나 자주 따라오는지를 지표로 평가한다. 기본 지표는 세 가지다. 지지도 (Support)는 함께 등장한 전체 빈도, 신뢰도 (Confidence)는 X가 있을 때 Y가 따라올 조건부 확률, 향상도 (Lift)는 Y의 원래 인기와 비교해 규칙이 얼마나 우연을 넘어서는지를 본다.

지표	수식	해석
지지도 (Support)	P(X ∩ Y)	거래 전체에서 X와 Y가 함께 나온 비율
신뢰도 (Confidence)	P(Y	X) = P(X ∩ Y) / P(X)
향상도 (Lift)	Confidence / P(Y)	1보다 크면 양의 연관, 1이면 독립

Apriori 알고리즘은 빈발하지 않은 집합의 상위 집합은 빈발할 수 없다는 Apriori 원리를 쓴다. 그래서 작은 집합부터 시작해 후보를 만들고, 지지도를 통과한 것만 다음 단계로 넘긴다. 이 방식은 반복 스캔이 많아도 해석이 쉽고, 규칙 생성 과정을 설명하기 좋다.

┌────────────────────────────────────────────────────────────────┐
│ L1 빈발  ─►  C2 후보 생성  ─►  지지도 검사  ─►  L2 빈발         │
│   │                      └── 비빈발 item 제거 → 상위집합 차단   │
└────────────────────────────────────────────────────────────────┘

최소 지지도 (Min Support)와 최소 신뢰도 (Min Confidence)는 규칙의 문턱값이다. 지지도는 "너무 희귀한 조합"을 거르고, 신뢰도는 "방향성이 약한 규칙"을 거른다. 향상도는 거기서 한 번 더 걸러, 그냥 많이 팔리는 상품이 섞인 착시를 줄인다. 계산 복잡도는 최악의 경우 O(2^N)에 가깝다.

📢 섹션 요약 비유: 시험에서 1차 예선(지지도), 2차 면접(신뢰도), 최종 검증(향상도)을 차례로 거쳐야 합격하는 구조다.

Ⅲ. 비교 및 연결

Apriori와 FP-Growth (Frequent Pattern Growth)는 같은 목표를 향하지만, 접근법이 다르다. Apriori는 후보를 만들고 여러 번 스캔하는 정공법이고, FP-Growth는 FP-Tree로 거래를 압축해 후보 생성 자체를 줄인다. 그래서 데이터가 커질수록 FP-Growth가 유리하다.

항목	Apriori	FP-Growth (Frequent Pattern Growth)
탐색 방식	후보 집합 생성 + 반복 스캔	FP-Tree 압축 + 조건부 패턴 탐색
장점	단순, 설명 용이	빠름, 대규모에 강함
약점	후보 폭발, 느린 반복 I/O	트리 메모리 사용, 구현 복잡
적합한 환경	작거나 중간 규모, 해석 중심	큰 트랜잭션, 분산 처리 환경

연관 규칙과 협업 필터링 (Collaborative Filtering)도 구분해야 한다. 연관 규칙은 "무엇이 같이 팔리는가"를 묻고, 협업 필터링은 "이 사용자에게 무엇을 추천할 것인가"를 묻는다. 전자는 거래 중심이고 후자는 사용자 중심이다. 즉, 연관 규칙은 장바구니의 구조를 읽고, 협업 필터링은 개인의 취향을 읽는다.

📢 섹션 요약 비유: Apriori는 영수증 묶음을 훑는 점주이고, 협업 필터링은 사람 취향을 기억하는 단골 점원이다.

Ⅳ. 실무 적용 및 기술사 판단

실무에서는 Apriori를 무작정 쓰지 않는다. 품목 수가 적고 규칙 설명이 중요하면 Apriori가 좋지만, 거래가 수천만 건이거나 품목 수가 많아 후보 집합이 폭발하면 FP-Growth나 분산 처리 환경을 선택해야 한다. 즉, "설명 가능성"과 "계산 비용" 중 무엇을 우선할지 판단해야 한다.

체크리스트는 다음과 같다.

아이템이 범주형이고 거래 단위로 묶여 있는가?
규칙이 현업 설명에 쓰일 만큼 해석 가능한가?
후보 집합 폭발을 감당할 수 있는 규모인가?
규칙을 실제 진열/쿠폰/추천에 연결할 수 있는가?

안티패턴도 분명하다. 신뢰도만 높다고 좋은 규칙으로 착각하거나, 향상도를 보지 않고 인기 상품 조합만 채택하거나, 수치형 연속값을 억지로 연관 규칙에 넣는 경우다. 연관 규칙은 숫자 예측이 아니라 동시성 패턴 발견이라는 점을 잊으면 안 된다.

📢 섹션 요약 비유: 모든 영수증을 손으로 세어도 되지만, 가게가 커지면 계산기 대신 자동 분류기가 필요해진다.

Ⅴ. 기대효과 및 결론

연관 규칙 탐색은 교차 판매, 번들 설계, 상품 진열, 이상 동시 발생 탐지에 강하다. 하지만 인과를 증명하지 못하고, 데이터가 크면 조합 폭발이 생기며, 시간이 지나면 규칙이 쉽게 낡는다. 그래서 주기적 재학습과 현업 검증이 필요하다.

앞으로는 순차 패턴 마이닝, 실시간 스트리밍 분석, 추천 시스템과의 결합으로 쓰임새가 넓어진다. 결론적으로 연관 규칙은 "같이 나온다"를 수학적으로 증명하는 도구이지, "왜 그런가"를 말하는 철학이 아니다.

📌 관련 개념 맵

개념	연결 포인트
지지도 (Support)	규칙 후보를 거르는 빈도 기준
신뢰도 (Confidence)	방향성 있는 조건부 확률
향상도 (Lift)	우연 대비 실제 연관 강도
Apriori 원리	비빈발 집합의 상위 집합은 비빈발
FP-Growth (Frequent Pattern Growth)	후보 생성 없이 빠르게 패턴 탐색
Market Basket Analysis	장바구니 분석과 진열 최적화

📈 관련 키워드 및 발전 흐름도

거래 데이터
    │
    ▼
빈발 항목 집합
    │
    ▼
Apriori / FP-Growth
    │
    ▼
연관 규칙 (X → Y)
    │
    ▼
진열 최적화 · 번들 추천 · 교차 판매

👶 어린이를 위한 3줄 비유 설명

마트 영수증을 모아 보면 "이 과자를 사는 사람은 저 음료도 자주 산다"는 힌트가 보여요.
Apriori는 인기 없는 조합을 빨리 버리고, 정말 자주 같이 나오는 것만 남겨요.
그래서 점원은 더 잘 진열하고, 손님은 더 편하게 필요한 물건을 찾을 수 있답니다.