핵심 인사이트 (3줄 요약)

  • 보편성 측정 지표: 지지도(Support)는 전체 데이터(트랜잭션) 중 특정 항목(A)이나 항목 집합(A와 B)이 함께 포함된 거래의 비율을 의미하는 기초 통계량입니다.
  • 가지치기 기준: Apriori 알고리즘에서 빈도수가 너무 낮아 비즈니스 가치가 없는 희귀한 패턴을 초기에 걸러내기 위한 '최소 지지도(Minimum Support)' 임계값으로 사용됩니다.
  • 수리적 해석: $Support(A \rightarrow B) = \frac{P(A \cap B)}{N}$ 공식을 통해 전체 거래 중 규칙이 얼마나 자주 적용되는지를 객관적 확률로 제시합니다.

Ⅰ. 개요 (Context & Background)

연관 규칙 탐색에서 생성될 수 있는 규칙의 수는 아이템 수에 따라 지수적으로 폭발(Exponential Explosion)합니다. 따라서 모든 가능한 조합을 연산하는 것은 컴퓨터의 자원을 심각하게 낭비합니다. 이를 방지하기 위해 가장 먼저 적용되는 안전장치가 바로 '지지도(Support)'입니다. 전체 거래에서 매우 드물게 발생하는 패턴은 우연의 일치이거나 통계적 유의성이 떨어지므로, 시스템은 최소 지지도 이상을 충족하는 빈발 항목 집합(Frequent Itemset)만을 분석 대상으로 삼습니다.

Ⅱ. 아키텍처 및 핵심 원리 (Deep Dive)

지지도는 항목 A와 항목 B가 합집합으로 등장하는 비율입니다.

+-------------------------------------------------+
| Total Transactions (N)                          |
| (전체 거래 수)                                  |
|                                                 |
|   +-------------------+                         |
|   |  Itemset A        |                         |
|   |  +----------------+---+                     |
|   |  | A & B (Support)|   | Itemset B           |
|   |  | (지지도 영역)  |   |                     |
|   +--+----------------+   |                     |
|      |                    |                     |
|      +--------------------+                     |
+-------------------------------------------------+
  • 수식 도출: 전체 N개의 트랜잭션 데이터 집합 D에서 항목 X와 Y가 포함된 트랜잭션의 수를 카운트합니다.
    • $Support(X, Y) = \frac{n(X \cup Y)}{N}$
  • 만약 10,000건의 영수증 중 빵과 우유를 동시에 구매한 영수증이 500건이라면, 지지도는 5% (0.05)가 됩니다.
  • 최소 지지도(Min Support)를 2%로 설정했다면 이 패턴은 유의미한 규칙의 후보가 됩니다.

Ⅲ. 융합 비교 및 다각도 분석 (Comparison & Synergy)

평가 지표지지도 (Support)신뢰도 (Confidence)향상도 (Lift)
정의A와 B가 동시에 포함된 거래의 전체 비율A를 구매한 거래 중 B를 조건부로 구매한 비율우연적 구매를 배제한 두 항목 간의 상관 강도
수식$P(A \cap B)$$\frac{P(A \cap B)}{P(A)}$$\frac{P(A \cap B)}{P(A) \times P(B)}$
해석 관점규칙의 보편성 (얼마나 자주 발생하는가)규칙의 명확성 (A를 사면 B를 살 확률이 얼마나 높은가)규칙의 실질적 가치 (A가 B 구매를 얼마나 촉진하는가)
필터링 역할1차 필터링 (불필요한 연산 제거 목적)2차 필터링 (결합 확률 검증 목적)최종 판별 (두 독립 사건 대비 실제 유의미성 확정)

Ⅳ. 실무 적용 및 기술사적 판단 (Strategy & Decision)

  • 임계값 설정 전략: 최소 지지도(Min Support) 설정은 예술에 가깝습니다. 너무 높게 잡으면 당연한 결과(예: 빵과 우유)만 도출되고 참신한 인사이트가 유실되며, 너무 낮게 잡으면 연산량이 폭증하고 우연한 노이즈가 규칙으로 둔갑합니다.
  • 도메인 특화: 명품 매장이나 희귀 질환 의료 데이터의 경우 전체 발생 빈도 자체가 낮으므로 지지도를 극히 낮게(예: 0.1% 미만) 설정하고, 대신 신뢰도와 향상도에 가중치를 두어 아키텍처를 튜닝해야 합니다.

Ⅴ. 기대효과 및 결론 (Future & Standard)

지지도는 데이터 마이닝의 연산 복잡도를 제어하는 가장 강력하고 직관적인 필터입니다. 이 기초 통계량을 기반으로 FP-Growth와 같은 압축 트리 기반 알고리즘이 성립할 수 있었으며, 추천 시스템의 콜드 스타트 문제 등에서도 아이템의 기초적인 인기(Popularity) 베이스라인을 제공하는 표준 메트릭으로 작용합니다.

📌 관련 개념 맵 (Knowledge Graph)

  • 선행 개념: 트랜잭션, 집합론, 확률 통계
  • 핵심 기술: 연관 규칙 탐색(Association Rule), Apriori, 최소 지지도(Min Support)
  • 확장 및 응용: 신뢰도(Confidence), 향상도(Lift), 빈발 항목 집합(Frequent Itemset)

👶 어린이를 위한 3줄 비유 설명

  1. 반 친구들 100명 중에서, 수학과 영어를 둘 다 좋아하는 친구가 몇 명이나 되는지 세어보는 게 '지지도'예요.
  2. 만약 5명밖에 안 된다면, 이건 너무 적어서 '특별한 규칙'이라고 부르기는 어려울 거예요.
  3. 이렇게 전체에서 얼마나 흔하게 일어나는 일인지를 퍼센트로 계산해서, 쓸데없는 고민을 줄여주는 똑똑한 기준이랍니다.