핵심 인사이트 (3줄 요약)

  • 조건부 확률 측정: 신뢰도(Confidence)는 선행 항목 A를 포함하는 트랜잭션 중에서, 후행 항목 B가 함께 포함된 트랜잭션의 비율을 계산하는 조건부 확률 지표입니다.
  • 규칙의 명확성 평가: 단순히 두 아이템이 같이 많이 팔린다는 지지도(Support)를 넘어, "A가 발생했을 때 B가 발생할 강도"가 얼마나 확실한지를 수치화합니다.
  • 단방향 비대칭성: $Confidence(A \rightarrow B)$와 $Confidence(B \rightarrow A)$는 값이 다릅니다. 기저귀를 산 사람이 맥주를 살 확률과 맥주를 산 사람이 기저귀를 살 확률은 수학적으로 다르게 도출됩니다.

Ⅰ. 개요 (Context & Background)

연관 규칙 마이닝(Association Rule Mining)에서 지지도(Support)가 규칙이 전체 데이터에서 얼마나 빈번하게 발생하는지 '인기도'를 측정한다면, 신뢰도(Confidence)는 규칙 자체의 '조건부 신뢰성'을 측정합니다. 아무리 전체적으로 빵과 우유가 동시에 잘 팔려 지지도가 높더라도, "과연 빵을 집어든 사람이 우유를 장바구니에 넣을 확률이 얼마나 되는가?"를 대답하기 위해서는 베이즈 정리(Bayes' Theorem)의 사상에 기반한 조건부 확률적 접근법이 필수적이며, 이것이 바로 신뢰도의 본질입니다.

Ⅱ. 아키텍처 및 핵심 원리 (Deep Dive)

신뢰도는 항목 A 집합이 일어난 사건 안에서, 항목 A와 B의 교집합이 차지하는 비중을 계산합니다.

+-------------------------------------------------+
| Itemset A Occurrences                           |
| (항목 A가 포함된 거래)                          |
|                                                 |
|   +-----------------------------------------+   |
|   | Occurrences containing both A & B       |   |
|   | (A와 B가 동시에 포함된 거래)            |   |
|   | -> Confidence (신뢰도) = P(B|A)         |   |
|   +-----------------------------------------+   |
+-------------------------------------------------+
  • 수식 도출: $Confidence(A \rightarrow B) = \frac{Support(A \cup B)}{Support(A)} = \frac{P(A \cap B)}{P(A)}$
  • 10,000건의 거래 중, 빵을 산 거래가 2,000건이고 빵과 우유를 같이 산 거래가 500건이라면,
    • $Confidence(빵 \rightarrow 우유) = 500 / 2,000 = 25%$
    • 즉, 빵을 구매한 사람의 25%는 우유도 구매함을 의미합니다.

Ⅲ. 융합 비교 및 다각도 분석 (Comparison & Synergy)

비교 속성신뢰도 (Confidence)조건부 확률 $P(B \mid A)$향상도 (Lift)
개념 정의A가 포함된 거래 중 B도 포함된 비율통계학에서 사상 A 발생 시 B 발생 확률신뢰도를 B의 자체 확률로 나눈 보정값
값의 범위0.0 ~ 1.0 (0% ~ 100%)0.0 ~ 1.00 ~ 무한대 (1 기준 독립/종속 판별)
방향성 유무단방향 비대칭성 존재 ($A \rightarrow B \neq B \rightarrow A$)단방향 비대칭성 존재양방향 대칭성 존재 ($A,B$ 상관 강도 동일)
한계 및 약점후행 항목(B) 자체의 절대적 인기도(빈도)가 너무 높을 경우, 규칙의 강도가 과대포장되는 착시 발생 가능베이즈 룰에 의거한 수학적 제약 동일 적용해석이 직관적이지 않을 수 있음

Ⅳ. 실무 적용 및 기술사적 판단 (Strategy & Decision)

  • 신뢰도의 함정 방어: 신뢰도의 치명적 한계는 후행 아이템(B)이 물티슈나 생수처럼 '누구나 다 사는 압도적 베스트셀러'일 때 발생합니다. $A$와 무관하게 B는 항상 팔리므로 신뢰도는 90% 이상으로 높게 나오지만 실제 연관성은 없습니다.
  • 검증 파이프라인: 이를 극복하기 위해 기술사는 연관 규칙 모델 설계 시 신뢰도(최소 50% 통과)를 통해 1차 유의미성을 필터링한 후, 반드시 향상도(Lift > 1) 지표를 최종 품질 게이트로 적용하는 교차 검증 파이프라인을 아키텍처에 구현해야 합니다.

Ⅴ. 기대효과 및 결론 (Future & Standard)

신뢰도는 이커머스 추천 알고리즘이나 오프라인 매장의 진열 정책 변경 시 즉각적인 인사이트를 제공하는 비즈니스 친화적 지표입니다. 향후 마르코프 체인(Markov Chain)과 같은 시계열 확률 모델과 결합되어 "A를 구매한 뒤 1주일 내에 B를 구매할 신뢰도" 등 동적인 인과 추론(Causal Inference) 도구로 고도화되고 있습니다.

📌 관련 개념 맵 (Knowledge Graph)

  • 선행 개념: 지지도(Support), 조건부 확률(Conditional Probability)
  • 핵심 기술: 연관 규칙 마이닝, 신뢰도(Confidence)
  • 확장 및 응용: 향상도(Lift), 베이즈 정리(Bayes' Theorem), 추천 시스템

👶 어린이를 위한 3줄 비유 설명

  1. '신뢰도'는 나를 짝사랑하는 친구들 중에서, 나도 그 친구를 좋아하는 사람의 비율을 계산하는 거예요.
  2. 내가 떡볶이를 골랐을 때, 내 친구가 "나도 오뎅 먹을래!"라고 따라할 확률이 얼마나 확실한지 숫자로 보여주죠.
  3. 떡볶이를 고른 친구들만 딱 모아놓고, 그 안에서 오뎅까지 같이 시킨 친구가 몇 명인지 세어보는 똑똑한 계산법이랍니다.