핵심 인사이트 (3줄 요약)
본질: 신뢰도(Confidence)는 연관 규칙에서 전건(X)이 주어졌을 때 후건(Y)이 함께 나타날 조건부 확률이다. 가치: Support와 Lift를 함께 봐야 "자주 같이 보이는지"와 "우연 이상인지"를 구분할 수 있다. 판단 포인트: Confidence가 높아도 후건 자체가 흔하면 규칙은 의미가 약할 수 있으므로, 희소성·기저율을 같이 확인해야 한다.
Ⅰ. 개요 및 필요성
신뢰도(Confidence)는 연관 규칙(Association Rule) X -> Y가 있을 때, X가 발생한 거래 중 Y도 함께 나온 비율이다. 즉 P(Y|X)와 같아서, 전건이 주어졌을 때 후건이 얼마나 자주 따라오는지를 보여 준다.
이 지표가 필요한 이유는 단순 빈도만으로는 규칙의 쓸모를 판단하기 어렵기 때문이다. 예를 들어 우유가 원래 많이 팔리면 빵과 같이 나오는 비율이 높아 보여도 의미는 약할 수 있다. 그래서 신뢰도는 연관 규칙의 한 축일 뿐, Support와 Lift와 함께 봐야 한다.
- 📢 섹션 요약 비유: 동시에 자주 나오는지 확인
Ⅱ. 아키텍처 및 핵심 원리
기본 공식은 confidence(X -> Y) = support(X ∩ Y) / support(X) = P(Y|X)다. Support는 전체 거래 중 X와 Y가 함께 나온 비율이고, Lift는 실제 동시 발생이 우연 대비 얼마나 강한지 보여 준다. Confidence는 조건부 확률이므로, 후건 Y의 기본 등장률이 높으면 과대평가되기 쉽다.
X 발생 ─┬─ Y 발생
└─ Y 미발생
confidence = count(X∩Y) / count(X)
| 지표 | 뜻 | 해석 포인트 |
|---|---|---|
| Support | 전체에서의 동시 발생 비율 | 얼마나 흔한 패턴인가 |
| Confidence | X가 있을 때 Y가 나올 확률 | 규칙의 방향성 |
| Lift | 우연 대비 강화 정도 | 규칙이 실제로 유의한가 |
Confidence는 "X가 있으면 Y가 얼마나 따라오나"를 말하지만, "Y가 원래 흔한가"는 말해주지 않는다.
- 📢 섹션 요약 비유: 조건부 확률의 얼굴
Ⅲ. 비교 및 연결
신뢰도는 조건부 확률과 사실상 같은 식을 쓴다. 다만 연관 규칙에서는 Support, Lift, Conviction 같은 추가 지표와 같이 읽어야 실무성이 생긴다. Bayes' theorem (베이즈 정리)와 연결하면 P(X|Y)와 P(Y|X)를 서로 바꿔 생각할 수 있지만, 연관 규칙의 해석에서는 방향성이 중요하다.
| 비교 대상 | 차이점 |
|---|---|
| Conditional Probability | 조건이 주어졌을 때의 확률 |
| Support | 전체 거래에서의 빈도 |
| Confidence | 전건이 주어졌을 때의 후건 확률 |
| Lift | 우연 대비 강화 정도 |
| Conviction | 규칙 위반의 희귀성 |
따라서 Confidence는 "규칙의 직진성"을 보여 주고, Lift는 "그 직진이 우연인지 아닌지"를 판별한다.
- 📢 섹션 요약 비유: 비율과 우연의 구분
Ⅳ. 실무 적용 및 기술사 판단
실무에서는 최소 Support와 최소 Confidence 임계값을 함께 두고, Lift가 1보다 큰지까지 확인한다. 희귀한 항목끼리의 Confidence는 높아도 표본이 적어 불안정할 수 있으므로, 홀드아웃 데이터나 시간 분할 검증으로 다시 확인하는 것이 좋다. 추천 시스템이나 장바구니 분석에서는 규칙 수가 너무 많아지지 않도록 상위 후보만 남기는 필터링이 필요하다.
체크리스트
- Support가 너무 낮은 규칙을 과신하지 않는가?
- Confidence만 높고 Lift가 1에 가까운 규칙을 버리고 있는가?
- 미래 정보가 섞이지 않은 데이터로 평가했는가?
안티패턴
-
Confidence 하나만 보고 규칙을 채택하는 것
-
희귀 항목의 과대평가를 놓치는 것
-
학습 구간과 검증 구간을 섞어 해석하는 것
-
📢 섹션 요약 비유: 판정 기준의 세 갈래
Ⅴ. 기대효과 및 결론
Confidence를 이해하면 연관 규칙의 해석력이 높아지고, 추천·교차판매·이상 탐지에서 더 신중한 규칙 선택이 가능해진다. 하지만 이 값만으로는 규칙의 유용성을 보장할 수 없으므로, Support와 Lift를 항상 함께 봐야 한다.
결론적으로 Confidence는 조건부 확률의 응용이며, 연관 규칙의 방향성을 보여 주는 지표다. 기술사 답변에서는 "P(Y|X)"라는 수식과 함께 기저율의 함정을 언급하면 완성도가 높다.
- 📢 섹션 요약 비유: 규칙의 성공률
📌 관련 개념 맵
| 개념 | 연결 포인트 |
|---|---|
| Association Rule | X -> Y 형태의 규칙 |
| Confidence | 조건부 확률 P(Y |
| Support | 전체 거래의 동시 빈도 |
| Lift | 우연 대비 강화 정도 |
| Conviction | 규칙 위반의 희귀성 |
| Conditional Probability | 신뢰도의 수학적 기반 |
📈 관련 키워드 및 발전 흐름도
거래 데이터
↓
항목 빈도 계산
↓
연관 규칙 후보 생성
↓
Support / Confidence / Lift 평가
↓
규칙 필터링
↓
실무 적용
👶 어린이를 위한 3줄 비유 설명
- 신뢰도는 "빵을 사는 사람이 우유도 같이 살까?"를 보는 거예요.
- 많이 같이 산다고 해도 우유가 원래 인기면 별로 놀랍지 않을 수 있어요.
- 그래서 자주 나오는지와 정말 특별한지를 같이 봐야 해요.