핵심 인사이트 (3줄 요약)
- 정확도(Accuracy)는 단순한 지표이나 데이터 불균형 시 왜곡이 발생하므로 신중히 해석해야 함.
- 정밀도(Precision)는 오탐(FP) 방지에, 재현율(Recall)은 미탐(FN) 방지에 초점을 둔 상충 지표임.
- F1-Score는 정밀도와 재현율의 조화 평균으로 모델의 전반적인 균형 성능을 단일 숫자로 평가함.
Ⅰ. 개요 (Context & Background)
머신러닝 분류 모델의 성공 여부는 비즈니스 목적에 맞는 평가 지표 선택에 달려 있다. 예를 들어 암 진단 모델에서 정확도가 99.9%라도 실제 환자를 단 한 명이라도 놓친다면(미탐) 실패한 모델이다. 따라서 정확도의 한계를 보완하기 위해 혼동 행렬에서 파생된 정밀도, 재현율, 그리고 이들의 균형점인 F1-Score를 복합적으로 고려해야 한다.
Ⅱ. 아키텍처 및 핵심 원리 (Deep Dive)
[ Metrics Calculation Structure (지표 계산 구조) ]
1. 정확도 (Accuracy): (TP + TN) / (TP + TN + FP + FN)
- 전체 중에서 맞춘 정답 비율
2. 정밀도 (Precision): TP / (TP + FP)
- 모델이 양성(1)이라고 한 것 중 진짜 양성 비율 (FP 억제)
3. 재현율 (Recall / Sensitivity): TP / (TP + FN)
- 실제 양성(1)인 것 중 모델이 찾아낸 비율 (FN 억제)
4. F1-Score: 2 * (Precision * Recall) / (Precision + Recall)
- 정밀도와 재현율의 조화 평균 (균형 지표)
* Trade-off: Precision ↑ 이면 Recall ↓, Recall ↑ 이면 Precision ↓ (임계값 조절 시)
Ⅲ. 융합 비교 및 다각도 분석 (Comparison & Synergy)
| 비교 항목 | 정확도 (Accuracy) | F1-Score (F1) |
|---|---|---|
| 적합한 상황 | 데이터 레이블이 균등할 때 | 데이터 불균형이 심할 때 |
| 평가 편의성 | 직관적이고 이해가 쉬움 | 계산이 복잡하나 신뢰도 높음 |
| 치명적 단점 | 99% 정상 데이터에서 왜곡 발생 | 개별 정밀도/재현율 의미 소멸 |
| 결합 전략 | 기본 지표로 활용 | 주요 성능 벤치마크로 활용 |
Ⅳ. 실무 적용 및 기술사적 판단 (Strategy & Decision)
- 도메인 특화 지표 선정:
- 스팸 메일 필터링: 정상 메일을 스팸으로 오인(FP)하면 안 되므로 정밀도(Precision) 중시.
- 암 진단 / 불량 탐지: 환자를 놓치면(FN) 안 되므로 재현율(Recall) 중시.
- 조화 평균의 의미: F1-Score에서 산술 평균이 아닌 조화 평균을 쓰는 이유는 두 지표 중 하나라도 매우 낮으면 전체 점수가 낮아지게 하여 '균형 잡힌 성능'을 강제하기 위함이다.
- 비즈니스 임팩트 분석: 기술사는 최종 모델 선정 시 "비용 가중치"를 혼합한 기대 가치(Expected Value) 분석을 병행하여 의사결정을 지원해야 한다.
Ⅴ. 기대효과 및 결론 (Future & Standard)
다양한 평가지표의 활용은 모델의 신뢰성을 보장하는 가장 기본적인 장치다. 향후 AI 거버넌스와 신뢰할 수 있는 AI(Trustworthy AI) 표준에서는 단순 성능 수치뿐만 아니라, 특정 클래스에 대한 편향(Bias) 유무를 이러한 지표들을 통해 투명하게 공개할 것을 요구하고 있다.
📌 관련 개념 맵 (Knowledge Graph)
- 상위 개념: 모델 평가(Model Evaluation), 혼동 행렬(Confusion Matrix)
- 하위 지표: 특이도(Specificity), 위양성률(FPR), MCC
- 시각화 도구: ROC Curve, Precision-Recall Curve (PRC)
👶 어린이를 위한 3줄 비유 설명
- 시험 점수가 90점(정확도)이라도, 제일 중요한 문제만 틀렸다면 안 되겠지?
- 사과만 골라내는 로봇이 "배를 사과라고 착각(FP)" 하는지, "진짜 사과를 그냥 지나치는지(FN)" 꼼꼼히 체크하는 거야.
- F1-Score는 이 두 가지를 골고루 잘했는지 보여주는 종합 우승 상장 같은 거야.