129. 관측 가능성 vs 모니터링 (Observability vs Monitoring)

핵심 인사이트 (3줄 요약)

본질: 모니터링은 **"사전에 예상한 문제를 대시보드로 감시"**하는 것이고, 관측 가능성(Observability)은 **"예상하지 못한 문제도 시스템 출력(메트릭·로그·트레이스)만으로 내부 상태를 추론"**할 수 있는 시스템 속성이다.

가치: 모니터링만으로는 "CPU 80% 알림"은 받지만 "왜 80%인지"를 모르고, 관측 가능성은 트레이스·로그를 따라가며 근본 원인을 실시간 탐색할 수 있다.

판단 포인트: 관측 가능성의 3대 축(Three Pillars)은 **메트릭(Metrics)·로그(Logs)·트레이스(Traces)**이며, OpenTelemetry가 통합 표준이다.

Ⅰ. 개요 및 필요성

┌───────────────────────────────────────────────────────┐
│    3 Pillars of Observability                         │
├───────────────────────────────────────────────────────┤
│  [Metrics]  수치 지표 — CPU·메모리·요청 수           │
│             → Prometheus, Grafana                     │
│  [Logs]     이벤트 기록 — 에러 메시지·스택트레이스   │
│             → Elasticsearch, Loki                     │
│  [Traces]   요청 흐름 — 서비스 A→B→C 추적           │
│             → Jaeger, Tempo                           │
│                                                       │
│  OpenTelemetry: 3가지를 통합 수집하는 표준           │
└───────────────────────────────────────────────────────┘

📢 섹션 요약 비유: 모니터링은 체온계(예상 지표만 측정), 관측 가능성은 MRI(내부를 자유롭게 탐색)이다.

Ⅱ. 아키텍처 및 핵심 원리

비교	모니터링	관측 가능성
질문	"알려진 문제 발생?"	"왜 이런 현상?"
방식	대시보드·알림	탐색·상관 분석
범위	사전 정의	자유 질의

Ⅲ. 비교 및 연결

필러	용도	도구
Metrics	추세·알림	Prometheus
Logs	상세 이벤트	ELK, Loki
Traces	분산 추적	Jaeger, Tempo

Ⅳ~Ⅴ. 결론

관측 가능성은 MSA 시대 운영의 필수 속성이며, OpenTelemetry가 메트릭·로그·트레이스를 통합하는 산업 표준이다.

📌 관련 개념 맵

개념	연결 포인트
Metrics	수치 지표 (Prometheus)
Logs	이벤트 기록 (ELK)
Traces	분산 추적 (Jaeger)
OpenTelemetry	통합 수집 표준
SRE	관측 가능성의 운영 조직

📈 관련 키워드 및 발전 흐름도

[SNMP 모니터링 (2000s)] → [ELK Stack (2012~)]
    → [분산 트레이싱 (Zipkin/Jaeger, 2016~)]
    → [OpenTelemetry (2019~) — 통합 표준]
    → [현재: AIOps — AI가 3 Pillars 자동 상관 분석]

👶 어린이를 위한 3줄 비유 설명

모니터링은 체온계예요. 열이 나는지(예상 문제)만 확인해요.
관측 가능성은 MRI예요. 왜 아픈지 몸 속을 자세히 볼 수 있어요.
MRI(3 Pillars)가 있으면 예상 못 한 병도 찾을 수 있답니다!