핵심 인사이트 (3줄 요약)
- 본질: Metrics(수치 시계열)·Logs(텍스트 이벤트)·Traces(분산 요청 추적)는 관측 가능성의 **3대 필러(Three Pillars)**이며, 세 가지를 **상관 분석(Correlation)**해야 장애 근본 원인을 파악할 수 있다.
- 가치: Metrics만으로는 "CPU 80%"를 알지만 원인을 모르고, Logs만으로는 에러는 보지만 어디서 발생했는지 모르며, Traces만으로는 느린 구간은 보지만 왜 느린지 모른다. 세 가지를 연결해야 완전한 진단이 가능하다.
- 판단 포인트: TraceID·SpanID로 3 Pillars를 연결(Correlation)하고, Grafana LGTM Stack(Loki·Grafana·Tempo·Mimir)이 오픈소스 관측 표준이다.
Ⅰ. 개요 및 필요성
Metrics: "무엇이" — 에러율 5%↑
Logs: "왜" — NullPointerException at OrderService
Traces: "어디서" — Order→Payment→DB 3번째 구간에서 지연
→ TraceID로 3가지를 연결 → 완전한 진단
- 📢 섹션 요약 비유: Metrics는 체온계(숫자), Logs는 의사 진료 기록(텍스트), Traces는 혈류 추적(경로). 셋 다 봐야 정확한 진단.
Ⅱ. 아키텍처 및 핵심 원리
| Pillar | 형태 | 도구 |
| Metrics | 수치 시계열 | Prometheus, Mimir |
| Logs | 텍스트 이벤트 | Loki, ELK |
| Traces | 분산 요청 추적 | Tempo, Jaeger |
Ⅲ~Ⅴ. 결론
Three Pillars의 **상관 분석(Correlation)**이 관측 가능성의 진정한 가치이며, OpenTelemetry+Grafana Stack이 이를 실현한다.
📌 관련 개념 맵
| 개념 | 연결 포인트 |
| Metrics | 수치 지표 (Prometheus) |
| Logs | 텍스트 이벤트 (Loki) |
| Traces | 분산 추적 (Tempo) |
| Correlation | 3 Pillars 연결 (TraceID) |
| LGTM Stack | Grafana 관측 표준 |
📈 관련 키워드 및 발전 흐름도
[메트릭만 (Nagios, 2000s)] → [로그 추가 (ELK, 2012~)]
→ [트레이스 추가 (Jaeger, 2016~)]
→ [3 Pillars 통합 (Grafana LGTM, 2020~)]
→ [현재: Profiles (4th Pillar) — 코드 수준 성능 분석]
👶 어린이를 위한 3줄 비유 설명
- Metrics는 체온계(숫자), Logs는 진료 기록(텍스트), Traces는 혈류 추적(경로)이에요.
- 체온계만 보면 "열이 난다"만 알지, 왜 아프고 어디가 아픈지 몰라요.
- 셋 다 연결해서 보면 **정확한 병(장애 원인)**을 찾을 수 있답니다!