핵심 인사이트 (3줄 요약)
- 구글 SRE 팀이 정의한 서비스 모니터링의 4가지 핵심 지표인 **지연 시간(Latency), 트래픽(Traffic), 에러(Errors), 포화도(Saturation)**를 말한다.
- 시스템의 '겉모습'뿐만 아니라 사용자 입장에서 느끼는 서비스의 품질(Quality)을 정량화하는 표준 방법론이다.
- 이를 활용해 SLO(Service Level Objective)를 설정하고, 장애 발생 시 원인 분석의 핵심 지표로 삼는다.
Ⅰ. 개요 (Context & Background)
수천 개의 메트릭 중 무엇을 먼저 봐야 할지 모를 때, 골든 시그널은 가장 효율적인 시작점이다. 서버의 CPU/메모리 같은 내부 자원도 중요하지만, 사용자가 실제 겪는 불편함을 감지하는 데 이 4가지 지표가 가장 강력한 통찰력을 제공하기 때문이다.
Ⅱ. 아키텍처 및 핵심 원리 (Deep Dive)
각 시그널은 서로 긴밀히 연결되어 있으며, 시스템의 임계치를 파악하는 데 결정적이다.
[ Four Golden Signals / SRE 4대 핵심 지표 ]
1. Latency (지연 시간) 2. Traffic (트래픽)
+-----------------------+ +-----------------------+
| Time taken to serve | | Demand placed on |
| (99th Percentile) | | (Requests per second) |
+-----------+-----------+ +-----------+-----------+
| |
+-------------+-------------+
|
3. Errors (에러) 4. Saturation (포화도)
+-----------------------+ +-----------------------+
| Rate of requests that | | How 'full' the system |
| fail (HTTP 5xx, etc.) | | (CPU, Memory, Disk) |
+-----------------------+ +-----------------------+
- 지연 시간 (Latency): 요청을 처리하는 데 걸리는 시간. 성공한 요청뿐만 아니라 실패한 요청의 시간도 구분해서 측정해야 한다.
- 트래픽 (Traffic): 시스템에 가해지는 수요 측정값. 웹은 HTTP 요청 수, 스트리밍은 대역폭 등이다.
- 에러 (Errors): 명시적(500 에러), 암시적(200이지만 데이터 비어있음), 정책적(느려서 타임아웃) 에러율을 측정한다.
- 포화도 (Saturation): 시스템의 자원이 얼마나 가득 찼는지를 나타내는 '가장 제한적인 자원'의 사용 비율 (예: CPU 90%).
Ⅲ. 융합 비교 및 다각도 분석 (Comparison & Synergy)
| 비교 항목 | 골든 시그널 (SRE) | USE 메서드 (Infra) | RED 메서드 (Apps) |
|---|---|---|---|
| 핵심 지표 | Latency, Traffic, Error, Saturation | Utilization, Saturation, Errors | Rate, Errors, Duration |
| 관점 | 사용자 서비스 중심 | 하드웨어 자원 중심 | 마이크로서비스 중심 |
| 추천 대상 | 범용 분산 시스템 | 호스트, 네트워크 장비 | HTTP 기반 API 서비스 |
Ⅳ. 실무 적용 및 기술사적 판단 (Strategy & Decision)
- 평균의 함정 (Mean vs Tail): 평균 지연 시간보다 99퍼센타일(P99)이나 95퍼센타일(P95) 지표를 봐야 한다. 대다수가 만족해도 상위 1% 사용자가 10초를 기다린다면 심각한 문제다.
- 포화도와 선행 지표: 포화도는 시스템이 고장 나기 전 미리 신호를 주는 선행 지표다. CPU 사용률이 80%를 넘을 때 자동으로 인스턴스를 늘리는(Auto-scaling) 기준이 된다.
- PE 관점의 판단: 4대 시그널을 각 마이크로서비스의 서비스 수준 지표(SLI)로 삼고, 이를 넘어서는 경우에만 개발 팀과 공유하는 '에러 예산(Error Budget)' 정책을 도입하면 협업 효율이 극대화된다.
Ⅴ. 기대효과 및 결론 (Future & Standard)
골든 시그널은 옵저버빌리티의 표준 규격으로 자리 잡았다. 이를 통해 장애 대응(MTTR) 시간을 단축하고, 비즈니스 가시성을 확보할 수 있다. 인공지능 기반의 모니터링(AIOps) 시스템 역시 이 4대 지표를 학습 데이터의 최우선 순위로 사용하며 자율 운영 인프라의 핵심 데이터로 활용하고 있다.
📌 관련 개념 맵 (Knowledge Graph)
- 상위 개념: SRE, Monitoring
- 하위 개념: SLI, SLO, Error Budget
- 연관 개념: USE Method, RED Method, Prometheus, Grafana
👶 어린이를 위한 3줄 비유 설명
- 지연 시간: 편의점 계산대에서 줄을 서서 기다리는 시간이에요.
- 트래픽: 편의점에 손님이 얼마나 많이 들어오는지 세는 거예요.
- 에러/포화도: 물건이 떨어져서 못 사거나(에러), 편의점 안에 발 디딜 틈 없이 꽉 찬(포화도) 상태예요.