핵심 인사이트 (3줄 요약)

  1. 본질: 4 Golden Signals(4 골든 시그널)는 구글 SRE가 정의한 모든 서비스의 모니터링 필수 지표 4가지로, 지연 시간(Latency), 트래픽(Traffic), 에러(Errors), 포화도(Saturation)이며 이 4가지만 제대로 모니터링해도 대부분의 장애를 선제 감지할 수 있다.
  2. 가치: 수십 개의 시스템 지표 중 "무엇을 봐야 하는가?"에 대한 명확한 답을 제시하며, 알람 설계와 SLI 선택의 가이드 프레임워크로 실무에서 즉시 적용 가능하다.
  3. 판단 포인트: USE(Utilization, Saturation, Errors)는 인프라/리소스 관점, RED(Rate, Errors, Duration)는 마이크로서비스 관점으로 Golden Signals와 상호 보완적으로 활용한다.

Ⅰ. 개요 및 필요성

서비스를 모니터링하면 수백 개의 지표가 나온다. CPU, 메모리, 디스크, 네트워크, GC, 스레드 수… 어디에 집중해야 할까? 알람을 전부 걸면 알람 피로(Alert Fatigue)로 진짜 중요한 신호를 놓친다.

구글 SRE 책은 이 문제를 4 Golden Signals로 해결한다. "모든 서비스에 대해 이 4가지를 모니터링할 수 있다면 합리적인 서비스 건강 상태를 파악할 수 있다"고 명시한다. 이 프레임워크는 모니터링 설계의 출발점이자 SLI 선택의 가이드다.

서비스의 종류와 규모에 관계없이 사용자가 불편함을 느끼는 대부분의 상황은 이 4가지 중 하나 이상에 반영된다. 결제 서비스든, 검색 API든, 배치 처리든 동일하게 적용된다.

📢 섹션 요약 비유: 4 Golden Signals는 의사의 기본 4가지 생체 징후 측정이다. 체온(에러), 혈압(트래픽), 맥박(지연 시간), 산소포화도(포화도). 이 4가지만 봐도 환자의 위급 상태를 빠르게 판단한다.


Ⅱ. 아키텍처 및 핵심 원리

4 Golden Signals 상세

4 Golden Signals

┌─────────────────────────────────────────────┐
│  1. Latency (지연 시간)                      │
│     요청 처리에 걸린 시간                    │
│     ⚠️ 성공 요청 지연 ≠ 오류 요청 지연 구분  │
│     측정: p50, p95, p99 레이턴시             │
├─────────────────────────────────────────────┤
│  2. Traffic (트래픽)                         │
│     서비스가 받는 요청/처리 수요             │
│     측정: RPS(초당 요청 수), TPS, DAU        │
├─────────────────────────────────────────────┤
│  3. Errors (에러)                            │
│     실패한 요청의 비율                       │
│     ⚠️ 명시적(5xx) + 암묵적(잘못된 응답) 포함│
│     측정: 에러율(%), 에러 건수               │
├─────────────────────────────────────────────┤
│  4. Saturation (포화도)                      │
│     서비스가 얼마나 "가득 찼는가"            │
│     ⚠️ 100% 전에 성능 저하 시작              │
│     측정: CPU %, 메모리 %, 큐 길이, 연결 수  │
└─────────────────────────────────────────────┘
시그널핵심 질문PromQL 예시알람 기준
Latency요청이 얼마나 빠른가?histogram_quantile(0.99, ...)p99 > 500ms
Traffic부하가 얼마나 많은가?rate(requests_total[5m])평소 대비 3배 이상
Errors얼마나 실패하는가?rate(errors_total[5m]) / rate(requests_total[5m])에러율 > 1%
Saturation리소스가 얼마나 찼는가?process_cpu_usageCPU > 80%

📢 섹션 요약 비유: Traffic은 고속도로 차량 수, Latency는 평균 통행 시간, Errors는 사고 발생률, Saturation은 도로 점유율이다. 4개를 보면 고속도로(서비스) 상태를 완전히 파악할 수 있다.


Ⅲ. 비교 및 연결

세 가지 모니터링 방법론 비교

방법론전체 이름초점주요 지표적합 대상
Golden Signals4 Golden Signals서비스 사용자 관점Latency, Traffic, Errors, Saturation모든 서비스
USEUtilization, Saturation, Errors리소스/인프라 관점사용률, 포화도, 오류CPU, 메모리, 디스크
REDRate, Errors, Duration마이크로서비스 관점요청 비율, 오류 비율, 지연MSA API 서비스

방법론 조합 사용:

  • 인프라 레이어: USE (리소스 포화도 감시)
  • 서비스 레이어: RED / Golden Signals (API 성능)
  • 비즈니스 레이어: 주문 완료율, 결제 성공률 등 도메인 지표

📢 섹션 요약 비유: USE는 엔진 상태, RED는 속도계와 연료 소모, Golden Signals는 승차감까지 포함한 종합 진단이다. 목적에 따라 다른 계기판을 본다.


Ⅳ. 실무 적용 및 기술사 판단

Golden Signals 기반 Grafana 대시보드 구성:

행 1: Traffic 패널

  • 초당 요청 수 (RPS)
  • 시간별 트래픽 추이
  • 엔드포인트별 트래픽 분포

행 2: Latency 패널

  • p50/p95/p99 레이턴시 추이
  • 지연 분포 히트맵

행 3: Errors 패널

  • 에러율 (%)
  • HTTP 상태 코드별 분포
  • 에러 유형별 로그 링크

행 4: Saturation 패널

  • CPU/메모리 사용률
  • 큐 길이, 연결 풀 사용률
  • 리소스 임박 지표

Latency 측정의 핵심: 평균(average)이 아닌 백분위수(percentile) 사용 필수

  • p50 = 중간값: "절반의 사용자가 이것보다 빠르다"
  • p99 = 상위 1%: "99%의 사용자가 이것보다 빠르다"
  • 평균은 극단값에 왜곡되어 실제 사용자 경험을 숨긴다

📢 섹션 요약 비유: 평균 지연 시간 vs p99는 평균 키와 "가장 키 큰 1%"의 차이다. 평균은 대부분을 대표하지만 극단적 경험(느린 사용자)을 숨긴다. SLI는 p99로 설정해야 한다.


Ⅴ. 기대효과 및 결론

4 Golden Signals 프레임워크를 모니터링 설계의 기준으로 채택하면, 팀이 "무엇을 봐야 하는가"에 대한 합의를 빠르게 이룰 수 있다. 수백 개의 지표 중 핵심 4개에 집중함으로써 알람 피로를 줄이고 진짜 중요한 신호를 놓치지 않는다.

더 나아가 이 4개 시그널은 SLI 선택의 출발점이 된다. Latency SLI, Error Rate SLI를 정의하고 SLO를 설정하면, 모니터링-SLI-SLO-Error Budget의 완전한 신뢰성 관리 체계가 완성된다.

📢 섹션 요약 비유: 4 Golden Signals는 서비스 건강의 심전도다. 4개의 선이 정상 범위에 있으면 서비스는 건강하고, 하나라도 이상해지면 진단이 필요하다는 즉각적인 신호가 된다.


📌 관련 개념 맵

개념연결 포인트
SLIGolden Signals가 SLI 선택의 가이드
Prometheus / GrafanaGolden Signals 수집·시각화 도구
AlertManagerGolden Signals 임계값 기반 알람
USE 방법론인프라 레이어 보완 방법론
RED 방법론MSA 서비스 레이어 보완 방법론
p99 레이턴시Latency 시그널의 올바른 측정 방식

👶 어린이를 위한 3줄 비유 설명

  1. 4 Golden Signals는 의사가 환자를 볼 때 꼭 재는 체온, 혈압, 맥박, 산소포화도예요.

📈 관련 키워드 및 발전 흐름도

4 Golden Signals (Google SRE)
    ├─► Latency: 응답 시간 (p50, p99)
    ├─► Traffic: 요청량 (QPS, TPS)
    ├─► Errors: 오류율 (5xx, 비즈니스 에러)
    └─► Saturation: 리소스 포화도 (CPU, Mem, Disk)
    │
    ▼
USE Method (Utilization · Saturation · Errors)
RED Method (Rate · Errors · Duration)
  1. 이 4가지만 정상이면 대부분 건강하고, 하나라도 이상하면 더 자세히 검사해요.
  2. 서비스도 이 4가지(지연, 트래픽, 에러, 포화도)만 잘 보면 대부분의 문제를 잡을 수 있어요!