57. 시계열 데이터베이스 (Time-Series Database, TSDB) - 다운샘플링과 보존 정책

핵심 인사이트 (3줄 요약)

본질: TSDB (Time-Series Database)는 시간 순으로 쌓이는 데이터를 빠르게 쓰고 읽기 위해 최적화된 데이터베이스다.

가치: 다운샘플링은 오래된 고해상도 데이터를 더 거친 집계값으로 바꿔 저장 비용을 줄인다.

판단 포인트: 보존 정책(Retention Policy)은 언제 무엇을 버릴지 정하는 규칙이고, 다운샘플링과 함께 설계해야 한다.

Ⅰ. 개요 및 필요성

시계열 데이터는 계속 쏟아지고, 시간이 지날수록 세밀한 값의 가치가 떨어진다.

그래서 최근 데이터는 자세하게, 오래된 데이터는 거칠게 보관하는 전략이 필요하다.

📢 섹션 요약 비유: 새로 찍은 사진은 크게 남기고, 오래된 사진은 앨범 요약본으로 남기는 것이다.

Ⅱ. 다운샘플링의 원리

다운샘플링은 일정 구간의 데이터를 묶어 평균, 최대, 최소 같은 대표값으로 바꾸는 작업이다.

1초 단위 원본
   ↓
1분 집계
   ↓
1시간 집계
   ↓
장기 보관

이렇게 하면 과거 데이터를 훨씬 적은 공간에 저장할 수 있고, 조회도 빨라진다.

📢 섹션 요약 비유: 매 순간의 파도 사진을 다 보관하지 않고, 하루 평균 파도 높이만 남기는 것이다.

Ⅲ. 보존 정책과 수명 주기

보존 정책은 데이터를 얼마나 오래 보관할지 정한다.

최근 데이터: 원본 그대로 유지
중간 데이터: 집계된 형태로 유지
오래된 데이터: 자동 삭제 또는 더 거친 집계로 전환

이 정책이 없으면 TSDB는 금방 비대해지고 관리가 어려워진다.

📢 섹션 요약 비유: 냉장고 안 음식도 유통기한이 지나면 버려야 공간이 생긴다.

Ⅳ. 운영 방식과 쿼리 전략

TSDB는 보통 백그라운드 작업이나 Continuous Query로 다운샘플링을 수행한다.

운영에서는 다음이 중요하다.

원본과 집계 데이터를 분리한다.
구간별 해상도를 다르게 둔다.
모니터링용 데이터와 분석용 데이터를 구분한다.
조회 패턴에 맞게 보존 주기를 설계한다.

알람에 필요한 최근 데이터는 절대 너무 일찍 거칠게 바꾸면 안 된다.

📢 섹션 요약 비유: 가까운 날씨는 자세히 보고, 작년 날씨는 계절 평균만 보는 것과 같다.

Ⅴ. 실무 적용과 한계

TSDB는 센서, 로그, 금융 시계열, 모니터링 지표에 유용하다.

하지만 무작정 다운샘플링하면 분석 정밀도가 떨어질 수 있다. 그래서 "얼마나 오래, 얼마나 자세히"를 업무 요구에 맞춰 결정해야 한다.

다운샘플링은 저장 공간과 조회 속도를, 보존 정책은 관리 비용과 운영 안정성을 잡는다.

📢 섹션 요약 비유: 사진첩을 너무 자세히만 남기면 무겁고, 너무 대충 남기면 추억이 흐려진다.

어린이를 위한 3줄 비유 설명

시계열 데이터는 매일 찍는 사진이에요.
처음 사진은 자세히 남기고, 오래된 사진은 요약 앨범으로 바꿔요.
그래야 공간도 아끼고 필요한 순간은 빨리 찾을 수 있어요.