핵심 인사이트 (3줄 요약)
- 본질: TSDB (Time-Series Database)는 시간 순으로 쌓이는 데이터를 빠르게 쓰고 읽기 위해 최적화된 데이터베이스다.
- 가치: 다운샘플링은 오래된 고해상도 데이터를 더 거친 집계값으로 바꿔 저장 비용을 줄인다.
- 판단 포인트: 보존 정책(Retention Policy)은 언제 무엇을 버릴지 정하는 규칙이고, 다운샘플링과 함께 설계해야 한다.
Ⅰ. 개요 및 필요성
시계열 데이터는 계속 쏟아지고, 시간이 지날수록 세밀한 값의 가치가 떨어진다.
그래서 최근 데이터는 자세하게, 오래된 데이터는 거칠게 보관하는 전략이 필요하다.
- 📢 섹션 요약 비유: 새로 찍은 사진은 크게 남기고, 오래된 사진은 앨범 요약본으로 남기는 것이다.
Ⅱ. 다운샘플링의 원리
다운샘플링은 일정 구간의 데이터를 묶어 평균, 최대, 최소 같은 대표값으로 바꾸는 작업이다.
1초 단위 원본
↓
1분 집계
↓
1시간 집계
↓
장기 보관
이렇게 하면 과거 데이터를 훨씬 적은 공간에 저장할 수 있고, 조회도 빨라진다.
- 📢 섹션 요약 비유: 매 순간의 파도 사진을 다 보관하지 않고, 하루 평균 파도 높이만 남기는 것이다.
Ⅲ. 보존 정책과 수명 주기
보존 정책은 데이터를 얼마나 오래 보관할지 정한다.
- 최근 데이터: 원본 그대로 유지
- 중간 데이터: 집계된 형태로 유지
- 오래된 데이터: 자동 삭제 또는 더 거친 집계로 전환
이 정책이 없으면 TSDB는 금방 비대해지고 관리가 어려워진다.
- 📢 섹션 요약 비유: 냉장고 안 음식도 유통기한이 지나면 버려야 공간이 생긴다.
Ⅳ. 운영 방식과 쿼리 전략
TSDB는 보통 백그라운드 작업이나 Continuous Query로 다운샘플링을 수행한다.
운영에서는 다음이 중요하다.
- 원본과 집계 데이터를 분리한다.
- 구간별 해상도를 다르게 둔다.
- 모니터링용 데이터와 분석용 데이터를 구분한다.
- 조회 패턴에 맞게 보존 주기를 설계한다.
알람에 필요한 최근 데이터는 절대 너무 일찍 거칠게 바꾸면 안 된다.
- 📢 섹션 요약 비유: 가까운 날씨는 자세히 보고, 작년 날씨는 계절 평균만 보는 것과 같다.
Ⅴ. 실무 적용과 한계
TSDB는 센서, 로그, 금융 시계열, 모니터링 지표에 유용하다.
하지만 무작정 다운샘플링하면 분석 정밀도가 떨어질 수 있다. 그래서 "얼마나 오래, 얼마나 자세히"를 업무 요구에 맞춰 결정해야 한다.
다운샘플링은 저장 공간과 조회 속도를, 보존 정책은 관리 비용과 운영 안정성을 잡는다.
- 📢 섹션 요약 비유: 사진첩을 너무 자세히만 남기면 무겁고, 너무 대충 남기면 추억이 흐려진다.
관련 개념 맵
원본 시계열 데이터
↓
다운샘플링
↓
집계 데이터
↓
보존 정책
관련 키워드 및 발전 흐름도
- 고해상도 시계열 데이터 → 저장 비용 증가
- 다운샘플링 → 요약 저장으로 비용 절감
- 보존 정책 → 데이터 수명 주기 관리
- Continuous Query → 자동 집계와 롤업
- 계층적 보관 → 최근/중간/장기 데이터 분리
어린이를 위한 3줄 비유 설명
시계열 데이터는 매일 찍는 사진이에요.
처음 사진은 자세히 남기고, 오래된 사진은 요약 앨범으로 바꿔요.
그래야 공간도 아끼고 필요한 순간은 빨리 찾을 수 있어요.