517. 시계열 ARIMA 정상성과 평활법 (Time Series ARIMA Stationarity Smoothing)

핵심 인사이트 (3줄 요약)

본질: 정상성(Stationarity) — 평균·분산이 시간에 따라 변하지 않음 — 은 ARIMA 모델링의 전제 조건이며, ADF 검정(Augmented Dickey-Fuller Test)으로 확인 후 차분(Differencing)으로 달성한다.

가치: ARIMA(Autoregressive Integrated Moving Average)의 p, d, q 파라미터는 ACF(Autocorrelation Function)/PACF(Partial ACF) 패턴으로 체계적으로 결정하고, AIC/BIC로 최적 모델을 선택한다.

판단 포인트: 계절성이 있으면 SARIMA, 딥러닝이 필요하면 LSTM·TCN(Temporal Convolutional Network) — 단, 데이터 양이 충분해야 딥러닝이 통계 모델을 능가한다.

Ⅰ. 개요 및 필요성

시계열 데이터(Time Series Data)는 시간 순서가 의미를 갖는 데이터다. 주가, 기온, 서버 트래픽 등이 대표 예시다. 일반 ML 모델과 달리 시간적 의존성을 명시적으로 모델링해야 한다.

정상성 (Stationarity) 조건

조건	수식	의미
평균 불변	E[Xₜ] = μ (상수)	트렌드(Trend) 없음
분산 불변	Var(Xₜ) = σ² (상수)	변동성 변화 없음
공분산 시차 의존	Cov(Xₜ, Xₜ₊ₖ) = f(k)만 의존	계절성 없음

비정상 시계열 변환:

트렌드 제거: 1차 차분 (d=1) → Xₜ' = Xₜ − Xₜ₋₁
분산 안정화: 로그 변환 → ln(Xₜ)
계절성 제거: 계절 차분 → Xₜ − Xₜ₋ₛ (s: 계절 주기)
📢 섹션 요약 비유: 정상성은 강물이 일정한 수위로 흘러야 예측이 가능한 것처럼, 데이터가 들쭉날쭉 올라가거나 내려가면(비정상) 모델이 패턴을 찾기 어려워. 차분은 강물의 수위 변화를 분석하는 것과 같아.

Ⅱ. 아키텍처 및 핵심 원리

ARIMA(p, d, q) 파라미터 결정 흐름

시계열 데이터
      │
      ▼
ADF 검정 → 비정상? → d회 차분 (I 부분 결정)
      │                 │
      ▼                 ▼
  정상성 달성         d=1 or 2
      │
      ├─ PACF 분석 → AR 차수 p 결정
      │  (절단점 = p)
      │
      └─ ACF 분석 → MA 차수 q 결정
         (절단점 = q)
      │
      ▼
ARIMA(p,d,q) 적합 → AIC/BIC 최소 모델 선택

ACF vs PACF 패턴 해석

패턴	AR(p) 신호	MA(q) 신호
ACF	지수적 감소 또는 진동 감소	q 시차 후 절단
PACF	p 시차 후 절단	지수적 감소 또는 진동 감소

ARIMA 구성 요소:

AR(p): Xₜ = φ₁Xₜ₋₁ + ... + φₚXₜ₋ₚ + εₜ (자기회귀)
I(d): d회 차분으로 정상성 달성
MA(q): Xₜ = εₜ + θ₁εₜ₋₁ + ... + θqεₜ₋q (이동평균)
📢 섹션 요약 비유: AR은 "오늘 기온은 어제 기온과 비슷할 거야"처럼 과거 값을 사용하는 부분이고, MA는 "어제 예측이 틀렸으니 오늘 예측에 반영하자"처럼 과거 오차를 사용하는 부분이야.

Ⅲ. 비교 및 연결

지수 평활법 (Exponential Smoothing) 비교

방법	대응 패턴	파라미터
단순 지수 평활 (SES)	트렌드·계절성 없음	α (평활 계수)
Holt의 이중 지수 평활	트렌드 있음	α, β
Holt-Winters	트렌드+계절성	α, β, γ

Holt-Winters vs SARIMA:

Holt-Winters: 계산 빠르고 단순, 단기 예측에 강점.
SARIMA(p,d,q)(P,D,Q)[s]: 통계적 추론 가능, AIC/BIC로 모델 선택 체계적.

딥러닝 시계열 모델

LSTM (Long Short-Term Memory): RNN의 장기 의존성 학습. 데이터 ≥ 수천 포인트 권장.
TCN (Temporal Convolutional Network): 인과 합성곱으로 병렬 학습 가능, LSTM보다 빠름.
Prophet (Facebook): 트렌드 + 계절성 + 휴일 효과 분리 모델, 비전문가도 사용 용이.
📢 섹션 요약 비유: 지수 평활은 최근 기억에 더 가중치를 두는 인간의 기억 방식이야. 오래된 기억은 흐릿해지고(작은 가중치), 최근 기억은 선명해(큰 가중치). 어제 있었던 일이 일주일 전보다 더 잘 기억되는 것처럼.

Ⅳ. 실무 적용 및 기술사 판단

시나리오 - 소매점 매출 예측:

3년치 주간 매출 데이터 분석.
1단계: ADF 검정 p-값 = 0.48 > 0.05 → 비정상 → 1차 차분 후 p-값 = 0.003 → 정상 (d=1).
2단계: ACF가 12시차(연간 계절성) 반복 → SARIMA 적용.
3단계: 모델 탐색 SARIMA(1,1,1)(1,1,1)[52] → AIC 최소.
RMSE = 4,200만 원 (MAPE 3.8%) → 재고 최적화 연 1.2억 원 절감.

잔차 진단:

Ljung-Box 검정: 잔차에 자기상관 없음 → 모델 적합 확인.
잔차 정규성: Q-Q 플롯 확인.

기술사 판단 포인트:

데이터 < 50 포인트: 단순 지수 평활 또는 Holt-Winters 우선 고려.
구조 변화(Structural Break) 탐지: Chow Test → 변환점 전후 별도 모델링.
이상값 탐지: 시계열 이상값(Innovational Outlier, Additive Outlier) 유형별 처리.
📢 섹션 요약 비유: 시계열 예측은 날씨 예보처럼, "오늘이 맑으면 내일도 맑을 가능성이 높다(AR)"는 규칙과 "어제 예보가 틀렸으니 오늘은 보정하자(MA)"는 두 가지 논리를 합쳐서 미래를 예측하는 거야.

Ⅴ. 기대효과 및 결론

ARIMA 계열 모델과 딥러닝 시계열 모델을 데이터 특성에 맞게 선택하면 재고 관리·에너지 수요 예측·금융 리스크 관리 등 다양한 영역에서 예측 정확도를 높일 수 있다.

재고 최적화: 정확한 수요 예측으로 과재고·품절 리스크 감소.
이상 탐지: 예측값과 실제값 차이(잔차) 모니터링으로 시스템 이상 조기 감지.
운영 효율: 자동화된 ARIMA 파라미터 탐색(Auto-ARIMA)으로 모델 유지 비용 절감.
📢 섹션 요약 비유: 시계열 분석은 역사책을 읽고 미래를 예측하는 거야. 과거 패턴(AR), 과거 실수(MA), 그리고 계절 반복(S)을 모두 고려해야 좋은 예측이 나와.

📌 관련 개념 맵

개념	연결 포인트
정상성	ADF 검정, 차분 · ARIMA 전처리
ARIMA(p,d,q)	ACF/PACF, AIC/BIC · 시계열 예측
SARIMA	계절성, 계절 차분 · 월별/분기별 데이터
Holt-Winters	지수 평활, 트렌드+계절 · 단기 예측
LSTM/TCN	장기 의존성, 딥러닝 · 복잡 비선형 패턴

📈 관련 키워드 및 발전 흐름도

[ADF 검정 · 차분] → [시계열 ARIMA 정상성과 평활법] → [장기 의존성 · 딥러닝]

👶 어린이를 위한 3줄 비유 설명

시계열은 매일 기온을 기록한 일기장처럼, 시간 순서가 중요한 데이터야.
ARIMA는 "어제 기온이 오늘에 영향을 주고(AR), 어제 예측 실수도 반영해서(MA)" 미래 기온을 예측하는 방법이야.
계절이 있으면 SARIMA로 "작년 여름이 올해 여름에도 영향을 준다"는 패턴까지 추가로 학습해!