핵심 인사이트 (3줄 요약)
- 본질: 시계열 분석(Time Series Analysis)은 주식 가격이나 날씨처럼 '시간의 흐름'에 따라 순서대로 기록된 데이터를 분석하여, 과거의 패턴이 미래에도 반복될 것이라는 가정하에 내일의 값을 예측하는 통계 기법이다.
- 가치: AR(자기회귀) 모델은 "오늘의 날씨는 어제의 날씨와 비슷하다"는 과거의 '값'에 주목하고, MA(이동평균) 모델은 "어제 기상청의 예보가 빗나간 오차만큼 오늘도 빗나갈 것이다"라는 과거의 '오차(Error)'에 주목하여 불확실성을 통제한다.
- 판단 포인트: AR과 MA를 결합한 ARMA 모델은 데이터의 평균과 분산이 시간에 따라 변하지 않는다는 '정상성(Stationarity)'을 엄격하게 만족해야만 작동하므로, 실무에서는 비정상 데이터를 차분(Differencing)하여 정상화시키는 전처리(ARIMA 모델로 확장)가 필수적이다.
Ⅰ. 개요 및 필요성
데이터 과학에서 변수 간의 관계를 분석할 때, 일반적인 머신러닝 모델은 데이터의 순서를 무시한다(예: 10년 전 집값이나 어제 집값이나 순서를 섞어도 상관없음). 하지만 주식 가격, 환율, 기온 등은 철저하게 '시간(Time)'이라는 끈으로 묶여 있다. 오늘 주식이 오르면 내일도 오를 확률이 높듯, 과거와 현재 사이에 끈끈한 자기 상관성(Autocorrelation)이 존재한다.
"과거의 나(과거 데이터)를 보면 미래의 나(내일의 데이터)를 예측할 수 있지 않을까?" 이 질문에서 시작된 통계학의 한 분야가 시계열 분석이며, 그 가장 기초적이면서도 강력한 두 개의 기둥이 바로 과거의 값을 보는 AR(Auto-Regressive) 모델과 과거의 오차를 보는 MA(Moving Average) 모델이다.
📢 섹션 요약 비유: AR은 "어제 내가 10km를 뛰었으니 오늘도 그 관성으로 9km는 뛰겠지"라고 어제의 '행동'을 보는 것이고, MA는 "어제 목표치보다 2km 덜 뛰었으니(오차), 오늘도 며칠간의 피로도 오차 때문에 목표를 못 채우겠지"라고 '실수'의 흐름을 보는 것이다.
Ⅱ. 아키텍처 및 핵심 원리
시계열 예측 모델은 어떤 과거(값 vs 오차)를 재료로 쓰느냐에 따라 수식이 갈린다.
┌────────────────────────────────────────────────────────┐
│ [ 시계열 AR, MA, ARMA 모델의 수학적 구조 ] │
├────────────────────────────────────────────────────────┤
│ 1. AR 모델 (Auto-Regressive, 자기회귀) │
│ Y_t = a·Y_t-1 + b·Y_t-2 + ... + ε_t │
│ - 내일(Y_t)은 오늘(Y_t-1)과 어제(Y_t-2)의 값에 │
│ 가중치(a, b)를 곱해서 예측! │
│ │
│ 2. MA 모델 (Moving Average, 이동평균) │
│ Y_t = 평균 + ε_t - θ·ε_t-1 - ... │
│ - 내일(Y_t)은 어제 예측하다가 틀린 오차(ε_t-1)들의 │
│ 영향(Shock)이 오늘까지 이어져서 결정됨! │
│ │
│ 3. ARMA 모델 (AR + MA 융합) │
│ Y_t = (어제까지의 값들) + (어제까지의 오차들) + 현재노이즈 │
│ - 과거의 관성(AR)과 최근의 외부 충격(MA)을 모두 짬뽕함! │
└────────────────────────────────────────────────────────┘
- AR (자기회귀): 말 그대로 자기 자신(Auto)의 과거 데이터를 독립 변수 삼아 선형 회귀(Regression)를 돌리는 것이다. "오늘 온도는 어제 온도와 매우 비슷하다"는 직관을 따른다.
- MA (이동평균): 여기서 말하는 MA는 주식 차트에서 보는 '5일 이동평균선(단순 평균)'이 아니다. 과거에 발생했던 백색 잡음(White Noise, 예측할 수 없었던 외부 충격이나 오차)들이 현재에 미치는 영향을 모델링한 것이다.
- ARMA ($p, q$): AR 모델의 과거 변수 개수($p$)와 MA 모델의 과거 오차 개수($q$)를 합친 완벽한 선형 시계열 모델이다.
📢 섹션 요약 비유: 아이스크림을 팔 때, AR은 "어제 100개 팔았으니 오늘도 100개 팔리겠지(과거의 값)"라고 예측하는 것이고, MA는 "어제 갑자기 소나기가 와서 30개 못 팔았는데(과거의 오차 쇼크), 그 비구름이 오늘까지 남아있으니 오늘도 덜 팔리겠지"라고 충격의 여파를 계산하는 것이다.
Ⅲ. 비교 및 연결
시계열 분석 모델이 몇 개의 파라미터(시차)를 볼 것인지를 결정하기 위해 꼭 필요한 도구가 ACF와 PACF다.
| 비교 항목 | ACF (자기상관함수, Auto-Correlation) | PACF (편자기상관함수, Partial Auto-Correlation) |
|---|---|---|
| 측정 대상 | 현재 시점($Y_t$)과 $k$일 전($Y_{t-k}$)의 총체적 상관관계 | 중간에 낀 날들의 영향을 다 제거한, 현재와 $k$일 전의 순수한 상관관계 |
| AR 모델 판단 | 시차가 길어질수록 점진적으로 감소함 (쓸모없음) | 특정 시점(p) 이후 팍 꺾여서 0이 됨 (AR의 차수 p 결정에 씀!) |
| MA 모델 판단 | 특정 시점(q) 이후 팍 꺾여서 0이 됨 (MA의 차수 q 결정에 씀!) | 시차가 길어질수록 점진적으로 감소함 (쓸모없음) |
즉, 시계열 데이터를 분석할 때 제일 먼저 ACF와 PACF 그래프를 그려보고, 그래프가 언제 0으로 떨어지는지 눈으로 확인하여 "아, 이 데이터는 AR(2) 모델과 MA(1) 모델을 섞어 쓰면 완벽하겠군!"이라는 아키텍처 설계를 할 수 있다.
📢 섹션 요약 비유: 할아버지(그저께)가 아빠(어제)에게 유전자를 주고, 아빠가 나(오늘)에게 유전자를 줬을 때, ACF는 할아버지와 나의 겉모습 닮은 꼴(총체적 상관)을 보고, PACF는 아빠의 영향을 빼고 할아버지가 나에게 직접 준 순수 유전자(편상관)만 골라내는 현미경이다.
Ⅳ. 실무 적용 및 기술사 판단
실무 적용 시나리오: 통신사에서 내일 아침의 트래픽 부하량을 예측할 때 ARMA 모델을 쓴다. 어제 트래픽 패턴(AR)과 어제 새벽에 터진 갑작스러운 장애 여파(MA)를 조합하여, 트래픽이 몰리기 10분 전에 미리 클라우드 서버의 오토 스케일링(Auto Scaling)을 작동시키는 데 활용된다.
기술사 판단 포인트 (Trade-off): ARMA 모델을 실무에 적용할 때 기술사는 데이터의 **'정상성(Stationarity) 위배 현상'**을 반드시 차단해야 한다.
- ARMA 모델은 "데이터의 평균과 흩어짐(분산)이 10년 전이나 지금이나 항상 일정하다"는 깐깐한 조건(정상성)을 요구한다.
- 하지만 주식이나 집값 데이터는 우상향하는 '추세(Trend)'가 있고, 여름마다 에어컨이 팔리는 '계절성(Seasonality)'이 있다. 이 비정상적인 데이터를 그대로 ARMA에 넣으면 예측이 100% 빗나간다.
- 따라서 기술사는 반드시 데이터를 그대로 넣지 말고, "오늘 값에서 어제 값을 뺀" **차분(Differencing)**이나 자연로그를 씌우는 전처리(ETL) 파이프라인을 구축하여 억지로 데이터를 '정상성' 상태로 다듬어 주어야 한다.
📢 섹션 요약 비유: ARMA는 매일 잔잔하게 출렁이는 호수(정상성 데이터)의 물결을 맞추는 데는 천재지만, 점점 높아지는 거대한 쓰나미(추세)나 겨울마다 어는 빙판(계절성) 앞에서는 바보가 된다. 파도가 치는 경사(추세)를 평평하게 깎아내야(차분) 이 공식을 쓸 수 있다.
Ⅴ. 기대효과 및 결론
AR과 MA 모델은 수백 년 전부터 인류가 불확실한 미래를 통제하기 위해 고안해 낸 통계학의 가장 직관적이고 강력한 도구다. 딥러닝 시대가 도래하여 LSTM, GRU 같은 거대한 시계열 신경망이 등장했음에도 불구하고, 단기 예측이나 금융 데이터 분석에서는 여전히 ARMA 계열의 모델이 압도적인 가성비와 설명력(Explainability)을 무기로 현업 표준을 지키고 있다.
결론적으로 ARMA 모델은 '과거가 미래를 지배한다'는 시계열 분석의 철학을 가장 아름다운 선형 방정식 두 개로 빚어낸 명작이다. 기술사는 아무리 복잡한 딥러닝을 설계하더라도 시계열 도메인에 섰을 때는, 언제나 데이터의 정상성을 먼저 의심하고 ACF/PACF를 뚫어져라 쳐다보는 통계학자의 시선을 잃지 말아야 한다.
📢 섹션 요약 비유: 첨단 인공위성(딥러닝)으로 내일 날씨를 맞출 수도 있지만, AR과 MA는 마당에 서서 바람의 방향(과거의 값)과 먹구름의 움직임(오차의 충격)만 보고도 내일 날씨를 꽤 정확히 맞춰내는 수백 년 된 베테랑 농부의 지혜다.
📌 관련 개념 맵
- 상위 개념: 시계열 분석 (Time Series Analysis), 통계학
- 하위 개념: ACF (자기상관함수), PACF (편자기상관함수), 정상성 (Stationarity)
- 연결 개념: 차분 (Differencing), ARIMA 모델, 백색 잡음 (White Noise)
👶 어린이를 위한 3줄 비유 설명
- "내일 내가 몇 시에 일어날까?"를 맞출 때, AR 모델은 "어제와 그제 7시에 일어났으니 내일도 7시겠지!"라고 과거의 습관을 보는 거예요.
- MA 모델은 "어젯밤에 늦게 자서 오늘 엄청 피곤했으니(오차 쇼크), 그 피로가 내일까지 가서 내일은 늦잠 자겠지!"라고 피로의 여파를 보는 거예요.
- ARMA는 이 두 가지를 섞어서 내일 일어날 시간을 아주 과학적이고 똑똑하게 예측해 주는 마법 공식이랍니다!