392. 시계열 자기 상관 함수 (ACF)와 부분 자기 상관 함수 (PACF)

핵심 인사이트 (3줄 요약)

본질: 시계열 데이터 분석에서 "오늘의 주가는 어제의 주가와, 혹은 그저께의 주가와 얼마나 강하게 얽혀 있는가?"를 통계적으로 측정하여 그래프로 나타낸 것이 자기 상관 함수(ACF)와 부분 자기 상관 함수(PACF)다.

가치: 이 두 그래프 모양을 보면 데이터가 자신만의 규칙적인 파도(계절성, 주기)를 타는지, 아니면 그냥 술 취한 사람처럼 맘대로 걷는지(랜덤 워크)를 한눈에 알아채고, 예측 모델(ARIMA 등)의 핵심 파라미터(p, q)를 세팅할 수 있다.

판단 포인트: ACF는 과거의 모든 나비효과를 포함한 '전체적인 상관관계'를 보여주지만, PACF는 중간에 낀 다른 날들의 영향을 수학적으로 다 제거하고 오직 '특정 과거 시점과 현재의 순수한 1:1 관계'만을 발라내어 보여주므로 두 지표도를 반드시 세트로 분석해야 한다.

Ⅰ. 개요 및 필요성

일반적인 머신러닝 데이터는 '순서'가 중요하지 않다 (예: 1번 학생과 2번 학생의 데이터 순서를 바꿔도 상관없음). 하지만 주식 가격, 기온, 웹사이트 접속량 같은 시계열(Time-series) 데이터는 무조건 '시간의 순서'라는 맥락(Context)이 가장 중요하다. 오늘의 온도는 내일의 온도에 절대적인 영향을 미치기 때문이다.

그렇다면 "오늘의 날씨는 딱 1주일 전 날씨의 영향만 받을까? 아니면 한 달 전 날씨의 영향도 받을까?" 이걸 알아야 내일 날씨를 예측하는 수식을 짤 수 있다. 내 데이터 안에서 '과거의 나'와 '현재의 나' 사이의 관계를 시차(Lag)를 늘려가며 수학적으로 재어보는 탐색기, 그것이 바로 **자기 상관(Autocorrelation)**이다.

📢 섹션 요약 비유: 메아리 치는 동굴에서 어제 내가 한 말이 오늘 다시 들려오는지, 그저께 한 말이 오늘 들려오는지 그 메아리의 '크기'와 '시간차'를 측정해서 산의 뼈대를 예측하는 소리 탐지기다.

Ⅱ. 아키텍처 및 핵심 원리

ACF와 PACF는 단순히 과거(Lag)를 X축으로, 상관계수(-1~1)를 Y축으로 그리는 바 차트(Bar Chart, 지표도)다.

┌────────────────────────────────────────────────────────┐
│             [ 시계열 자기 상관 분석 파이프라인 ]              │
├────────────────────────────────────────────────────────┤
│ 1. 시차 (Lag, k)의 개념                                 │
│    - Lag 1: 오늘(t)과 어제(t-1)의 상관관계                  │
│    - Lag 2: 오늘(t)과 엊그제(t-2)의 상관관계                │
│                                                        │
│ 2. ACF (Autocorrelation Function)                     │
│    - 오늘(t)과 이틀 전(t-2)의 꼬리표 없는 '단순 상관계수'        │
│    - 문제: 엊그제의 날씨는 어제의 날씨를 거쳐서 오늘에 영향을 줌!│
│    - 즉, ACF는 중간에 낀 '어제의 간접 효과'까지 몽땅 섞어서 보여줌│
│                                                        │
│ 3. PACF (Partial Autocorrelation Function)            │
│    - 오늘(t)과 이틀 전(t-2)의 '순수한 1:1 상관계수'           │
│    - 해결: 중간에 낀 어제(t-1)의 영향을 수학적으로 제거해 버림!  │
│    - 내가 엊그제 날씨에서 "직접적으로" 받은 영향만 깔끔하게 뽑아냄│
└────────────────────────────────────────────────────────┘

정상성 (Stationarity): ACF를 돌리기 전, 시계열 데이터는 반드시 평균과 분산이 시간에 따라 변하지 않는 '정상성'을 띄어야 한다. 주가처럼 계속 오르는 데이터(비정상성)에 ACF를 그리면 처음부터 끝까지 상관계수가 1에 가깝게 나와버려 분석이 무의미해지므로, 무조건 한 번 차분(Difference, 오늘-어제)을 해서 평평하게 만들어야 한다.
시각적 특징도 (Correlogram): 정상 데이터의 ACF는 시차가 커질수록 지수적으로 확 떨어지거나(지수적 감소), 싸인파처럼 물결을 치며 줄어든다(절단점 발생). 반면 계절성(Seasonality)이 있는 데이터는 딱 12달(Lag 12)마다 ACF가 치솟는 뾰족한 스파이크를 보여준다.

📢 섹션 요약 비유: ACF가 "할아버지(Lag 2)의 재산이 아버지를 거쳐 나에게 얼마나 내려왔나?"라는 가문의 족보 냄새를 몽땅 맡는 거라면, PACF는 "아버지가 물려준 돈 빼고, 할아버지가 나한테 몰래 직접 준 용돈만 얼마지?"라고 중간 유통을 뺀 순수 직거래만 찾아내는 현미경이다.

Ⅲ. 비교 및 연결

ACF와 PACF의 그래프 모양을 보고, 전통적인 시계열 예측 모델인 ARIMA의 차수(p, q)를 세팅하는 절대적인 공식이 있다.

그래프 모양	ACF 지표도	PACF 지표도	추천되는 시계열 모델
AR (자기회귀) 모델 징후	서서히 점진적으로 감소함	특정 Lag(p) 이후 뚝 끊김 (절단점)	AR(p) 모델 적합
MA (이동평균) 모델 징후	특정 Lag(q) 이후 뚝 끊김 (절단점)	서서히 점진적으로 감소함	MA(q) 모델 적합
ARMA (혼합) 모델 징후	서서히 감소함	서서히 감소함	ARMA(p, q) 혼합 튜닝 필요
White Noise (백색 잡음)	Lag 1부터 모두 0 근처에서 맴돎	Lag 1부터 모두 0 근처에서 맴돎	예측 불가 (규칙 없음, 포기해라)

AR(Auto-Regressive) 모델은 '과거의 내 값'으로 오늘을 예측하는 것이라 순수한 과거의 힘을 보는 PACF가 중요하고, MA(Moving Average) 모델은 '과거의 오차(충격)'로 오늘을 예측하는 것이라 전체적인 파동을 보는 ACF가 중요하다.

📢 섹션 요약 비유: 의사가 환자의 심전도 그래프(ACF/PACF)를 딱 보고, "음, PACF가 2번째에서 확 끊어지네? 당신은 AR(2) 처방약을 먹어야 해!"라고 진단서를 써주는 완벽한 시계열 내과 진단 매뉴얼이다.

Ⅳ. 실무 적용 및 기술사 판단

실무 적용 시나리오: 온라인 쇼핑몰의 일일 접속자 수를 예측한다. 파이썬 statsmodels.graphics.tsaplots에서 plot_acf, plot_pacf 함수를 호출한다. 그래프를 보니 ACF는 7일, 14일, 21일마다 크게 위로 솟구친다(강력한 주간 계절성). PACF는 Lag 1과 Lag 2에서 파란색 신뢰구간(95%) 밴드를 뚫고 올라오더니 Lag 3부터는 밴드 안으로 가라앉는다(절단점 $p=2$). 데이터 과학자는 이 차트를 보고 즉시 SARIMA(2, 1, 0)(0, 1, 1, 7) 모델을 베이스라인으로 깎기 시작한다.

기술사 판단 포인트 (Trade-off): 최신 MLOps 환경에서 기술사는 '전통적 ACF/PACF 수동 분석'과 'Auto-ARIMA / 딥러닝' 사이의 아키텍처를 결정해야 한다.

과거에는 통계학자가 ACF 그래프를 눈으로 보며 며칠(p, q)을 넣을지 수동으로 찍었지만, 요즘은 파이썬의 pmdarima.auto_arima가 AIC/BIC 점수를 비교하며 최적의 차수를 자동으로 찾아주므로 수동 분석의 비중이 줄었다.
또한 데이터가 거시경제, 날씨 등 수백 개의 다른 변수와 꼬여있다면 ARIMA는 실패한다. 기술사는 단순 ACF 분석에 매달리지 말고, 알아서 과거의 맥락(Lag)을 동적으로 외워버리는 딥러닝 LSTM이나 TCN(시간 합성곱 네트워크), 혹은 트랜스포머 기반의 시계열 모델(TimeSformer)로 신속히 파이프라인을 교체해야 한다.

📢 섹션 요약 비유: ACF/PACF를 보고 눈으로 수식을 짜는 건 아날로그 시계를 장인이 손으로 조립하는 낭만이다. 하지만 수백 개의 시계(다변량 빅데이터)를 동시에 맞춰야 하는 공장장(기술사)이라면, 낭만을 버리고 스마트워치(딥러닝, Auto-ML) 공정을 도입해야 한다.

Ⅴ. 기대효과 및 결론

자기 상관 함수(ACF, PACF)는 엑셀 표 안에 죽어있던 숫자들에 '시간의 흐름'이라는 숨결을 불어넣어, 데이터 스스로가 가진 '내재적 리듬(Rhythm)'을 인간의 눈앞에 그려준 최초의 시각화 마술이다. 이 지표가 있었기에 인류는 주식, 날씨, 수요 예측이라는 불확실성의 바다에서 나침반을 얻을 수 있었다.

결론적으로 아무리 딥러닝이 발달해 블랙박스 안에서 시계열을 척척 예측한다 해도, 데이터의 뼈대(주기성, 랜덤 워크 여부)를 진단하는 0순위 도구는 여전히 이 두 개의 지표도다. 기술사는 화려한 인공지능을 돌리기 전, ACF 그래프를 스윽 훑어보고 "이건 정상성이 깨졌으니 딥러닝을 넣어도 다 터집니다. 차분(Diff)부터 합시다"라고 일침을 가할 수 있는 통계적 기본기를 놓쳐선 안 된다.

📢 섹션 요약 비유: 엑스레이(ACF/PACF) 사진을 찍지 않고 무작정 비싼 항암제(딥러닝)부터 주사하는 의사는 돌팔이다. 데이터의 뼈가 부러졌는지(랜덤 워크), 기생충이 있는지(계절성)를 가장 먼저 직관적으로 보여주는 훌륭한 진단 키트다.

📌 관련 개념 맵

상위 개념: 시계열 분석 (Time-Series Analysis), 탐색적 데이터 분석 (EDA)
하위 개념: 시차 (Lag), 백색 잡음 (White Noise), 신뢰 구간 (Confidence Interval)
연결 개념: ARIMA 모형, 정상성 (Stationarity), ADF 검정 (단위근 검정), RNN/LSTM

👶 어린이를 위한 3줄 비유 설명

내가 오늘 짜장면을 먹고 싶은 이유가 '어제 짬뽕을 먹어서'인지, 아니면 '1주일 전 일요일에 짜장면을 먹던 습관' 때문인지 궁금해요.
ACF는 "최근 1주일간 먹은 모든 음식"이 내 짜장면 선택에 준 영향을 통째로 뭉뚱그려서 보여주는 그림이에요.
PACF는 중간에 먹은 음식들 영향은 싹 빼고, "정확히 딱 7일 전 일요일 점심"이 오늘 내 선택에 얼마나 직접 영향을 줬는지만 쏙 뽑아 보여주는 돋보기랍니다!