409. OAT (Operational Acceptance Testing / 운영 인수 테스트)
⚠️ 이 문서는 소프트웨어의 '기능'이 사용자(고객)를 만족시켰는지 확인하는 UAT(사용자 인수 테스트)와 달리, 그 시스템을 24시간 잠도 안 자고 굴려야 하는 **인프라/운영팀(SysAdmin) 입장에서 "이 시스템이 과연 안정적으로 관리, 백업, 복구 가능한 물건인가?"를 따져 묻는 최후의 운영 관점 인수 테스트인 'OAT'**를 다룹니다.
핵심 인사이트 (3줄 요약)
- 본질: OAT(Operational Acceptance Testing)는 사용자가 아니라 IT 운영/인프라 담당자가 수행하며, 시스템이 실제 상용 운영 환경(Production)에 투입되어도 사고 없이 생존할 수 있는지를 검증하는 '운영 준비도(Operational Readiness)' 테스트다.
- 가치: UAT가 "송금 버튼이 잘 눌리네!"를 본다면, OAT는 "서버가 불타서 꺼지면, 자동으로 예비 서버가 켜지면서(Fail-over) 송금 데이터가 안 날아가고 복원되는가?"라는 생존과 유지보수(Maintainability)의 본질을 검증한다.
- 기술 체계: 재해 복구(DR), 백업 및 복원(Backup/Restore), 이중화(HA) 전환, 시스템 모니터링 알람, 보안 패치 적용 가능성 등 소프트웨어의 코드가 아닌 **인프라 아키텍처의 비기능적 회복성(Resilience)**을 혹독하게 테스트한다.
Ⅰ. 개요: 운영자의 분노 (Context & Necessity)
1,000억 원짜리 뱅킹 시스템을 새로 만들었다. 은행원들(사용자)이 써보고 "UI도 이쁘고 입출금 기능도 완벽해요!"라며 UAT(사용자 인수 테스트)에 도장을 쾅 찍어줬다.
이제 정식 오픈(Go-Live)을 했다. 3일 뒤 새벽 2시에 데이터베이스 서버 1번의 전원 장치가 타버렸다. 서버 관리자(운영팀)가 뛰어왔는데 경악을 금치 못한다.
- "뭐야? 1번 DB 죽었는데 2번 DB로 자동으로 안 넘어가 (Fail-over 실패)?"
- "백업 스크립트 실행해 보니까 에러 나면서 데이터 백업이 하나도 안 돼 있잖아!"
- "CPU가 100%를 찍고 뻗었는데 우리 관제 화면(모니터링 알람)에는 아무것도 안 떴다고?"
은행원들(UAT)은 기능만 완벽하면 오케이를 하지만, 정작 그 무거운 시스템을 짊어지고 가야 할 운영팀(인프라 관리자) 입장에서는 완벽한 쓰레기 폭탄을 떠안은 셈이다. 이 폭탄이 운영망에 넘어오기 전에, 운영팀이 칼을 빼 들고 "우리 운영 표준에 맞게 백업/복구/이중화 다 되는지 내 눈앞에서 증명해!"라고 깐깐하게 따지는 과정이 바로 **OAT (운영 인수 테스트)**다.
📢 섹션 요약 비유: 새 자동차를 살 때 일반인(UAT)은 "우와 디자인 이쁘고 엑셀 잘 밟히네! 합격!" 합니다. 하지만 자동차 정비사(OAT)가 다가와서 "엔진오일은 갈기 편한가? 사고가 났을 때 에어백은 정확히 터지는가? 비상 스페어타이어는 들어있는가?"라며 고장 났을 때의 유지보수 생존성을 따지는 것이 바로 운영 인수 테스트입니다.
Ⅱ. OAT의 5대 핵심 검증 시나리오
운영팀은 소프트웨어의 기능(비즈니스 로직)에는 관심이 1도 없다. 그들의 관심사는 오직 "서버가 죽었을 때 어떻게 살릴 것인가" 뿐이다.
- 백업 및 복원 (Backup & Restore)
- "매일 새벽 3시에 데이터가 NAS로 잘 백업되는가?"
- "백업된 데이터를 가지고 텅 빈 서버에 부었을 때, 시스템이 1시간 내에 100% 정상 복구(Restore)되는가?" (가장 중요한 테스트)
- 고가용성과 재해 복구 (HA / DR / Fail-over)
- 액티브(Active) 상태인 메인 서버의 랜선을 가위로 확 잘라버린다 (Chaos Engineering).
- "몇 초 만에 스탠바이(Standby) 서버가 자동으로 액티브로 튀어 올라와서 서비스를 이어받는가?"
- 모니터링 및 알림 (Monitoring & Alerting)
- "메모리 사용량이 90%를 넘겼을 때, 우리 운영팀 슬랙(Slack)이나 SMS 문자로 즉시 알람 경고가 날아오는가?"
- 유지보수 및 배포 (Maintenance & Deployment)
- "서비스 중단 없이(무중단 배포, 무중단 패치) 새 버전을 서버에 덮어씌울 수 있는 구조인가?"
- "에러 로그(Log) 파일이 디스크를 다 파먹지 않게 매일 1GB씩 자동으로 분할 압축(Log Rotation)되는가?"
- 보안 (Security)
- "관리자 콘솔은 사내 IP 대역(VPN)에서만 접근 가능하게 막혀 있는가?"
┌─────────────────────────────────────────────────────────────────────────────────┐
│ UAT(사용자 인수) vs OAT(운영 인수)의 관심사 비교 시각화 │
├─────────────────────────────────────────────────────────────────────────────────┤
│ │
│ 👨💼 [ UAT: 비즈니스 현업 부서 (은행원, 마케터) ] │
│ - 관심사: "돈이 잘 송금되나? 화면이 예쁜가?" │
│ - 테스트: 정상적인 마우스 클릭, 데이터 입력 │
│ │
│ ──────────────────────── VS ──────────────────────────────── │
│ │
│ 👷♂️ [ OAT: IT 인프라/운영 부서 (SysAdmin, SRE) ] │
│ - 관심사: "새벽에 서버 죽어도 내가 출근 안하고 자동 복구되나?" │
│ - 테스트: 랜선 뽑기, DB 강제 종료, 백업 파일로 복원, 모니터링 알람 띄우기 │
│ │
│ ★ 시스템이 라이브(Go-Live) 되려면 UAT와 OAT 양쪽 모두의 사인(Sign-off)이 필수! │
└─────────────────────────────────────────────────────────────────────────────────┘
Ⅲ. OAT가 무시될 때의 치명적 결과 (기술 부채)
많은 SI(외주) 프로젝트에서 납기일이 부족하면 "OAT는 대충 서버 세팅 됐으니까 스킵하시죠. UAT 기능 다 돌아가잖아요?"라며 구렁이 담 넘어가듯 넘긴다.
그 결과는 보통 시스템 오픈 후 한 달 뒤에 나타난다. 하드웨어 장애가 났을 때 복구 매뉴얼이 안 맞아서 이틀 동안 서비스가 죽어 있거나, 매일 밤 운영자가 손으로 백업 스크립트를 타이핑해야 하는 **'인프라 노동 지옥'**이 열린다. OAT는 외주 개발사가 시스템을 무책임하게 던지고 도망가는 것을 막고, 운영의 주도권(Ownership)을 운영팀이 튼튼하게 물려받는 가장 중요한 법적/기술적 이관(Handover) 절차다.
Ⅳ. 결론
"완벽한 소프트웨어란 에러가 나지 않는 것이 아니라, 에러가 났을 때 우아하게 복구되는 것이다." 소프트웨어의 1년이 개발의 시간이라면, 남은 10년은 운영(Operation)의 시간이다. UAT가 앞단의 1년을 검증한다면, OAT(Operational Acceptance Testing)는 뒷단의 10년 치 고통을 예방하는 숭고한 방어막이다. 최근 데브옵스(DevOps)와 SRE(사이트 신뢰성 엔지니어링) 사상이 각광받으면서, 개발과 운영의 장벽이 허물어지고 있다. 이제 코드를 짜는 순간부터 모니터링, 백업, 이중화를 염두에 두지 않는 시스템은 OAT의 철퇴를 맞고 영원히 상용 망(Production)에 오르지 못할 것이다.
📌 관련 개념 맵
- 동위 개념: UAT (User Acceptance Testing - 사용자/기능 관점)
- 상위 레벨: 인수 테스트 (Acceptance Test)
- 검증 비기능 요소: HA(고가용성), DR(재해복구), 백업/복원, 모니터링, 보안
- 현대적 확장: 카오스 엔지니어링 (Chaos Engineering - 넷플릭스 몽키 등 의도적 시스템 파괴 테스트)
👶 어린이를 위한 3줄 비유 설명
- 내가 예쁜 레고 성을 다 만들고 나서 동생(UAT)한테 보여줬더니 "우와! 문도 열리고 미끄럼틀도 타지네! 완벽해!"라고 칭찬해 줬어요.
- 하지만 옆에서 보던 엄마(운영자, OAT)는 이렇게 말해요. "지진 나서 레고가 부서지면 5분 만에 다시 조립할 수 있게 설명서(백업)는 만들어 놨어? 아니면 쓰레기통행이야!"
- 이렇게 "기능이 잘 돌아가는가?"가 아니라, "망가졌을 때 얼마나 튼튼하고 빠르게 원상 복구할 수 있는가?"를 어른의 눈으로 혹독하게 검사하는 것이 OAT(운영 인수 테스트)랍니다.