212. BIA (Business Impact Analysis) 비즈니스 영향 분석
⚠️ 이 문서는 건물에 불이 나서 전산실 서버 1,000대가 모조리 타버렸을 때, 사장님이 "빨리 전부 다 복구해!"라고 소리칠 때 "어떤 서버부터 살려야 회사가 당장 안 망하는가?"를 냉혹하게 엑스레이 찍어, **모든 시스템의 가치(돈)를 숫자로 환산하고 죽었을 때 입는 타격(Impact)의 치명도를 등수로 매겨 재해 복구(DR)의 골든타임인 RTO, RPO를 수학적으로 결정해 내는 가장 뼈 때리는 생존 지표 분석법인 'BIA (비즈니스 영향 분석)'**를 다룹니다.
핵심 인사이트 (3줄 요약)
- 본질: 재난 관리(BCP, 비즈니스 연속성 계획)의 심장이자 출발점이다. 1,000개의 IT 시스템을 1열로 쭉 세워놓고 "너 하루 죽으면 회사 매출 얼마 날아가?"라는 질문을 던져 생존의 우선순위를 가르는 피도 눈물도 없는 재무적 평가표다.
- 가치: 이 분석이 없으면, 불났을 때 1초 멈추면 수백억이 날아가는 '결제 DB 서버'는 안 살리고, 3일 죽어있어도 아무 문제 없는 '사내 점심 식단표 게시판 서버'부터 살리며 헛짓거리를 하다 회사가 파산하는 대참사를 막아준다.
- 기술 체계: 각 업무가 중단되었을 때의 재무적/비재무적 손실을 돈으로 환산하고, 이 시스템이 무조건 살아나야 하는 **핵심 업무(Mission Critical)**인지 판별하여, 어제 배운 RTO(목표 복구 시간)와 RPO(목표 복구 시점) 수치를 억지가 아닌 완벽한 팩트(Data)로 찍어 누르듯 산출해 낸다.
Ⅰ. 재난 앞의 평등은 없다: 무엇부터 살려야 하는가?
모든 자식을 다 살릴 순 없다. 호흡기를 달아줄 1순위를 정해라.
- BCP (비즈니스 연속성 계획)의 맹점:
- 지진이 났다. 전산실의 전원이 다 나갔다. 회사의 BCP 메뉴얼에는 "백업 센터를 가동하여 복구한다"고 적혀있다.
- 엔지니어가 묻는다. "사장님, 서버 1,000대 올리려면 이틀 걸리는데요? 지금 당장 5분 안에 켜야 할 서버 10대만 찍어주십시오." 사장님은 꿀 먹은 벙어리가 된다. 모든 시스템이 다 중요하다고 생각하기 때문이다.
- BIA (비즈니스 영향 분석)의 칼춤:
- 컨설턴트(BIA 분석가)는 평화로운 평상시에 각 부서장을 불러 모아 잔인한 질문표를 돌린다.
- 재무적 영향(Financial Impact): "영업팀장님, 당신네 팀 [고객 주문 서버]가 1시간 꺼지면 매출 얼마 날아갑니까?" $\rightarrow$ "시간당 1억 원 날아갑니다."
- 비재무적 영향(Non-Financial Impact): "법무팀장님, [보안 로그 서버]가 24시간 꺼져있으면 벌금 얼마 내거나 사장님 감옥 갑니까?" $\rightarrow$ "과태료 10억 맞고 뉴스에 나서 브랜드 신뢰도가 박살 납니다."
- 이런 식으로 1,000개 시스템의 모가지를 틀어쥐고 "네가 죽었을 때 회사가 입는 타격치(Impact)"를 모조리 돈(숫자)으로 환산해 엑셀표로 쫙 뽑아낸다.
📢 섹션 요약 비유: 응급실 트리아지(Triage) 시스템과 100% 똑같습니다. 병원에 대형 교통사고 환자 100명이 몰려옵니다(전산 마비). 바보 의사는 문 앞에 먼저 쓰러진 '찰과상 환자(점심 식단표 서버)'부터 붕대를 감아주다가 뒤에 있는 '심정지 환자(결제 서버)'를 죽입니다. BIA는 응급실 입구에 서 있는 냉혹한 간호사입니다. 피 흘리는 양(회사 매출 손실)과 심장 박동(법적 제재)을 1초 만에 스캔해서 환자들 이마에 빨강(1순위), 노랑(2순위), 초록(3순위) 딱지를 붙여버려 의사(복구 엔지니어)가 가장 피를 많이 흘리는 놈부터 메스를 대게 만드는 생존의 나침반입니다.
Ⅱ. MTPD의 산출과 RTO/RPO의 수학적 도출
감(Feeling)으로 5분 복구를 외치지 마라. 회사의 파산 타이머를 재라.
- MTPD (Maximum Tolerable Period of Disruption, 최대 허용 중단 시간):
- BIA의 1차 목표다. "이 시스템이 이 시간 이상 뻗어있으면 우리 회사는 망해서 간판을 내려야 한다"는 사형 선고 타이머다.
- 예: 온라인 쇼핑몰 결제 서버의 MTPD = 2시간. (2시간 넘어가면 고객이 다 경쟁사로 넘어가서 회복 불능)
- RTO (Recovery Time Objective, 목표 복구 시간) 깎기:
- MTPD가 2시간으로 정해졌다. 그럼 RTO(실제 서버 켜는 목표 시간)는 무조건 MTPD보다 짧아야(예: 1시간) 회사가 산다.
- BIA 보고서는 경영진에게 들이민다. "사장님, 결제 서버 MTPD가 2시간이니 RTO를 1시간으로 잡아야 합니다. 이걸 달성하려면 어제 배운 블루/그린 핫 스탠바이(Hot Standby) 이중화 인프라를 10억 주고 사야 합니다."
- RPO (Recovery Point Objective, 목표 복구 시점) 깎기:
- 데이터가 날아가도 참아줄 수 있는 시간이다. 결제 데이터는 단 1분만 날아가도 소송이 터지니 BIA 분석 결과 RPO는 '0초(Zero)'로 튀어나온다.
- "사장님, RPO가 0초니 매일 밤 S3에 백업 뜨는 방식으론 택도 없습니다. 당장 부산에 실시간 DB 동기화(Replication) 망을 5억 주고 뚫어야 합니다."
📢 섹션 요약 비유: 물속에 잠수한 잠수부(서버 중단)입니다. BIA 분석을 통해 "이 사람은 3분(MTPD) 이상 숨을 못 쉬면 뇌사 상태에 빠진다"는 생물학적 한계 데이터를 뽑아냈습니다. 그럼 구조 대원(엔지니어)의 목표 도착 시간(RTO)은 무조건 2분 이내로 세팅되어야 합니다. 사장님이 "헬기 기름값(DR 구축 비용)이 너무 비싸니 5분 뒤에 구하러 가자"라고 한다면, BIA 문서를 얼굴에 들이대며 "5분 뒤에 가면 어차피 뇌사(회사 파산)라 헬기 띄울 필요도 없습니다. 살리려면 돈 쓰십쇼!"라고 팩트로 예산을 타내는 가장 완벽한 협상 무기입니다.
Ⅲ. BIA의 결과물: 등급 분류와 재해 복구(DR)의 완성
엑셀표 한 장이 재난 시 회사의 운명을 가른다.
- 시스템 Tiering (등급화 작업):
- 1,000개의 시스템을 MTPD와 RTO 점수에 따라 4개의 바구니(Tier)로 던져 넣는다.
- Tier 0 (핵심 업무, Mission Critical): 결제, 회원 인증 (RTO 5분 이내). 돈을 쏟아부어 Active-Active 이중화를 건다.
- Tier 1 (중요 업무): 상품 전시, 물류 배차 (RTO 2시간 이내). Active-Standby로 대기시킨다.
- Tier 2 (일반 업무): 사내 메일, ERP 결재 (RTO 24시간 이내). 클라우드에 껍데기만 두고 DB만 쏴놓는다 (Pilot Light).
- Tier 3 (지연 가능 업무): 과거 10년 치 통계 DW 시스템, 구내식당 메뉴판 (RTO 1주일). 그냥 테이프 백업(Cold) 덤프만 떠놓고 나중에 천천히 복구한다.
- 비용-효익 (Cost-Benefit)의 정당성:
- 이 BIA 엑셀표가 완성되면, 회사는 쓸데없는 '사내 식단표 서버'를 5분 만에 복구하겠다고 1억 원짜리 이중화 툴을 사는 바보짓을 완벽히 근절할 수 있다.
- 100억의 재해 복구(DR) 센터 예산을 오직 Tier 0과 Tier 1이라는 회사의 심장과 뇌를 살리는 데만 100% 집중 포격할 수 있는, 극한의 투자 효율성(ROI)을 거두게 된다.
📢 섹션 요약 비유: 타이타닉호가 침몰할 때 구명보트(재해 복구 예산)는 한정되어 있습니다. BIA는 배가 가라앉기 전에 승객들을 1등급(어린이/여성, Tier 0 핵심 시스템), 2등급(성인 남자, Tier 1), 3등급(짐칸의 강아지, Tier 3)으로 줄을 세워 명단을 엑셀로 짜두는 것입니다. 물이 차오르는 패닉(재난) 상황에서 선장(CIO)이 우왕좌왕하지 않고, 들고 있던 BIA 엑셀 명단 순서대로 구명보트에 딱딱 태워 회사의 명줄을 가장 효율적이고 차갑게 연장해 내는 구명조끼 탑승 매뉴얼입니다.