756. 배스터브 곡선 (Bathtub Curve) 고장률

핵심 인사이트 (3줄 요약)

본질: 배스터브 곡선 (Bathtub Curve)은 부품의 고장률이 시간 내내 일정하지 않고, 초기 불량기·안정기·마모기로 바뀐다는 사실을 보여 주는 수명 주기 모델이다.

가치: 같은 장비라도 시기별로 필요한 전략이 달라서, 초기는 번인, 중기는 이중화와 신속 복구, 말기는 예방 교체라는 서로 다른 운영 정책을 세우게 만든다.

판단 포인트: MTBF나 지수분포 기반 상수 고장률 가정은 주로 안정 구간에서만 잘 맞으며, 초기 불량과 마모 구간은 별도 수명 모델과 현장 데이터로 보정해야 한다.

Ⅰ. 개요 및 필요성

배스터브 곡선 (Bathtub Curve)은 시간에 따른 고장률, 즉 위험함수 h(t)가 욕조 단면처럼 처음에는 높고, 중간에는 낮고 평평하며, 끝에서는 다시 높아지는 형태를 보인다는 신뢰성 공학 개념이다. 핵심은 장비가 "평생 같은 확률로 고장 난다"는 직관이 틀렸다는 점이다.

이 모델이 중요한 이유는 운영 의사결정이 시간 축에 따라 달라지기 때문이다. 새로 들여온 서버는 제조 편차와 조립 불량 때문에 초기에 문제가 많이 나오고, 충분히 안정화된 뒤에는 비교적 낮고 일정한 고장률을 보인다. 하지만 수명이 다가오면 베어링 마모, 절연 열화, 플래시 셀 소모처럼 노화 메커니즘이 지배하면서 고장률이 다시 상승한다. 따라서 같은 MTBF 숫자라도 언제의 MTBF인가를 물어야 한다.

특히 데이터센터, 스토리지, 임베디드 제어기처럼 장비 수가 많고 연속 운영이 중요한 환경에서는 배스터브 곡선을 이해해야 예비 부품, 보증 기간, 교체 주기, 번인 정책을 합리적으로 설계할 수 있다. 즉 이 곡선은 단순한 통계 그래프가 아니라, 수명 관리 전략의 출발점이다.

📢 섹션 요약 비유: 배스터브 곡선은 새 신발을 신은 첫날 발이 까지기 쉽고, 익숙해진 기간에는 편안하며, 오래 신으면 밑창이 닳아 다시 불편해지는 과정과 같다.

Ⅱ. 아키텍처 및 핵심 원리

배스터브 곡선은 보통 세 구간으로 설명한다. 고장률이 감소하는 초기 고장기, 거의 일정한 우발 고장기, 다시 증가하는 마모 고장기다. 이 세 구간은 단순한 이름 붙이기가 아니라, 각각 다른 물리적 원인과 다른 관리 전략을 뜻한다.

구간	고장률 추세	대표 원인	실무 대응	Weibull 형상계수
초기 고장기	감소 (DFR, Decreasing Failure Rate)	제조 불량, 납땜 결함, 조립 편차	번인 (Burn-in), 초기 선별	`β < 1`
우발 고장기	거의 일정 (CFR, Constant Failure Rate)	외부 충격, 전원 품질, 우발 사고	이중화, 빠른 복구, 모니터링	`β ≈ 1`
마모 고장기	증가 (IFR, Increasing Failure Rate)	베어링 마모, 절연 열화, 쓰기 소모	예방 교체, 예지 정비	`β > 1`

아래 그림은 시간에 따라 고장률이 어떻게 달라지는지 보여 준다. 중간 평탄 구간만 떼어 보면 지수분포나 MTBF 모델이 잘 맞지만, 전체 생애를 한 식으로 설명하기는 어렵다.

┌──────────────────────────────────────────────────────────────────────┐
│             Bathtub Curve: hazard rate h(t) over lifetime           │
├──────────────────────────────────────────────────────────────────────┤
│ h(t)                                                                 │
│  ▲                                                                   │
│  │  \                                                                │
│  │   \                                                               │
│  │    \______________________________                         /       │
│  │                                   \_______________________/        │
│  └──────────────────────────────────────────────────────────────▶ time │
│     early failure               useful life                  wear-out  │
└──────────────────────────────────────────────────────────────────────┘

여기서 중요한 기술적 포인트는 배스터브 곡선 자체가 단일 분포가 아니라는 점이다. 실무에서는 초기·중기·말기 구간을 별도로 피팅하거나, Weibull Distribution을 구간별로 나눠 적용하는 경우가 많다. 그래서 "장비의 MTBF가 높다"는 말은 주로 우발 고장기의 평균적 특성을 뜻할 뿐, 초기 불량이나 말기 마모를 자동으로 설명해 주지 않는다.

📢 섹션 요약 비유: 배스터브 곡선은 학생 성적 변화와 비슷하다. 새 학기 초에는 적응 못 해서 실수가 많고, 익숙해지면 안정되며, 시험이 몰리면 다시 체력이 떨어져 흔들린다.

Ⅲ. 비교 및 연결

배스터브 곡선을 이해하려면 상수 고장률 모델과의 차이를 먼저 알아야 한다. 둘은 경쟁 이론이 아니라 적용 구간이 다르다.

관점	배스터브 곡선	지수분포/상수 고장률 모델	Weibull 모델
고장률 가정	시간에 따라 변함	시간에 따라 일정	`β` 값에 따라 감소·일정·증가 모두 표현 가능
잘 맞는 상황	수명 주기 전체 정책	우발 고장기 단순 계산	현장 수명 데이터 피팅
대표 활용	번인, 교체 주기, 보증 설계	MTBF, Markov, 단순 가용성 계산	ALT (Accelerated Life Testing), 수명 예측

컴퓨터구조와 저장장치로 연결하면 차이가 더 분명하다. 기계적 부품이 많은 HDD는 베어링과 모터 마모의 영향이 커서 마모 고장기가 비교적 뚜렷하다. 반면 SSD는 회전 부품은 없지만 P/E (Program/Erase) cycle 소모, 데이터 보존 열화, 컨트롤러 고장 같은 다른 메커니즘이 지배한다. 즉 두 장비 모두 배스터브 곡선을 따를 수 있지만, 어느 시점에 어느 원인이 지배적인지는 다르다.

또한 배스터브 곡선은 번인 테스트, 가속 수명 시험인 ALT (Accelerated Life Testing), 예지 정비와 직접 연결된다. 초기 불량을 줄이기 위해서는 번인으로 약한 개체를 걸러야 하고, 마모 고장기를 예측하려면 고온·고전압·고습 스트레스를 이용한 수명 시험 데이터가 필요하다. 결국 배스터브 곡선은 단독 지식이 아니라, 시험 전략과 운영 전략을 묶는 프레임이다.

📢 섹션 요약 비유: 배스터브 곡선이 계절 전체의 날씨 달력이라면, MTBF는 그중 봄철 평균 기온 하나만 보는 것과 같다. 봄 평균만 알아서는 한겨울과 한여름 준비를 할 수 없다.

Ⅳ. 실무 적용 및 기술사 판단

실무에서 배스터브 곡선은 장비 반입부터 폐기까지의 정책을 바꾼다. 예를 들어 신규 서버는 랙에 올리자마자 본서비스에 넣지 않고, 48~72시간 정도의 번인과 초기 진단을 거쳐 불량 개체를 먼저 걸러내는 것이 일반적이다. 반대로 안정 구간에 들어간 장비는 무턱대고 예방 교체하기보다, 장애를 흡수할 이중화와 빠른 교체 체계를 갖추는 편이 경제적일 수 있다.

문제는 말기 마모 구간이다. 이때는 "아직 안 고장 났다"는 사실 자체가 안전을 보장하지 않는다. HDD라면 3~5년, 엔터프라이즈 SSD라면 총 쓰기량인 TBW (Terabytes Written)와 오류 증가 추세, 서버 팬이라면 회전 편차와 진동 같은 지표를 보고 교체 시점을 앞당겨야 한다. 기술사 관점에서는 결국 고장률 곡선의 어느 구간에 있는가에 따라 정책이 달라진다는 점을 분명히 적어야 한다.

실무 체크리스트

초기 불량 데이터를 운영 고장 데이터와 분리해 기록하고 있는가?
장비 종류별로 서로 다른 배스터브 곡선을 가정하고 있는가, 아니면 모두 같은 MTBF로 뭉뚱그리는가?
번인 시간과 스트레스 조건이 실제 배치 환경과 연결되는가?
우발 고장기에는 이중화와 MTTR (Mean Time To Repair) 단축이 준비되어 있는가?
마모 고장기 진입 전 교체 정책이 S.M.A.R.T., 온도, 오류 로그 같은 텔레메트리와 연결되는가?

피해야 할 안티패턴

신규 장비 즉시 투입: 초기 고장기 장비를 검증 없이 본서비스에 넣는 경우다.
평균값 맹신: 우발 고장기의 MTBF를 장비 전체 생애에 그대로 적용하는 경우다.
노후 장비 방치: 마모 징후가 보여도 "아직 돈다"는 이유로 교체를 미루는 경우다.

결국 배스터브 곡선의 실무 메시지는 단순하다. 고장률이 일정하지 않다면, 유지보수도 일정하면 안 된다. 시기별로 다른 실패 메커니즘을 인정하고 정책을 바꾸는 조직만이 비용과 가용성 사이에서 균형을 잡을 수 있다.

📢 섹션 요약 비유: 배스터브 곡선은 자동차 관리와 같다. 새 차는 초기 점검이 중요하고, 잘 길든 뒤에는 보험과 소모품 관리가 중요하며, 오래되면 큰 고장 전에 계획 교체를 고민해야 한다.

Ⅴ. 기대효과 및 결론

배스터브 곡선을 제대로 적용하면 품질 관리와 자산 운영이 한 흐름으로 연결된다. 제조 단계에서는 초기 불량을 줄이고, 운영 단계에서는 안정 구간의 이중화 전략을 세우며, 자산 관리 단계에서는 마모 구간 전에 교체 예산을 계획할 수 있다. 그 결과 장애는 줄고, 예비 부품 확보와 유지보수 예산도 더 예측 가능해진다.

다만 이 곡선은 집단 수준의 평균 모델이지, 모든 개별 장비가 정확히 같은 곡선을 그린다는 뜻은 아니다. 온도, 진동, 전력 품질, 쓰기 부하, 냉각 환경이 달라지면 곡선 모양도 이동한다. 또한 소프트웨어 버그처럼 비물리적 장애는 전형적인 배스터브 형태를 따르지 않을 수 있다. 그래서 현장 로그와 시험 데이터를 계속 보정해 주어야 한다.

결론적으로 배스터브 곡선은 "장비는 결국 늙는다"는 상식을 공학적으로 구조화한 모델이다. 기억해야 할 핵심은 하나다. 신뢰성은 한 번의 좋은 설계로 끝나지 않고, 수명 구간별로 다른 관리 전략을 써야 완성된다는 것이다.

📢 섹션 요약 비유: 사람도 아기 때는 예방접종이 중요하고, 성인기에는 운동과 보험이 중요하며, 노년기에는 정기검진과 조기 치료가 중요하다. 장비 관리도 그 흐름을 따라간다.

📌 관련 개념 맵

개념	연결 포인트
Hazard Rate `h(t)`	배스터브 곡선이 직접 표현하는 시간 의존 고장률이다.
Burn-in	초기 고장기의 약한 개체를 선별해 현장 투입 전 제거하는 방법이다.
MTBF	주로 우발 고장기의 평균 특성을 설명하는 지표로 쓰인다.
Weibull Distribution	감소형, 일정형, 증가형 고장률을 형상계수 `β`로 표현하는 대표 수명 모델이다.
ALT (Accelerated Life Testing)	마모 고장기 특성을 빠르게 관찰하기 위한 가속 수명 시험이다.
Predictive Maintenance	마모 고장기 진입을 데이터로 예측해 고장 전에 교체하는 전략이다.

📈 관련 키워드 및 발전 흐름도

manufacturing variation
    │
    ▼
early failure / DFR
: burn-in · screening
    │
    ▼
useful life / CFR
: MTBF · exponential model · redundancy
    │
    ▼
wear-out / IFR
: preventive replacement · predictive maintenance
    │
    ▼
life testing · warranty planning · asset renewal

👶 어린이를 위한 3줄 비유 설명

새 장난감은 처음에 약한 것이 빨리 망가질 수 있어서 먼저 잘 살펴봐야 해요.
한동안은 튼튼하게 잘 놀 수 있지만, 아주 오래 쓰면 점점 닳아서 다시 자주 고장 나요.
그래서 컴퓨터도 처음엔 검사하고, 중간엔 잘 지켜보고, 오래되면 미리 바꿔 주는 거예요.