핵심 인사이트 (3줄 요약)
- 고객이 "이 서버 수명(MTBF)이 몇 시간입니까?"라고 물었을 때, 엔지니어가 "글쎄요, 한 10년 써봐야 알지 않을까요?"라고 대답할 수는 없다. 출시 전 설계 도면만 보고도 수명을 예측할 '공식'이 필요했다.
- **MIL-HDBK-217 (미 국방부 신뢰성 예측 핸드북)**은 저항, 커패시터, 트랜지스터 등 세상의 모든 전자 부품이 가진 기본 고장률에, 온도, 진동, 사용 환경(우주냐, 사무실이냐)에 따른 가중치(가혹도)를 곱해서 더하는 수학적 예측 모델이다.
- 오래된 규격이라 최신 나노 반도체에는 안 맞는다는 비판도 있지만, 하드웨어 신뢰성(Reliability)을 정량적(숫자)으로 증명하는 모든 통계학적 방법론의 영원한 바이블이다.
Ⅰ. 수명을 예측해야 하는 방위산업의 숙명
1960년대 미군은 끔찍한 일을 겪었습니다. 미사일을 쏠 때마다 자꾸 허공에서 터지거나 땅에 떨어졌습니다. 수만 개의 진공관과 저항으로 이루어진 전자 회로 중 단 하나만 고장 나도 미사일이 폭발했기 때문입니다.
미군은 빡쳤습니다. "앞으로 우리한테 무기나 통신 장비를 납품할 때는, 설계 도면만 보고도 이 장비가 1만 시간 동안 고장 안 날 확률이 몇 % 인지 증명서(MTBF)를 제출해!" 이렇게 해서 미 국방부가 1965년에 발행한 부품 고장률 계산 족보가 바로 **MIL-HDBK-217 (Military Handbook 217)**입니다.
📢 섹션 요약 비유: 보험사가 사람의 수명을 예측할 때, "아버지가 고혈압이 있네(+가중치), 담배를 피우네(+가중치), 직업이 광부네(+가중치) -> 당신은 60살에 죽을 확률이 30%입니다"라고 수학적으로 때려 맞추는 생명표와 똑같은 원리입니다.
Ⅱ. 부품 계수법 (Part Count Method)의 원리
MIL-HDBK-217의 가장 단순하고 핵심적인 방법은 덧셈입니다. (직렬 시스템 가정) 시스템의 총 고장률($\lambda_{\text{sys}}$)은 그 안에 든 모든 부품의 고장률을 그냥 다 더한 값입니다.
계산 공식
각 부품의 고장률($\lambda_p$)은 다음과 같이 계산됩니다. $\lambda_p = \lambda_b \times \pi_T \times \pi_E \times \pi_Q$
- $\lambda_b$ (기본 고장률, Base Rate): 100옴짜리 저항은 평소에 0.001의 확률로 고장 난다. (핸드북에 표로 다 적혀있음)
- $\pi_T$ (온도 스트레스, Temperature): 방이 $25^\circ C$일 땐 1.0을 곱하지만, $80^\circ C$ 오븐 속이면 10.0을 곱해 고장률을 뻥튀기함.
- $\pi_E$ (환경 스트레스, Environment): 이 부품이 쾌적한 에어컨 빵빵한 서버실($G_B$, Ground Benign)에 있으면 1.0을 곱하지만, 덜컹거리는 지프차 엔진룸이나 전투기($A_U$, Airborne Uninhabited)에 달려있으면 15.0을 곱함.
- $\pi_Q$ (부품 품질, Quality): 이름 없는 중국산 부품을 쓰면 10을 곱하고, 미군 인증 밀스펙(Mil-spec) 부품을 쓰면 0.1을 곱해줌.
이렇게 보드에 박힌 1,000개 부품의 점수를 엑셀로 다 곱하고 더하면, "이 서버의 전체 고장률은 1시간당 $0.00005$이므로, 역수인 MTBF(평균 무고장 시간)는 20,000시간입니다"라는 객관적인 숫자가 툭 튀어나옵니다.
📢 섹션 요약 비유: 컴퓨터라는 자동차를 만들 때, 바퀴의 펑크 확률 + 유리의 깨짐 확률 + 엔진의 고장 확률을 전부 더해서 "이 차는 10만 km를 타면 무조건 한 번은 퍼진다"라고 수학적으로 선고를 내리는 것입니다.
Ⅲ. 현대의 한계와 대체 규격들 (Telcordia, FIDES)
MIL-HDBK-217은 1995년에 마지막으로 업데이트(Rev F)되고 버려졌습니다. 진공관이나 오래된 커패시터를 쓰던 시절의 표라서, 오늘날 수백억 개의 트랜지스터가 뭉쳐진 최첨단 CPU나 SoC 칩의 신뢰성은 이 낡은 표로 도저히 계산할 수가 없었기 때문입니다.
그래서 현대 산업계는 이 바이블을 기초로 각자 자기 분야에 맞는 새로운 계산 족보를 만들었습니다.
- Telcordia (SR-332): AT&T가 만든 통신사 장비(스위치, 라우터) 전용 신뢰성 계산 표준.
- FIDES / IEC 62380: 프랑스 국방부와 유럽이 낡은 미군 규격을 대체하기 위해 만든, 온도 사이클과 열팽창을 정밀하게 반영한 현대적 반도체 신뢰성 표준.
- Physics of Failure (물리적 고장 모델): 아예 통계(표)를 버리고, 반도체 재료 공학 시뮬레이션(산화막 파괴 수식 등)을 돌려 수명을 정확히 예측하는 최신 기법.