335. RAID 6 (이중 패리티)

핵심 인사이트 (3줄 요약)

본질: RAID (Redundant Array of Independent Disks) 6는 데이터 블록과 함께 서로 독립적인 두 종류의 패리티를 분산 저장해, 임의의 디스크 2개가 동시에 고장 나도 복구할 수 있게 만든 고가용성 스토리지 구조다.

가치: 대용량 HDD (Hard Disk Drive) 환경에서는 리빌드 중 두 번째 디스크 장애나 URE (Unrecoverable Read Error)가 현실적 위험이므로, RAID 6는 RAID 5보다 훨씬 실무적인 안전 여유를 제공한다.

판단 포인트: 안정성은 강해지지만 작은 쓰기 작업마다 P/Q 패리티를 함께 갱신해야 하므로 쓰기 페널티와 리빌드 시간이 커지며, 따라서 파일 서버·아카이브에는 적합하지만 초저지연 트랜잭션 워크로드에는 신중해야 한다.

Ⅰ. 개요 및 필요성

RAID 6는 여러 디스크에 데이터를 스트라이핑(Striping)하면서 두 종류의 패리티를 함께 분산 기록하는 이중 장애 허용 구조다. 핵심 목적은 단순히 "한 대 더 고장 나도 버틴다"가 아니라, 대용량 디스크 시대에 RAID 5의 안전 여유가 더 이상 충분하지 않다는 현실을 해결하는 데 있다.

디스크 용량이 수 TB에서 수십 TB로 커지면서 리빌드 시간은 몇 시간 수준에서 수십 시간, 때로는 며칠 단위로 늘어났다. 이 긴 복구 구간 동안 남은 디스크들은 전체 데이터를 반복해서 읽어야 하므로 부하와 발열이 급증하고, 그 과정에서 두 번째 디스크 장애나 읽기 불능 블록이 나타날 확률도 함께 커진다. RAID 5는 이 순간 바로 데이터 손실로 이어질 수 있지만, RAID 6는 두 번째 안전장치를 이미 갖고 있기 때문에 복구 창구를 하나 더 확보한다.

다음 그림은 RAID 6가 왜 "대용량 시대의 보험"으로 취급되는지 보여준다. 정상 운영보다도 첫 번째 장애 이후의 취약 구간을 줄이는 것이 RAID 6의 존재 이유다.

┌──────────────────────────────────────────────────────────────────────┐
│                 RAID 5와 RAID 6의 위험 창 비교                      │
├──────────────────────────────────────────────────────────────────────┤
│ 정상 상태                                                           │
│   RAID 5 : [정상]                                                   │
│   RAID 6 : [정상]                                                   │
│      │                                                              │
│      ├─ 디스크 1대 고장                                              │
│      ▼                                                              │
│ 리빌드 구간                                                         │
│   RAID 5 : [남은 여유 0] ── 두 번째 장애/URE 발생 시 데이터 손실     │
│   RAID 6 : [남은 여유 1] ── 한 번 더 버티며 복구 계속 가능           │
│      │                                                              │
│      └─ 새 디스크 재구성 완료                                        │
│                                                                     │
│ 결론: RAID 6는 '평상시'보다 '리빌드 중'을 안전하게 만드는 설계다.    │
└──────────────────────────────────────────────────────────────────────┘

즉 RAID 6는 저장 효율만 보고 선택하는 기술이 아니라, 장애가 발생한 뒤에도 서비스를 계속 유지해야 하는 NAS (Network Attached Storage), 백업 저장소, 대용량 파일 서버를 위한 방어적 설계 철학에 가깝다.

📢 섹션 요약 비유: 외줄다리 건널 때 예전엔 안전줄 하나만 달아도 됐지만, 요즘은 다리가 너무 길고 무거워져서 줄 하나가 끊어질 위험이 커졌다. RAID 6는 같은 길을 건너되 안전줄을 두 겹으로 묶어 두는 방식이다.

Ⅱ. 아키텍처 및 핵심 원리

RAID 6의 내부 원리는 각 스트라이프마다 두 개의 독립적인 복구 단서를 만드는 데 있다. 일반적으로 첫 번째 패리티인 P는 XOR (Exclusive OR) 기반으로 계산하고, 두 번째 패리티인 Q는 Galois Field (갈루아 필드) 연산을 이용해 계산한다. P만 있으면 미지수 1개까지는 복구할 수 있지만, 미지수 2개를 풀려면 서로 다른 성질의 식이 하나 더 필요하므로 Q가 추가된다.

구성 요소	역할	실무 의미
데이터 블록	실제 사용자 데이터 저장	성능과 용량의 대상
P 패리티	XOR 기반 복구 정보	1개 장애 복구의 기본 축
Q 패리티	갈루아 필드 기반 복구 정보	2개 장애 복구를 가능하게 하는 추가 축
RAID 컨트롤러/소프트웨어 스택	패리티 계산 및 재구성	CPU (Central Processing Unit) 부하, 캐시, 리빌드 정책을 좌우

아래 예시는 4개의 디스크에 2개의 데이터 블록과 2개의 패리티 블록이 한 스트라이프를 이루는 최소 구조를 단순화한 것이다. 실제 구현에서는 P와 Q 위치를 스트라이프마다 회전시켜 특정 디스크에 패리티 쓰기가 몰리지 않게 한다.

┌──────────────────────────────────────────────────────────────────────┐
│                RAID 6 스트라이프와 이중 패리티 배치                 │
├─────────┬──────────────┬──────────────┬──────────────┬──────────────┤
│ Stripe  │ Disk 1       │ Disk 2       │ Disk 3       │ Disk 4       │
├─────────┼──────────────┼──────────────┼──────────────┼──────────────┤
│   S1    │ Data A1      │ Data A2      │ P(A1,A2)     │ Q(A1,A2)     │
│   S2    │ Data B1      │ P(B1,B2)     │ Q(B1,B2)     │ Data B2      │
│   S3    │ P(C1,C2)     │ Q(C1,C2)     │ Data C1      │ Data C2      │
│   S4    │ Q(D1,D2)     │ Data D1      │ Data D2      │ P(D1,D2)     │
└─────────┴──────────────┴──────────────┴──────────────┴──────────────┘

작은 랜덤 쓰기에서는 성능 비용이 특히 크다. 블록 하나를 수정하면 오래된 데이터, 오래된 P, 오래된 Q를 읽고 새 P/Q를 계산한 뒤 새 데이터와 새 패리티 두 개를 다시 써야 하므로, 일반적으로 읽기 3회 + 쓰기 3회 = 쓰기 페널티 6으로 설명한다. 그래서 RAID 6는 순차 읽기 위주의 대용량 워크로드에는 강하지만, 작은 쓰기가 많은 환경에서는 캐시 정책과 컨트롤러 성능이 체감 성능을 크게 좌우한다.

또한 Q 패리티는 단순 덧셈이 아니라 필드 연산이므로 구현 복잡도가 RAID 5보다 높다. 현대 시스템은 전용 RAID 카드, 벡터 명령어 최적화, 파일시스템 수준의 소프트웨어 RAID를 이용해 이 계산 비용을 줄이지만, 계산 복잡도 자체가 사라지는 것은 아니다.

📢 섹션 요약 비유: 분실물 하나를 찾을 때는 메모 한 장이면 충분하지만, 두 개를 동시에 잃어버리면 서로 다른 단서가 두 장 있어야 추리가 된다. RAID 6의 P와 Q는 같은 사건을 서로 다른 방식으로 기록한 두 장의 수사 기록이다.

Ⅲ. 비교 및 연결

RAID 6의 위치를 정확히 이해하려면 RAID 5, RAID 10과 나란히 봐야 한다. RAID 5는 용량 효율이 좋지만 장애 허용이 1개에 그치고, RAID 10은 미러링(Mirroring) 덕분에 쓰기 성능과 복구 속도가 유리하지만 절반의 용량을 포기해야 한다. RAID 6는 그 중간에서 "용량 효율은 유지하되, 장애 여유를 한 단계 더 늘린다"는 선택이다.

항목	RAID 5	RAID 6	RAID 10
최소 디스크 수	3	4	4
패리티/복제 비용	1개 분량	2개 분량	전체의 50%
허용 장애 수	1개	2개	미러 쌍 조건에 따라 다름
작은 쓰기 비용	높음	가장 높음	비교적 낮음
리빌드 부담	큼	매우 큼	상대적으로 작음
대표 용도	중소규모 범용 저장소	대용량 파일/NAS/아카이브	DB, VM, 고성능 쓰기

이 차이가 중요한 이유는 병목의 종류가 서로 다르기 때문이다. RAID 5와 RAID 6는 패리티 계산과 전체 스트라이프 재구성이 병목이고, RAID 10은 용량 희생이 병목이다. 따라서 "무엇을 가장 아껴야 하는가"가 선택 기준이 된다. 디스크 수가 많고 용량 효율을 포기하기 어렵다면 RAID 6가 유력하고, 지연시간과 재구성 속도가 더 중요하면 RAID 10이 더 낫다.

연결 개념도 분명하다. RAID 6는 RAID 5의 확장형이면서, 파일시스템 관점에서는 ZFS (Zettabyte File System)의 RAID-Z2와 유사한 문제의식을 공유한다. 즉 "대용량 디스크 시대의 이중 장애 대응"이라는 공통 과제를 다른 구현 계층에서 해결하는 셈이다. 또한 URE, 핫 스페어(Hot Spare), 리빌드 우선순위, 백그라운드 스크러빙(Scrubbing) 같은 운영 개념과도 강하게 연결된다.

📢 섹션 요약 비유: RAID 5는 보험 하나 든 승용차, RAID 6는 보험 두 개 든 화물차, RAID 10은 차를 두 대 사서 짐을 나눠 싣는 방식에 가깝다. 무엇이 최고냐보다, 어떤 위험을 감당할지에 따라 답이 달라진다.

Ⅳ. 실무 적용 및 기술사 판단

실무에서 RAID 6는 "무조건 안전한 만능 답안"이 아니라, 대용량·중요 데이터·쓰기 지연 감수 가능이라는 조건이 맞을 때 채택하는 설계다. 예를 들어 수십 TB급 HDD 여러 개로 구성한 문서 저장소, 백업 리포지터리, 영상 보관 스토리지라면 RAID 6가 매우 합리적이다. 반면 OLTP (Online Transaction Processing) 데이터베이스처럼 작은 동기 쓰기가 많고 지연시간에 민감한 업무는 RAID 10이나 SSD 계층을 우선 검토하는 편이 낫다.

실무 판단 체크리스트

디스크 용량과 개수가 커서 RAID 5의 리빌드 위험이 부담되는가?
쓰기 성능보다 데이터 보존성과 가용성이 더 중요한가?
핫 스페어와 리빌드 모니터링 정책이 준비되어 있는가?
SSD (Solid State Drive) 캐시, 컨트롤러 캐시 보호, 백업 정책이 함께 설계되어 있는가?

자주 쓰는 보완 전략

핫 스페어 추가: 장애 직후 자동 리빌드를 시작해 취약 시간을 줄인다.
SSD/NVMe 캐시 사용: NVMe (Non-Volatile Memory Express) 캐시로 쓰기 지연을 일부 흡수한다.
정기 스크러빙: 잠복 오류를 미리 찾아 리빌드 시점의 충격을 줄인다.
백업 분리 유지: RAID 6는 가용성 기술이지 백업 대체재가 아니다.

안티패턴

디스크 4개 정도의 소규모 환경에서 성능 요구가 큰데도 관성적으로 RAID 6를 고집하는 경우
RAID 6를 구성했으니 백업이 필요 없다고 오해하는 경우
리빌드 시간과 URE 확률을 계산하지 않고 단순히 "2개까지 고장 허용"만 보고 안심하는 경우

기술사 관점에서 핵심 문장은 이것이다. RAID 6는 장애 허용도를 올리는 대신 성능과 운영 복잡도를 지불하는 구조이며, 특히 리빌드 중 생존성을 높이려는 요구가 강할수록 채택 타당성이 커진다.

📢 섹션 요약 비유: 귀중품 창고라면 문을 여는 속도보다 도둑이 두 번 와도 버티는 자물쇠가 더 중요하다. 하지만 계산대처럼 손님이 계속 드나드는 곳에 그 무거운 자물쇠를 달면 오히려 운영이 느려진다.

Ⅴ. 기대효과 및 결론

RAID 6의 가장 큰 효과는 대용량 스토리지에서 현실적으로 자주 문제 되는 "첫 장애 이후의 불안정한 시간"을 줄인다는 점이다. 그 결과 서비스 중단 위험, 리빌드 중 데이터 손실 가능성, 운영자의 심리적 부담이 모두 낮아진다. 특히 디스크 수가 많을수록 두 번째 장애에 대한 여유는 체감상 큰 차이를 만든다.

다만 한계도 명확하다. 두 개를 넘는 동시 장애, 컨트롤러 버그, 화재·랜섬웨어·운영자 실수까지 막아 주는 것은 아니다. 또한 리빌드는 여전히 길고 무겁기 때문에, RAID 6를 채택했다면 핫 스페어·모니터링·백업·주기적 검증까지 함께 가야 완성된다.

따라서 RAID 6는 "가장 빠른 RAID"가 아니라, 용량 효율을 어느 정도 유지하면서도 대용량 시대의 고장 확률을 감당하도록 설계된 현실적 방어선으로 기억하는 것이 맞다. 시험 답안에서는 RAID 5의 한계를 보완하는 이중 패리티 구조, 실무 답안에서는 리빌드 구간의 위험 완화와 쓰기 성능 저하라는 교환 관계를 함께 적어야 완성도가 높다.

📢 섹션 요약 비유: RAID 6는 무조건 달리기 빠른 신발이 아니라, 무거운 짐을 들고도 넘어지지 않게 해 주는 등산화에 가깝다. 평지 질주에는 답답할 수 있지만, 위험한 길에서는 그 차이가 생존을 만든다.

📌 관련 개념 맵

개념	연결 포인트
RAID 5	단일 패리티 기반 구조로, RAID 6가 직접 보완하는 비교 대상
XOR (Exclusive OR) 패리티	RAID 6의 P 패리티 계산 핵심
Galois Field 패리티	RAID 6의 Q 패리티 계산 핵심
리빌드 (Rebuild)	장애 디스크를 새 디스크로 재구성하는 과정
URE (Unrecoverable Read Error)	대용량 리빌드 중 RAID 6 필요성을 키우는 대표 위험
핫 스페어 (Hot Spare)	RAID 6의 취약 구간을 더 줄여 주는 운영 보완책
RAID 10	성능 중심 대안으로 자주 비교되는 구성
RAID-Z2	소프트웨어 기반 이중 패리티 구현의 대표 예

📈 관련 키워드 및 발전 흐름도

RAID 1/0의 단순 복제·분산
    │
    ▼
RAID 5의 단일 패리티 분산
    │
    ▼
RAID 6의 이중 패리티(P + Q)
    │
    ├─▶ 대용량 HDD 리빌드 대응
    │
    ├─▶ 핫 스페어 · 스크러빙 운영 강화
    │
    └─▶ RAID-Z2 · 소프트웨어 RAID 고도화

이 흐름은 "속도와 용량 중심"에서 "대용량 시대의 장애 확률 관리"로 스토리지 설계 기준이 이동한 과정을 보여준다.

👶 어린이를 위한 3줄 비유 설명

RAID 6는 중요한 장난감을 네 상자에 나눠 넣고, 잃어버렸을 때 찾을 수 있는 힌트 쪽지를 두 종류로 함께 넣어 두는 방법이에요.
그래서 상자 두 개가 동시에 없어져도 남은 상자들과 힌트 쪽지를 보고 원래 내용을 다시 맞출 수 있어요.
대신 장난감을 넣고 뺄 때마다 힌트 쪽지도 두 번 챙겨야 해서, 그냥 넣는 것보다 느려진답니다.