핵심 인사이트 (3줄 요약)
- 하드웨어의 ECC(오류 정정 부호)나 PCIe AER 기능은 에러를 발견하면 1나노초 만에 하드웨어 레벨에서 조용히 고쳐버린다.
- 하지만 이 '고쳐진 에러(Correctable Error)'들이 쌓인다는 것은 결국 램(RAM)이나 메인보드의 수명이 다 되어 곧 칩이 완전히 타버릴 것이라는 무서운 전조 증상이다.
- **EDAC (Error Detection and Correction)**은 리눅스 커널 내부의 모듈로, 하드웨어가 고친 에러 로그를 묵살하지 않고 CPU 레지스터에서 긁어모아 "3번 슬롯의 RAM이 오늘 100번이나 에러를 고쳤다! 당장 교체해라!"라고 SRE(서버 관리자)에게 알려주는 예지 정비의 핵심 시스템이다.
Ⅰ. 조용한 하드웨어 복구의 위험성
방사선에 맞거나 칩이 노후화되면 메모리에 1비트 에러(Soft Error)가 발생합니다. 앞서 배운 것처럼 하드웨어 메모리 컨트롤러는 이 1비트 에러를 아주 완벽하고 조용하게 고칩니다. OS 입장에서는 에러가 난 줄도 모르게 컴퓨터가 잘 돌아갑니다.
하지만 **"고칠 수 있는 에러가 자주 난다 = 실리콘의 절연막이 닳아 너덜너덜해졌다"**는 뜻입니다. 어느 순간 우주선을 한 번 더 맞으면 고칠 수 없는 2비트 에러(Uncorrectable Error)로 번져서 서버가 블루스크린을 뿜고 뻗어버립니다.
📢 섹션 요약 비유: 회사 방화벽(ECC)이 매일 밤 해커의 공격을 막아내고 있습니다. 막아냈다고 사장님(OS)에게 보고를 안 하면, 사장님은 평화로운 줄 알고 있다가 어느 날 방화벽이 뚫려서 회사가 파산할 때까지 아무 대비도 하지 못합니다.
Ⅱ. EDAC의 구조: 하드웨어와 OS의 다리
리눅스의 EDAC 서브시스템은 이 조용한 하드웨어 복구 내역을 끄집어내는 역할을 합니다.
- 에러 발생 및 기록: 메모리 3번 슬롯에서 1비트 에러가 났습니다. 메모리 컨트롤러가 이를 고치고, CPU의 특정 레지스터(MSR - Machine Specific Register)에
3번 슬롯 에러 카운트 +1을 조용히 적어둡니다. - EDAC 폴링(Polling): 리눅스 커널의 EDAC 드라이버가 1초마다 백그라운드에서 CPU의 MSR 레지스터를 몰래 열어봅니다.
- 디코딩 및 로깅: EDAC가 "어? 3번 슬롯 램에서 에러가 1개 났네!"라고 인지하고, 이를 사람이 읽기 편한
syslog나dmesg에 텍스트로 남깁니다.EDAC MC0: CE row 3, channel 1 - Corrected error
동작 흐름도 (ASCII)
[ 물리적 RAM (DIMM 3) ] ──(1비트 노이즈)──▶ [ CPU 메모리 컨트롤러 ]
│ (1. 하드웨어가 즉시 고침)
▼ (2. 에러 횟수 장부에 +1 기록)
[ CPU MSR 레지스터 ]
│
┌──────────────────────────────────────────────┴──────────────────┐
│ [ 리눅스 OS ] │
│ EDAC 커널 모듈 ◀ (주기적으로 MSR 확인) │
│ │ │
│ ▼ │
│ /var/log/syslog (관리자 경고 알람: "3번 램 교체 요망!") │
└─────────────────────────────────────────────────────────────────┘
📢 섹션 요약 비유: 경비원(메모리 컨트롤러)이 도둑을 잡을 때마다 개인 수첩에 '정문 1명 퇴치'라고 적습니다. 경찰청 전담 부서(EDAC)가 매일 그 수첩을 확인해서 "정문에 도둑이 자주 꼬이니 정문 문짝을 아예 새것으로 갈아라!"라고 지시를 내립니다.
Ⅲ. 현대 클라우드 데이터센터에서의 EDAC
AWS나 구글 클라우드는 서버가 수백만 대입니다. 이 수백만 대의 서버에서 올라오는 EDAC 로그를 중앙의 **AIOps (AI 관리 시스템)**로 모조리 쏩니다.
AI는 이 빅데이터를 분석하여 "이 제조사(SK/Samsung)의 이 주차 램이 유독 온도가 40도가 넘을 때 EDAC 에러가 튀는구나"라는 패턴을 찾아냅니다. 그리고 그 램이 완전히 죽어서 고객의 가상 머신(VM)이 다운되기 1주일 전에, 미리 고객의 VM을 옆 서버로 안전하게 라이브 마이그레이션 시켜놓고 해당 램을 폐기 처분합니다. 무중단 클라우드 시스템의 영웅이 바로 이 EDAC 로깅입니다.