록스텝 아키텍처 (Lockstep Architecture)
핵심 인사이트 (3줄 요약)
- 본질: 록스텝 아키텍처 (Lockstep Architecture)는 두 개(또는 세 개)의 동일한 프로세서가 완전히 동일한 클럭·명령어·데이터로 동기화되어 병렬 실행되고, 매 클럭마다 출력을 비교 회로가 대조하여 불일치 시 즉각 오류를 탐지·처리하는 고신뢰성 컴퓨팅 아키텍처다.
- 가치: ECC와 칩킬이 메모리 비트 오류를 정정한다면, 록스텝은 CPU 연산 자체의 오류(우주선 SEU로 인한 레지스터 비트 반전, 제조 결함 등)를 탐지하여 항공·철도·자동차 기능 안전(Functional Safety) 시스템의 최고 신뢰성 등급(ASIL-D, SIL-4)을 달성한다.
- 융합: Arm Cortex-R5 듀얼 록스텝, NXP S32K3 ASIL-D MCU, BMW·Boeing의 안전 제어 시스템, ESA 우주선 FPGA 구현에서 록스텝은 하드웨어 오류 탐지의 마지막 보루이며, 소프트웨어 FMEA (Failure Mode and Effect Analysis)과 함께 전체 시스템 안전 증명의 핵심이다.
Ⅰ. 개요 및 필요성
CPU 코어 자체가 우주선·방사선·전원 불안정으로 인한 비트 반전(SEU)을 겪으면, ECC 메모리나 소프트웨어 체크섬으로는 탐지 불가능한 계산 오류가 발생할 수 있다. 이런 오류가 항공 엔진 컨트롤러, 자동차 브레이크 ECU, 철도 신호 제어에서 발생하면 인명 사고로 이어진다.
록스텝은 두 CPU가 "완전히 똑같은 일"을 하고 출력을 대조함으로써, 한 쪽이 틀리면 즉각 탐지한다.
💡 비유: 두 명의 회계사가 같은 장부를 독립적으로 계산하고 결과를 비교하는 것 — 한 명이 실수를 하면 결과가 달라져 즉시 발견된다.
┌──────────────────────────────────────────────────────────────┐
│ 록스텝 아키텍처 구조 (듀얼 코어 록스텝) │
├──────────────────────────────────────────────────────────────┤
│ │
│ 동일 입력 (명령어, 데이터, 인터럽트) ──┬──▶ 코어 A │
│ └──▶ 코어 B │
│ │
│ 코어 A 출력 ──▶ ┌────────────────┐ │
│ │ 비교 회로(CMP) │ │
│ 코어 B 출력 ──▶ │ 매 클럭 대조 │ │
│ └────────┬───────┘ │
│ │ │
│ ┌──────┴───────┐ │
│ 일치(OK) 불일치(FAULT!) │
│ │ │ │
│ 정상 출력 오류 처리 (리셋, 페일세이프) │
│ │
│ Arm Cortex-R5 듀얼 록스텝: │
│ ● 두 R5 코어가 동일 클럭, 동일 명령어 실행 │
│ ● 매 클럭마다 버스·레지스터 출력 비교 │
│ ● 비교 로직: 하드웨어 XOR 게이트 (나노초) │
│ ● 오류 시: NMI (Non-Maskable Interrupt) 발생 │
└──────────────────────────────────────────────────────────────┘
📢 섹션 요약 비유: 록스텝은 두 쌍둥이 요리사가 같은 레시피로 동시에 요리하고 맛을 비교하는 것 — 한 명의 음식이 이상하면 즉시 알아차려요. 다른 음식을 손님에게 내기 전에 막을 수 있어요.
Ⅱ. 아키텍처 및 핵심 원리
TMR (Triple Modular Redundancy) vs 듀얼 록스텝
| 항목 | 듀얼 록스텝 | TMR (3중) |
|---|---|---|
| 구성 | 코어 2개 | 코어 3개 |
| 오류 탐지 | 가능 (차이 탐지) | 가능 |
| 오류 정정 | 불가 (어느 쪽이 맞는지 모름) | 가능 (다수결) |
| 비용 | 2배 면적 | 3배 면적 |
| 응용 | 자동차 ASIL-D, 항공 SIL-3 | 우주선, 원전 제어 |
┌──────────────────────────────────────────────────────────────┐
│ TMR — 3중 모듈 중복 (다수결 정정) │
├──────────────────────────────────────────────────────────────┤
│ │
│ 동일 입력 ──▶ 코어 A (결과: 42) │
│ ──▶ 코어 B (결과: 42) → 다수결: 42 ✅ │
│ ──▶ 코어 C (결과: 43) ← 오류 탐지! 코어 C 결함 │
│ │
│ 다수결 회로가 2:1 다수결로 올바른 결과(42) 선택 │
│ 코어 C를 오류로 격리 → 서비스 지속 │
│ │
│ 우주선·원전 제어에서 TMR: │
│ 오류 탐지뿐 아니라 자동 정정 및 서비스 지속이 필수 │
└──────────────────────────────────────────────────────────────┘
📢 섹션 요약 비유: TMR은 3개 다수결 투표 시스템 — 3명 중 2명이 같은 답을 내면 그게 정답이고, 1명이 틀렸어도 계속 운영할 수 있어요.
Ⅲ. 융합 비교 및 다각도 분석
기능 안전 등급 (Functional Safety)
| 표준 | 적용 분야 | 최고 등급 | 록스텝 필요성 |
|---|---|---|---|
| ISO 26262 | 자동차 | ASIL-D | 필요 |
| IEC 61508 | 산업 제어 | SIL-4 | 필요 |
| DO-178C | 항공 | DAL-A | 필요 |
| IEC 62304 | 의료기기 | Class C | 권장 |
📢 섹션 요약 비유: 기능 안전 등급은 자동차 안전 등급(별점)처럼 — ASIL-D는 최고 안전 등급으로, 브레이크가 고장나도 멈출 수 있어야 합니다.
Ⅳ. 실무 적용 및 기술사적 판단
실무 시나리오:
- 자동차 ADAS 제어기: NVIDIA Drive AGX Orin에서 Arm Cortex-R5 듀얼 록스텝으로 긴급 브레이크 명령 생성. 오류 탐지 즉시 페일세이프 제동.
- 위성 FPGA: ESA의 위성 제어 FPGA에 TMR 로직 구현. 우주 방사선 SEU로 코어 1개가 손상돼도 다수결로 정정 및 임무 지속.
안티패턴:
- 록스텝 없이 안전 시스템: 안전 관련 MCU에 단일 코어만 사용 → 기능 안전 인증 탈락. 국내외 자동차 ECU 규제상 ASIL-B 이상은 하드웨어 진단 의무.
📢 섹션 요약 비유: 록스텝 없이 안전 시스템은 파일럿 없이 자동 조종만 믿는 것 — 한 번 실수했을 때 백업이 없으면 치명적이에요.
Ⅴ. 기대효과 및 결론
| 구분 | 단일 코어 | 듀얼 록스텝 | TMR |
|---|---|---|---|
| CPU 오류 탐지 | 불가 | 가능 | 가능 |
| CPU 오류 정정 | 불가 | 불가 | 가능 (다수결) |
| 하드웨어 비용 | 1× | 2× | 3× |
| 기능 안전 등급 | - | ASIL-D, SIL-3 | SIL-4, DAL-A |
록스텝 아키텍처는 CPU 연산 신뢰성의 최후 방어선이다. ECC·칩킬이 메모리 오류를 잡는다면, 록스텝은 CPU 자체의 연산 오류를 잡아 항공·자동차·우주선의 기능 안전 등급을 달성하는 핵심 하드웨어 기법이다.
📌 관련 개념 맵
| 개념 | 관계 |
|---|---|
| TMR (Triple Modular Redundancy) | 록스텝의 3중화 버전, 오류 정정 가능 |
| SEU (Single Event Upset) | 록스텝이 방어하는 물리적 오류 원인 |
| ASIL-D (ISO 26262) | 자동차 록스텝 적용의 안전 기준 |
| ECC 메모리 | 록스텝과 계층화되는 메모리 오류 정정 |
| 페일세이프 (Fail-Safe) | 록스텝 오류 탐지 후 안전 상태로 전환 |
👶 어린이를 위한 3줄 비유 설명
- 록스텝은 두 명이 같은 계산을 하고 비교하는 것 — 결과가 다르면 한 명이 실수한 거라 즉시 알아요!
- 비행기나 자동차의 안전 컴퓨터는 모두 이렇게 이중으로 확인해요 — 오류가 생겨도 사고가 나지 않도록.
- TMR은 세 명이 하고 다수결 — 세 명 중 두 명이 같은 답이면 그게 맞는 거고, 한 명이 틀렸어도 계속 작동해요!