록스텝 아키텍처 (Lockstep Architecture)

핵심 인사이트 (3줄 요약)

  1. 본질: 록스텝 아키텍처 (Lockstep Architecture)는 두 개(또는 세 개)의 동일한 프로세서가 완전히 동일한 클럭·명령어·데이터로 동기화되어 병렬 실행되고, 매 클럭마다 출력을 비교 회로가 대조하여 불일치 시 즉각 오류를 탐지·처리하는 고신뢰성 컴퓨팅 아키텍처다.
  2. 가치: ECC와 칩킬이 메모리 비트 오류를 정정한다면, 록스텝은 CPU 연산 자체의 오류(우주선 SEU로 인한 레지스터 비트 반전, 제조 결함 등)를 탐지하여 항공·철도·자동차 기능 안전(Functional Safety) 시스템의 최고 신뢰성 등급(ASIL-D, SIL-4)을 달성한다.
  3. 융합: Arm Cortex-R5 듀얼 록스텝, NXP S32K3 ASIL-D MCU, BMW·Boeing의 안전 제어 시스템, ESA 우주선 FPGA 구현에서 록스텝은 하드웨어 오류 탐지의 마지막 보루이며, 소프트웨어 FMEA (Failure Mode and Effect Analysis)과 함께 전체 시스템 안전 증명의 핵심이다.

Ⅰ. 개요 및 필요성

CPU 코어 자체가 우주선·방사선·전원 불안정으로 인한 비트 반전(SEU)을 겪으면, ECC 메모리나 소프트웨어 체크섬으로는 탐지 불가능한 계산 오류가 발생할 수 있다. 이런 오류가 항공 엔진 컨트롤러, 자동차 브레이크 ECU, 철도 신호 제어에서 발생하면 인명 사고로 이어진다.

록스텝은 두 CPU가 "완전히 똑같은 일"을 하고 출력을 대조함으로써, 한 쪽이 틀리면 즉각 탐지한다.

💡 비유: 두 명의 회계사가 같은 장부를 독립적으로 계산하고 결과를 비교하는 것 — 한 명이 실수를 하면 결과가 달라져 즉시 발견된다.

┌──────────────────────────────────────────────────────────────┐
│         록스텝 아키텍처 구조 (듀얼 코어 록스텝)              │
├──────────────────────────────────────────────────────────────┤
│                                                              │
│  동일 입력 (명령어, 데이터, 인터럽트) ──┬──▶ 코어 A          │
│                                         └──▶ 코어 B          │
│                                                              │
│  코어 A 출력 ──▶ ┌────────────────┐                          │
│                  │  비교 회로(CMP) │                         │
│  코어 B 출력 ──▶ │  매 클럭 대조  │                          │
│                  └────────┬───────┘                          │
│                           │                                  │
│                    ┌──────┴───────┐                          │
│                 일치(OK)       불일치(FAULT!)                │
│                    │               │                         │
│               정상 출력        오류 처리 (리셋, 페일세이프)  │
│                                                              │
│  Arm Cortex-R5 듀얼 록스텝:                                  │
│  ● 두 R5 코어가 동일 클럭, 동일 명령어 실행                  │
│  ● 매 클럭마다 버스·레지스터 출력 비교                       │
│  ● 비교 로직:  하드웨어 XOR 게이트 (나노초)                  │
│  ● 오류 시: NMI (Non-Maskable Interrupt) 발생                │
└──────────────────────────────────────────────────────────────┘

📢 섹션 요약 비유: 록스텝은 두 쌍둥이 요리사가 같은 레시피로 동시에 요리하고 맛을 비교하는 것 — 한 명의 음식이 이상하면 즉시 알아차려요. 다른 음식을 손님에게 내기 전에 막을 수 있어요.


Ⅱ. 아키텍처 및 핵심 원리

TMR (Triple Modular Redundancy) vs 듀얼 록스텝

항목듀얼 록스텝TMR (3중)
구성코어 2개코어 3개
오류 탐지가능 (차이 탐지)가능
오류 정정불가 (어느 쪽이 맞는지 모름)가능 (다수결)
비용2배 면적3배 면적
응용자동차 ASIL-D, 항공 SIL-3우주선, 원전 제어
┌──────────────────────────────────────────────────────────────┐
│         TMR — 3중 모듈 중복 (다수결 정정)                    │
├──────────────────────────────────────────────────────────────┤
│                                                              │
│  동일 입력 ──▶ 코어 A (결과: 42)                             │
│            ──▶ 코어 B (결과: 42)  → 다수결: 42 ✅            │
│            ──▶ 코어 C (결과: 43)  ← 오류 탐지! 코어 C 결함   │
│                                                              │
│  다수결 회로가 2:1 다수결로 올바른 결과(42) 선택             │
│  코어 C를 오류로 격리 → 서비스 지속                          │
│                                                              │
│  우주선·원전 제어에서 TMR:                                   │
│  오류 탐지뿐 아니라 자동 정정 및 서비스 지속이 필수          │
└──────────────────────────────────────────────────────────────┘

📢 섹션 요약 비유: TMR은 3개 다수결 투표 시스템 — 3명 중 2명이 같은 답을 내면 그게 정답이고, 1명이 틀렸어도 계속 운영할 수 있어요.


Ⅲ. 융합 비교 및 다각도 분석

기능 안전 등급 (Functional Safety)

표준적용 분야최고 등급록스텝 필요성
ISO 26262자동차ASIL-D필요
IEC 61508산업 제어SIL-4필요
DO-178C항공DAL-A필요
IEC 62304의료기기Class C권장

📢 섹션 요약 비유: 기능 안전 등급은 자동차 안전 등급(별점)처럼 — ASIL-D는 최고 안전 등급으로, 브레이크가 고장나도 멈출 수 있어야 합니다.


Ⅳ. 실무 적용 및 기술사적 판단

실무 시나리오:

  1. 자동차 ADAS 제어기: NVIDIA Drive AGX Orin에서 Arm Cortex-R5 듀얼 록스텝으로 긴급 브레이크 명령 생성. 오류 탐지 즉시 페일세이프 제동.
  2. 위성 FPGA: ESA의 위성 제어 FPGA에 TMR 로직 구현. 우주 방사선 SEU로 코어 1개가 손상돼도 다수결로 정정 및 임무 지속.

안티패턴:

  • 록스텝 없이 안전 시스템: 안전 관련 MCU에 단일 코어만 사용 → 기능 안전 인증 탈락. 국내외 자동차 ECU 규제상 ASIL-B 이상은 하드웨어 진단 의무.

📢 섹션 요약 비유: 록스텝 없이 안전 시스템은 파일럿 없이 자동 조종만 믿는 것 — 한 번 실수했을 때 백업이 없으면 치명적이에요.


Ⅴ. 기대효과 및 결론

구분단일 코어듀얼 록스텝TMR
CPU 오류 탐지불가가능가능
CPU 오류 정정불가불가가능 (다수결)
하드웨어 비용
기능 안전 등급-ASIL-D, SIL-3SIL-4, DAL-A

록스텝 아키텍처는 CPU 연산 신뢰성의 최후 방어선이다. ECC·칩킬이 메모리 오류를 잡는다면, 록스텝은 CPU 자체의 연산 오류를 잡아 항공·자동차·우주선의 기능 안전 등급을 달성하는 핵심 하드웨어 기법이다.


📌 관련 개념 맵

개념관계
TMR (Triple Modular Redundancy)록스텝의 3중화 버전, 오류 정정 가능
SEU (Single Event Upset)록스텝이 방어하는 물리적 오류 원인
ASIL-D (ISO 26262)자동차 록스텝 적용의 안전 기준
ECC 메모리록스텝과 계층화되는 메모리 오류 정정
페일세이프 (Fail-Safe)록스텝 오류 탐지 후 안전 상태로 전환

👶 어린이를 위한 3줄 비유 설명

  1. 록스텝은 두 명이 같은 계산을 하고 비교하는 것 — 결과가 다르면 한 명이 실수한 거라 즉시 알아요!
  2. 비행기나 자동차의 안전 컴퓨터는 모두 이렇게 이중으로 확인해요 — 오류가 생겨도 사고가 나지 않도록.
  3. TMR은 세 명이 하고 다수결 — 세 명 중 두 명이 같은 답이면 그게 맞는 거고, 한 명이 틀렸어도 계속 작동해요!