데이터 파이프라인 고도화 & CDC

별점: ★★★★★ | 기본 필수


답안.

Ⅰ. 개요

정의: 데이터베이스 변경 사항을 실시간으로 캡처하여 로그 기반 (Log-Based) — 권장: DB 트랜잭션 로그 (binlog) 읽기

Ⅱ. 핵심 구성요소

정의: 데이터베이스 변경 사항을 실시간으로 캡처하여
     다른 시스템에 전달하는 기술

[CDC 방식]
로그 기반 (Log-Based) — 권장:
  DB 트랜잭션 로그 (binlog) 읽기
  MySQL binlog, PostgreSQL WAL
  오버헤드 최소 (프로덕션 부하 없음)

트리거 기반:
  DB 트리거가 변경 감지 → 별도 테이블 기록
  오버헤드 높음, 관리 복잡

폴링 기반:
  주기적으로 updated_at 컬럼 조회
  단순하지만 삭제 감지 불가

[Debezium]
오픈소스 CDC 플랫폼
MySQL/PostgreSQL/MongoDB binlog → Kafka
Kafka Connect 기반 커넥터
[멱등성 (Idempotency)]
같은 데이터를 여러 번 처리해도 같은 결과
네트워크 재전송, 재처리 시 중복 방지

[순서 보장]
파티션 내 순서 보장 (Kafka)


해당 키워드의 기술적 구성요소와 동작 원리를 서술한다.

### Ⅲ. 특징 및 비교

핵심 기술의 장단점과 유사 기술과의 차이를 분석한다.

### Ⅳ. 적용 사례

실무 환경에서의 적용 사례와 기대효과를 제시한다.

### Ⅴ. 전망

최신 기술 동향과 향후 발전 방향을 서술한다.