데이터 파이프라인 고도화 & CDC
별점: ★★★★★ | 기본 필수
답안.
Ⅰ. 개요
정의: 데이터베이스 변경 사항을 실시간으로 캡처하여 로그 기반 (Log-Based) — 권장: DB 트랜잭션 로그 (binlog) 읽기
Ⅱ. 핵심 구성요소
정의: 데이터베이스 변경 사항을 실시간으로 캡처하여
다른 시스템에 전달하는 기술
[CDC 방식]
로그 기반 (Log-Based) — 권장:
DB 트랜잭션 로그 (binlog) 읽기
MySQL binlog, PostgreSQL WAL
오버헤드 최소 (프로덕션 부하 없음)
트리거 기반:
DB 트리거가 변경 감지 → 별도 테이블 기록
오버헤드 높음, 관리 복잡
폴링 기반:
주기적으로 updated_at 컬럼 조회
단순하지만 삭제 감지 불가
[Debezium]
오픈소스 CDC 플랫폼
MySQL/PostgreSQL/MongoDB binlog → Kafka
Kafka Connect 기반 커넥터
[멱등성 (Idempotency)]
같은 데이터를 여러 번 처리해도 같은 결과
네트워크 재전송, 재처리 시 중복 방지
[순서 보장]
파티션 내 순서 보장 (Kafka)
해당 키워드의 기술적 구성요소와 동작 원리를 서술한다.
### Ⅲ. 특징 및 비교
핵심 기술의 장단점과 유사 기술과의 차이를 분석한다.
### Ⅳ. 적용 사례
실무 환경에서의 적용 사례와 기대효과를 제시한다.
### Ⅴ. 전망
최신 기술 동향과 향후 발전 방향을 서술한다.