데이터 품질 관리 & NewSQL
별점: ★★★★☆ | 기본 필수
답안.
Ⅰ. 개요
① 프로파일링: 현황 파악 (NULL, 중복, 분포) ② 규칙 정의: 품질 기준 수립 (사업 규칙) ③ 측정: 지표 자동 측정 (DQ 대시보드)
Ⅱ. 핵심 구성요소
[데이터 품질 관리 사이클]
① 프로파일링: 현황 파악 (NULL, 중복, 분포)
② 규칙 정의: 품질 기준 수립 (사업 규칙)
③ 측정: 지표 자동 측정 (DQ 대시보드)
④ 개선: 원인 분석 → 소스 시스템 수정
⑤ 모니터링: 지속적 품질 감시
도구: AWS Glue DataBrew, Great Expectations,
Informatica DQ, Talend Data Quality
정의: ACID 보장 + 수평 확장의 결합
→ RDB의 일관성 + NoSQL의 확장성
특징:
- SQL 인터페이스 유지 (기존 앱 호환)
- 분산 트랜잭션 ACID 보장
- 자동 샤딩 + 복제
대표 제품:
- CockroachDB: PostgreSQL 호환, 자동 분산
- TiDB: MySQL 호환, HTAP (OLTP+OLAP)
- Google Spanner: 글로벌 분산, TrueTime
- YugabyteDB: PostgreSQL 호환, 오픈소스
적합 용도:
- 금융 결제 (전 세계 ACID)
- 글로벌 재고 관리
해당 키워드의 기술적 구성요소와 동작 원리를 서술한다.
Ⅲ. 특징 및 비교
핵심 기술의 장단점과 유사 기술과의 차이를 분석한다.
Ⅳ. 적용 사례
실무 환경에서의 적용 사례와 기대효과를 제시한다.
Ⅴ. 전망
최신 기술 동향과 향후 발전 방향을 서술한다.