빅데이터 거버넌스 & 데이터 카탈로그
별점: ★★★★★ | 기본 필수
답안.
Ⅰ. 개요
정의: 빅데이터 환경에서 데이터 자산의 가용성·품질· 보안을 관리하는 정책·프로세스·조직 체계 데이터 정책: 수집·보관·보안·삭제 기준
Ⅱ. 핵심 구성요소
정의: 빅데이터 환경에서 데이터 자산의 가용성·품질·
보안을 관리하는 정책·프로세스·조직 체계
[구성 요소]
데이터 정책: 수집·보관·보안·삭제 기준
데이터 표준: 형식, 코드, 명명 규칙
데이터 품질: 정확성·완전성·일관성 지표
데이터 스튜어드: 데이터 책임자 (도메인별)
데이터 카탈로그: 메타데이터 중앙 관리
데이터 계보(Lineage): 데이터 이동·변환 추적
정의: 조직 내 데이터 자산의 메타데이터를 모아
검색·접근·이해를 돕는 중앙 디렉토리
[데이터 카탈로그 기능]
발견(Discovery): 어떤 데이터가 있나?
이해(Understanding): 이 데이터는 뭐지? (스키마, 설명)
계보(Lineage): 어디서 와서 어디로 가나?
품질: 이 데이터 믿을 수 있나?
접근 관리: 누가 이 데이터를 쓸 수 있나?
[대표 도구]
Apache Atlas: Hadoop 생태계 메타데이터 관리
Amundsen (Lyft): 검색 특화, Graph 기반
DataHub (LinkedIn): 실시간 메타데이터
AWS Glue Data Catalog: AWS 통합
Collibra, Alation: 엔터프라이즈 상용
해당 키워드의 기술적 구성요소와 동작 원리를 서술한다.
Ⅲ. 특징 및 비교
핵심 기술의 장단점과 유사 기술과의 차이를 분석한다.
Ⅳ. 적용 사례
실무 환경에서의 적용 사례와 기대효과를 제시한다.
Ⅴ. 전망
최신 기술 동향과 향후 발전 방향을 서술한다.