데이터 품질 진단
1. 개요
데이터 품질 진단은 조직이 보유한 데이터가 그 활용 목적에 부합하는 품질 수준을 갖추고 있는지를 평가하는 활동이다. 데이터는現代기업의 핵심 전략 자산으로, 데이터에 기반한 의사결정의 정확성은根本上 데이터의品質에依存한다. 저품질 데이터는 잘못된 분석 결과, 비효율적인 업무 프로세스, 고객 불만 등의 문제를 야기한다. 감리자는 데이터 품질의 현재 상태를 파악하고, 품질 문제의 원인을 분석하며, 개선 방안을 권고하는 역할을 수행한다.
데이터 품질은複数の 차원으로評価된다. 대표적인 차원으로는 정확성(Accuracy), 완전성(Completeness), 일관성(Consistency), 적시성(Timeliness), 유일성(Uniqueness), 유효성(Validity)이 있다. 각 차원은 서로 다른 측면에서 데이터를評価하며, 한 차원에서高品质이라도 다른 차원에서 저품질이라면 전체적인 데이터 활용가치는 제한된다. 감리자는 이러한 다양한 차원에 대한 종합적 평가를 수행해야 한다.
데이터 품질 진단은 정보시스템 감리의重要 영역으로, 데이터베이스에 저장된 데이터의品質뿐 아니라, 데이터 생성 및 입력 과정, 데이터 흐름, 데이터 활용 환경 등도 함께 검토해야 한다. 또한 데이터 품질 관리 체계의 존재와它的 효과성도 평가 대상이 된다.
2. ASCII 다이어그램
데이터 품질 차원
[데이터 품질 6대 차원]
┌─────────────────────────────────────────────────────────────────────┐
│ 데이터 품질 차원 모델 │
├─────────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────┐ │
│ │ 정확성 │ │
│ │ (Accuracy) │ │
│ └──────┬──────┘ │
│ │ │
│ ┌───────────────────────┼───────────────────────┐ │
│ │ │ │ │
│ ▼ ▼ ▼ │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐│
│ │ 완전성 │◀───────▶│ 일관성 │◀───────▶│ 적시성 ││
│ │(Completeness)│ │(Consistency)│ │(Timeliness) ││
│ └─────────────┘ └─────────────┘ └─────────────┘│
│ │ │ │ │
│ └───────────────────────┼───────────────────────┘ │
│ │ │
│ ┌──────┴──────┐ │
│ │ 유효성 │ │
│ │ (Validity) │ │
│ └──────┬──────┘ │
│ │ │
│ ┌──────┴──────┐ │
│ │ 유일성 │ │
│ │(Uniqueness) │ │
│ └─────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────────┘
데이터 품질 진단 절차
[데이터 품질 진단 절차]
┌─────────────┐ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐
│ 품질 요구 │───▶│ 품질 현황 │───▶│ 품질 분석 │───▶│ 품질 개선 │
│ 정의 │ │ 분석 │ │ 및 평가 │ │ 권고 │
└─────────────┘ └─────────────┘ └─────────────┘ └─────────────┘
│ │ │ │
▼ ▼ ▼ ▼
биз니스 요구 메타데이터 결함 원인 개선 방안
데이터 주인 프로파일링 영향 분석 우선순위
품질 지표 샘플링 기준 대비 실행 계획
3. 해석
3.1 데이터 품질 차원별 평가
데이터 품질 진단에서는 다양한 품질 차원을 구분하여 평가해야 한다. 각 차원은 서로 다른 측면에서 데이터를분석하며, комплексный 평가가 필요하다.
정확성(Accuracy): 데이터가 현실세계를얼마나 정확히 반영하는지를評価한다. 예를 들어, 고객 데이터에서 전화번호가 실제 존재하는 번호인지, 주소가 정확한지 등을 확인한다. 정확하지 않은 데이터는 의사결정의 정확성을 떨어뜨린다.
완전성(Completeness): 데이터가 필수 정보를얼마나 빠짐없이 보유하고 있는지를평가한다. 필수 항목(Primary Key 등)에 NULL 값이나 공백이 없는지, 필수 문서화가 되어야 할 메타데이터가 누락되지 않았는지를 확인한다.
일관성(Consistency): 데이터가組織 전체에서 동일한 의미로 사용되는지를평가한다. 동일한 고객 ID가複数の 시스템에서 다르게 정의되어 있거나, 단위(예: 금액의 원/만원)가 시스템마다 다른 경우 일관성이 결여된 것이다.
적시성(Timeliness): 데이터가利用 시점에 적합한 시의성을 갖추고 있는지를평가한다. 재무제표 데이터가 quarter结束后 数달이 지나서야 갱신되거나, 재고 데이터가 실시간이 아니라 일 일一回更新되는 경우 적시성이 부족하다.
유일성(Uniqueness): 동일한 실체(Entity)가중복して記録되지 않았는지를평가한다. 중복 고객 데이터는 마케팅 비용 낭비, 고객 중복 분석, 서비스 혼란 등의 문제를 야기한다.
유효성(Validity): 데이터가 정해진 규칙과 형식에 맞게 저장されている지를평가한다. 예를 들어, 이메일 주소가 '@'와 '.'를 포함하고 있는지, 날짜 데이터가 유효한 날짜인지 등을 확인한다.
3.2 데이터 프로파일링
데이터 프로파일링은 기존 데이터의 구조, 내용, 품질 상태를 체계적으로 분석하는 활동이다. 감리자는 데이터 프로파일링 결과를 기반으로 품질 문제의 정도를 객관적으로 평가할 수 있다.
구조 분석: 테이블 구조, 컬럼 정의, 데이터 타입, 길이, NULL 허용 여부 등을 분석한다. 설계와 실제 데이터 간의 불일치를 발견할 수 있다.
내용 분석: 각 컬럼의 값 분포, 빈도分布, 평균/최소/최댓값, 패턴 등을 분석한다. 비정상적인 값이나 패턴, 예상과 다른 분포 등이 품질 문제를 시사한다.
관계 분석: 테이블 간의 관계(키-외래키)가 올바르게 유지되고 있는지를분석한다. 참조 무결성이 깨진 레코드(Orphan Record)를 발견할 수 있다.
3.3 데이터 품질 문제 원인 분석
데이터 품질 문제가 발견되면 그 원인을 분석하여適切な 개선 방안을 도출해야 한다. 품질 문제의 원인은 크게 데이터 입력 단계, 데이터 처리 단계, 시스템 설계 단계, 조직/프로세스 단계로 구분된다.
데이터 입력 단계: 인력에 의한 데이터 입력 과정에서 오류가 발생할 수 있다. 입력 필드 검증 부재, 입력 가이드 불명확, 입력 실수 등이 원인이다. 예를 들어, 우편번호 입력時に市・道・군 중 하나를 선택하는 방식이 아닌自由 기술이면 잘못된 주소가 입력될 수 있다.
데이터 처리 단계: 데이터 변환, 마이그레이션, 연계 등의 처리 과정에서 데이터가 변형되거나 유실될 수 있다. 문자 인코딩 차이, 데이터 타입 변환 시 precision 손실, 연계 설정 오류 등이 원인이다.
시스템 설계 단계: 데이터 모델의 설계 미흡으로 인해 품질 문제가 발생할 수 있다. 정규화 미흡으로 인한 데이터 중복, 필수 필드 정의 부재, 비즈니스 룰 미반영 등이 원인이다.
조직/프로세스 단계: 데이터 품질에 대한組織의意識 부족, 데이터 관리 프로세스 부재, 명확한 데이터 책임자 미지정 등이 원인이다.
3.4 데이터 품질 관리 체계 평가
개별 데이터 품질 문제뿐 아니라, 조직의 데이터 품질 관리 체계 전체를評価해야 한다. 관리 체계가 부실하면 개별 문제를 해결해도 再발防止가 어렵다.
데이터 거버넌스: 데이터的所有权, 관리 책임, 관리 절차 등이 명확히 정의되어 있는지를확인한다. 데이터 Stewardship(데이터 관리자) 역할이 지정되어 있어야 한다.
품질 관리 프로세스: 데이터 품질 모니터링, 문제 보고, 원인 분석, 개선 조치가 이루어지는 프로세스가 있는지를 확인한다. 품질 관리가 일회성에 그치지 않고 지속적으로 이루어져야 한다.
품질 기준 및 목표: 데이터 품질 측정 지표와 목표 값이 설정되어 있는지를 확인한다. 목표 없이 품질을 관리하면 개선 성과를측정하기 어렵다.
3.5 데이터 품질 개선 권고
감리자는 데이터 품질 문제의 원인 분석 결과를 기반으로 개선 방안을 권고해야 한다.
단기 개선 조치: 심각한 품질 문제가 즉시业务에 영향을 미치는 경우, 빠른 해결이 필요하다. 중복 데이터 삭제, 필수 값 NULL 처리, 잘못된 데이터修正 등이다.
중기 개선 조치: 시스템이나 프로세스 수준의 개선으로 재발을防止하는 조치이다. 입력 검증 강화, 데이터 변환 로직修正, 연계 설정 개선 등이다.
장기 개선 조치: 데이터 거버넌스 체계 구축, 품질 관리 프로세스 수립, 조직 역량 강화 등 구조적 개선이다.
4. 핵심 용어 정리
| 용어 | 영문명 | 설명 |
|---|---|---|
| 데이터 프로파일링 | Data Profiling | 데이터의 구조, 내용, 품질 상태를 분석하는 활동 |
| 데이터 거버넌스 | Data Governance | 데이터의所有权, 관리 책임, 절차를定義하는 체계 |
| 데이터 Stewardship | Data Stewardship | 데이터 품질 관리를 위해 지정된 관리자 역할 |
| 참조 무결성 | Referential Integrity | 부모-자식 테이블 간의 관계 일관성 보장 |
| 오터 레코드 | Orphan Record | 부모 테이블에 존재하지 않는 레코드를 참조하는 상태 |
| 중복 데이터 | Duplicate Data | 동일한 실체를 중복하여 저장한 데이터 |
5. analogies 📢
데이터 품질 진단은 식당 재료 품질 검사와 같다. 식당에서 요리한 음식의 맛은 사용되는 재료의品質에 크게 좌우된다. 식재료가 신선하지 않거나, 절임/냉장 관리가 부적절하거나,供应商별로 품질 편차가 크면 만들어진 요리의品質も一定하지 않다. 검사官은 식재료의鮮度, 보관 상태, 중량,有無等问题을 확인하고, 문제가 발견되면 식당에 개선을 요구한다. 그러나 식재료采购 단계에서부터品質 기준을 설정하고,供应商을평가하고, 보관 기준을 수립하는的品质 관리 체계가 갖춰져 있어야 일회적 검사로 끝나지 않고 지속적 품질 확보가 가능하다. Likewise, 데이터 품질 진단에서도 개별 데이터 오류를 지적하는同時에, 데이터 입력 체계, 처리 프로세스, 관리 거버넌스 등 근본적品質 관리 체계의 수립을 권고해야 한다.