361. 다크 데이터 (Dark Data)
핵심 인사이트 (3줄 요약)
- 시스템 로그, 구형 백업, 이메일 첨부 파일 등 "언젠가 쓸모가 있겠지"라며 무턱대고 저장만 해둔 가치 제로의 비정형 암흑 덩어리다.
- 이는 클라우드 스토리지 비용의 무의미한 폭발을 유발하고, 나아가 보안 통제를 벗어나 민감 정보 유출(주민번호 포함 로그)의 치명적 시한폭탄으로 작용한다.
- AI와 NLP 기술을 동원해 이러한 방치된 텍스트와 로그를 자동 식별(Classification)하고, 태깅하여 '데이터 카탈로그'의 양지로 끌어올리는 정수화 과정이 필수적이다.
Ⅰ. 아키텍처 및 원리
[ 다크 데이터의 리스크 순환망 ]
원천 애플리케이션 -> 무분별한 덤프 로그 -> 방치된 Data Lake (늪지대 Swamp)
-> 해커의 랜섬웨어 타겟 (또는 컴플라이언스 과징금 대상)
Ⅱ. 실무 적용 및 결론
법무 규제(GDPR, ISMS)가 강화됨에 따라 기업 내 "무엇인지 모르는 데이터" 자체를 갖는 것은 위법이다. 데이터 통제 관점(거버넌스)에서 ILM(정보 수명 주기 관리) 정책을 강제해 3년이 지난 무명 파일은 S3 Glacier로 폐기 처분하는 정책 자동화가 해결책이다.