197. K-익명성, L-다양성, T-근접성 (Privacy Protection Models)

핵심 인사이트

본질: k-익명성(k-Anonymity) → l-다양성(l-Diversity) → t-근접성(t-Closeness)은 프라이버시 보호 모델의 진화 순서로, 각 모델은 이전 모델의 취약점을 보완하기 위해 더 강한 요건을 추가한다.

가치: 세 모델은 재식별 공격(Re-identification Attack)에 대한 이론적 방어 기준을 제시하여, 가명처리 데이터의 안전성을 수학적으로 검증하는 기준으로 활용된다.

판단 포인트: 기술사 답안에서는 "k-익명성의 동질성 공격·배경지식 공격 취약점 → l-다양성으로 민감속성 다양성 보완 → t-근접성으로 분포 유사성까지 보완 → 세 모델의 한계와 차등 프라이버시로의 발전"을 논리적으로 전개해야 한다.

Ⅰ. 개요 및 필요성

데이터를 공개 또는 공유할 때 개인을 특정할 수 없도록 하는 것이 프라이버시 보호의 핵심 과제다. 1998년 Latanya Sweeney가 제안한 k-익명성은 최초의 수학적 프라이버시 보호 모델로, 데이터셋에서 특정 레코드를 다른 최소 k-1개 레코드와 구별할 수 없도록 보장한다.

그러나 k-익명성만으로는 민감속성(Sensitive Attribute)의 다양성을 보장하지 못하는 취약점이 드러났다. 2006년 Machanavajjhala et al.이 제안한 l-다양성은 각 등가 클래스(Equivalence Class) 내에서 민감속성이 최소 l개의 서로 다른 값을 가져야 한다는 강화된 조건을 추가했다.

하지만 l-다양성도 전체 데이터 분포와 등가 클래스 내 분포 차이를 이용한 공격에 취약하다. 2007년 Li et al.이 제안한 t-근접성은 등가 클래스 내 민감속성 분포가 전체 데이터 분포와 통계적 거리 t 이내여야 한다는 조건을 추가하여 이 취약점을 보완한다.

📢 섹션 요약 비유: k-익명성은 군중 속에 숨기(k명 중 한 명), l-다양성은 군중 내 다양한 특성 섞기(최소 l종류 특성), t-근접성은 군중 특성 비율이 전체 사회와 비슷하게 유지하기 — 세 방어선을 겹쳐야 진짜 안전하다.

Ⅱ. 아키텍처 및 핵심 원리

세 모델의 조건 비교 다이어그램

┌──────────────────────────────────────────────────────────────────┐
│         프라이버시 보호 모델 진화 체계                            │
├──────────────────────────────────────────────────────────────────┤
│                                                                   │
│  데이터셋 구조:                                                   │
│  ┌───────┬──────────────────────────┬──────────────────────────┐ │
│  │       │  준식별자 (QI)            │  민감속성 (SA)           │ │
│  │ 레코드 │  나이   성별   우편번호  │  질병명                  │ │
│  ├───────┼──────────────────────────┼──────────────────────────┤ │
│  │ R1   │  30대   남     서울      │  당뇨                    │ │
│  │ R2   │  30대   남     서울      │  당뇨            ← k=3   │ │
│  │ R3   │  30대   남     서울      │  당뇨              위반  │ │
│  │         └──── k-익명성 충족 ────┘    ↑                      │ │
│  │                                    민감속성 동일            │ │
│  │                                    → l-다양성 위반          │ │
│  │                                    (l=1밖에 안됨)           │ │
│  └──────────────────────────────────────────────────────────────┘ │
│                                                                   │
│  ┌──────────────────────────────────────────────────────────┐    │
│  │  k-익명성 (k=2 만족)                                      │    │
│  │  R1: [30대, 남, 서울, 당뇨], R2: [30대, 남, 서울, 고혈압] │    │
│  │  → 같은 준식별자 그룹에 2명 이상 ✓                        │    │
│  │  → 민감속성 {당뇨, 고혈압} → l-다양성(l=2) 충족 ✓        │    │
│  │  → 전체 분포 대비 비율 편차 < t → t-근접성 충족 ✓        │    │
│  └──────────────────────────────────────────────────────────┘    │
└──────────────────────────────────────────────────────────────────┘

k-익명성의 2가지 주요 공격 취약점

1. 동질성 공격 (Homogeneity Attack)
등가 클래스 내 모든 레코드가 동일한 민감속성 값을 가지는 경우. 예: k=5인 그룹의 질병이 모두 'HIV'라면, 그룹 내 누구라도 HIV 환자임이 노출된다.

2. 배경지식 공격 (Background Knowledge Attack)
공격자가 보유한 외부 지식과 데이터를 결합하여 식별하는 경우. 예: '20대 남성 서울 거주자 그룹'이 k=3이지만, 공격자가 그 중 한 명이 암 진단을 받지 않았다는 배경지식을 갖고 있다면 나머지 두 명의 질환을 추론할 수 있다.

각 모델의 수학적 정의

모델	수학적 조건	보장 수준
k-익명성	각 등가 클래스의 레코드 수 ≥ k	특정 개인이 k명 중 한 명임을 보장
l-다양성	각 등가 클래스 내 민감속성의 서로 다른 값 수 ≥ l	민감속성 값이 최소 l가지 다양함을 보장
t-근접성	등가 클래스의 민감속성 분포와 전체 분포 간 KL 거리 또는 EMD (Earth Mover's Distance) ≤ t	민감속성 분포가 전체와 t 이내로 유사함을 보장

📢 섹션 요약 비유: k-익명성은 '최소 k명이 같은 모자를 써야 해'이고, l-다양성은 '그 그룹에서 모자 색이 l가지 이상이어야 해'이고, t-근접성은 '그 그룹의 모자 색 비율이 전체 사람들 비율과 비슷해야 해'다.

Ⅲ. 비교 및 연결

구분	k-익명성	l-다양성	t-근접성
제안 연도	1998년 (Sweeney)	2006년 (Machanavajjhala 외)	2007년 (Li 외)
조건 대상	준식별자 그룹 크기	민감속성 다양성	민감속성 분포 거리
방어하는 공격	연결 공격 (Linkage Attack)	동질성·배경지식 공격	근접성 공격, 왜도 공격
주요 취약점	동질성 공격, 배경지식 공격	왜도 공격(Skewness Attack)	유틸리티 손실 증가
데이터 유용성	높음	중간	낮음 (조건 엄격)
구현 복잡도	낮음	중간	높음
실무 활용도	높음 (기본 요건)	중간	낮음 (고민감 데이터)

차등 프라이버시(Differential Privacy)와의 비교

차등 프라이버시(DP, Differential Privacy)는 2006년 Dwork가 제안한 수학적 프라이버시 보증 모델로, 데이터셋에 특정 개인의 레코드를 포함하든 안 하든 통계 쿼리 결과가 ε(엡실론) 범위 내에서만 달라지도록 노이즈를 추가한다. k-익명성 계열 모델과 달리 개인 레코드 직접 노출이 아닌 쿼리 결과의 통계적 프라이버시를 보장하며, Apple·Google·미 인구통계국 등이 실제 활용 중이다.

📢 섹션 요약 비유: 차등 프라이버시는 설문 응답에 무작위로 '예'를 추가하는 것처럼 — 개인 응답은 노이즈에 숨겨지지만, 전체 통계는 정확하게 나온다.

Ⅳ. 실무 적용 및 기술사 판단

공공 데이터 공개 시 적용 기준 (행안부 비식별 조치 가이드라인)
① 준식별자 식별: 나이, 성별, 우편번호, 직업 등 조합으로 개인을 특정할 수 있는 속성을 분류한다.
② k-익명성 충족: 일반적으로 k=3 이상을 권고하며, 민감도 높은 데이터(의료·금융)는 k=5 이상을 적용한다.
③ l-다양성 검토: 민감속성(질병명, 급여 등)의 다양성이 충분한지 검토하고, l=2 이상을 권고한다.
④ t-근접성 선택적 적용: 전체 데이터 분포가 왜곡되는 경우(예: 특정 질환 집중) t-근접성을 추가 적용한다.
⑤ 데이터 재식별 위험 평가: 공개 이전에 재식별 가능성 전문가 검토를 수행한다.

기술사 답안 포인트
세 모델의 한계를 설명할 때 "데이터 유틸리티(Data Utility)와 프라이버시 보호의 트레이드오프(Trade-off)"를 언급하는 것이 핵심이다. 조건이 강화될수록 데이터가 더 많이 변형되어 원래 데이터의 통계적 유용성이 낮아진다는 딜레마를 명확히 표현하면 고득점이다.

📢 섹션 요약 비유: 프라이버시 보호 강화는 사진 모자이크 처리처럼 — 모자이크를 강하게 할수록 개인 식별은 어려워지지만 사진 자체의 정보도 줄어든다.

Ⅴ. 기대효과 및 결론

k-익명성·l-다양성·t-근접성은 데이터 공개·공유 시 재식별 리스크를 정량적으로 평가하고 통제하는 이론적 기반을 제공한다. 공공 데이터 개방, 의료 연구, 금융 데이터 분석에서 프라이버시 보호 수준의 객관적 기준으로 활용되며, 개인정보보호법의 가명처리 적정성 검토에서도 이 모델들이 참조 기준으로 사용된다.

미래 방향으로는 차등 프라이버시(Differential Privacy)와 연합 학습(Federated Learning)이 세 모델의 한계를 보완하는 차세대 프라이버시 보호 기술로 주목받고 있다. 또한 그래프 데이터, 시계열 데이터, 위치 데이터 등 비정형 데이터에 대한 프라이버시 보호 모델 확장 연구도 활발히 진행 중이다.

📢 섹션 요약 비유: 세 모델의 발전은 자동차 안전 기준 강화와 같다 — 안전벨트(k-익명성) → 에어백(l-다양성) → 차선 이탈 경보(t-근접성)로 점점 더 정교해지지만, 완벽한 사고 방지는 자율주행(차등 프라이버시)으로 가야 한다.

📌 관련 개념 맵

개념	설명	연관 키워드
k-익명성	준식별자 조합으로 최소 k명이 구별 불가하도록 보장	등가 클래스, 연결 공격
l-다양성	등가 클래스 내 민감속성 값이 최소 l가지 다양성 보장	동질성 공격, 배경지식 공격
t-근접성	등가 클래스 분포가 전체 분포와 t 거리 이내 보장	KL 발산, EMD, 왜도 공격
차등 프라이버시	ε-보장으로 개인 레코드 포함 여부 통계적 구별 불가	라플라스 메커니즘, Apple/Google
데이터 유틸리티	비식별화 후 데이터의 통계적 유용성	Privacy-Utility Trade-off

👶 어린이를 위한 3줄 비유 설명

k-익명성은 학교에서 내 성적을 공개할 때 최소 3명의 성적을 함께 발표해서 '이 중 하나가 나'라고만 알 수 있게 하는 거예요.
l-다양성은 그 3명의 성적이 모두 같으면 안 되고(다 100점이면 내가 누군지 빤하니까), 다양한 점수여야 한다는 규칙이에요.
t-근접성은 그 3명의 성적 분포가 전체 반 성적 분포와 비슷해야 한다는 더 엄격한 규칙이에요 — 이렇게 세 겹으로 보호해야 진짜 안전해요.