548. 데이터 포이즈닝과 적대적 예제 모델 오판 (Data Poisoning Adversarial Model Manipulation)

핵심 인사이트 (3줄 요약)

본질: AI 모델 보안 위협은 훈련 데이터 오염(데이터 포이즈닝), 추론 시 입력 조작(적대적 예제), 훈련 데이터 포함 여부 추론(멤버십 추론 공격) 세 층위로 분류되며 각각 다른 방어 전략이 필요하다.

가치: 클린-레이블 공격(Clean-Label Attack)은 라벨 변조 없이 특성 공간만 오염시켜 탐지를 회피하는 정교한 공격으로, 웹 스크랩 기반 데이터 파이프라인에서 실제 위협이 된다.

판단 포인트: 멤버십 추론 공격(Membership Inference Attack)은 모델의 훈련 데이터 포함 여부를 통계적으로 추론하므로, 차분 프라이버시(DP-SGD)와 정규화(Regularization) 강화가 핵심 방어다.

Ⅰ. 개요 및 필요성

AI 시스템의 신뢰성은 세 가지 보안 속성에 달려 있다:

무결성(Integrity): 올바른 예측 → 포이즈닝·적대적 예제 위협
가용성(Availability): 서비스 중단 없음 → 적대적 예제, 모델 추출 위협
기밀성(Confidentiality): 데이터 비공개 → 멤버십 추론, 모델 역전(Inversion) 위협

AI 공급망(Supply Chain) 보안: 사전 학습 모델(Pre-trained Model), 공개 데이터셋, 파인튜닝 데이터 모두 포이즈닝 위협 대상.

📢 섹션 요약 비유: AI 보안은 집의 세 가지 보안 — 문(무결성), 전원(가용성), 개인정보(기밀성)을 모두 지켜야 한다.

Ⅱ. 아키텍처 및 핵심 원리

┌───────────────────────────────────────────────────────────┐
│               AI 보안 위협 전체 지형                        │
│                                                           │
│  훈련 단계 위협                   추론 단계 위협            │
│  ┌─────────────────────┐         ┌────────────────────┐   │
│  │ 데이터 포이즈닝       │         │ 적대적 예제(Evasion)│   │
│  │ ·백도어(트리거 삽입) │         │ ·FGSM, PGD, C&W   │   │
│  │ ·클린-라벨 공격      │         └────────────────────┘   │
│  │ ·모델 독(Model Rot) │         ┌────────────────────┐   │
│  └─────────────────────┘         │ 멤버십 추론 공격   │   │
│                                  │ ·Shadow Model     │   │
│  학습 완료 후 위협                │ ·Likelihood Test  │   │
│  ┌─────────────────────┐         └────────────────────┘   │
│  │ 모델 추출(Stealing) │         ┌────────────────────┐   │
│  │ ·블랙박스 쿼리 반복 │         │ 모델 역전(Inversion)│   │
│  └─────────────────────┘         │ ·훈련 데이터 복원  │   │
│                                  └────────────────────┘   │
└───────────────────────────────────────────────────────────┘

데이터 포이즈닝 세부 유형

공격 유형	방법	탐지 어려움
백도어(Backdoor)	트리거 패턴 + 라벨 변조	낮음
클린-라벨 공격	라벨 유지, 특성 공간 오염	매우 높음
점진적 포이즈닝	소수 샘플 장기간 삽입	높음
모델 독(Model Rot)	학습률 조작으로 수렴 방해	높음

클린-라벨 공격 원리

공격 목표: "개구리" 이미지를 "비행기"로 오분류시키길 원함
"개구리" 라벨은 그대로 유지
"개구리" 이미지의 특성 벡터를 "비행기" 특성 공간으로 이동 (미세 픽셀 조작)
모델이 이 "개구리"를 학습하면 정상으로 보이는 특정 개구리 이미지를 "비행기"로 예측

멤버십 추론 공격(Membership Inference Attack)

방법	원리
Shadow Model 공격	타깃 모델 행동 모방 Shadow Model로 멤버/비멤버 구분기 학습
Likelihood Ratio	타깃 모델의 샘플 손실값 분포 차이 활용
임계값 기반	훈련 샘플은 낮은 손실값 → 임계치 이하면 멤버로 판별

📢 섹션 요약 비유: 멤버십 추론은 "이 이름이 학교 출석부에 있는지" 알아내는 것 — 선생님이 그 이름에 자동 반응하면 있다는 증거다.

Ⅲ. 비교 및 연결

방어 전략 매핑

공격 유형	1차 방어	2차 방어
백도어 포이즈닝	데이터 검증 및 정화	Neural Cleanse, Fine-pruning
클린-라벨 공격	이상 탐지(Spectral Signatures)	신뢰 점수 필터링
적대적 예제	적대적 훈련	입력 정화, 인증 방어
멤버십 추론	DP-SGD	정규화 강화(Dropout)
모델 추출	예측 신뢰도 노이즈	쿼리 제한(Rate Limiting)

데이터 공급망 보안

데이터 출처 추적(Data Provenance): 훈련 데이터의 출처와 처리 이력 기록
Watermarking: 모델 가중치에 학습 데이터 워터마크 삽입 → 포이즈닝 소스 역추적
데이터 정화(Data Sanitization): 이상 탐지(스펙트럼 서명, KNN 기반)로 의심 샘플 제거
📢 섹션 요약 비유: 데이터 공급망 보안은 식품 이력 추적 시스템 — 재료가 어디서 왔는지 알아야 오염 발생 시 원인을 찾을 수 있다.

Ⅳ. 실무 적용 및 기술사 판단

AI 보안 평가 프레임워크

평가 항목	도구/방법	기준
백도어 탐지	Neural Cleanse, ABS	ASR(Attack Success Rate) < 5%
적대적 강건성	AutoAttack 벤치마크	Robust Accuracy 측정
멤버십 추론	LiRA(Likelihood Ratio Attack)	AUC < 0.6 목표
모델 추출	쿼리 시뮬레이션	추출 모델 정확도 격차

기술사 판단 포인트

사전 학습 모델 감사: Hugging Face 등 공개 모델 도입 시 백도어 스캔 필수 (Fine-pruning 적용)
웹 스크랩 데이터 위험: LAION 등 대규모 웹 데이터 → 클린-라벨 공격 포함 가능성 → Spectral Signatures 검사
의료/금융 AI: 멤버십 추론 공격이 환자/고객 개인정보 유출로 연결 → DP-SGD ε ≤ 3 적용
MITRE ATLAS: AI 위협 지식 베이스 — AI 공격 전술·기법·절차(TTP) 표준 참조 프레임워크

📢 섹션 요약 비유: AI 보안 감사는 식당 위생 검사 — 눈에 보이지 않는 오염(포이즈닝)을 정기적으로 확인해야 고객을 보호할 수 있다.

Ⅴ. 기대효과 및 결론

AI 모델 보안은 개발 단계부터 운영까지 전 생애주기에 걸친 다층 방어가 필요하다. 데이터 포이즈닝 탐지, 적대적 훈련, DP-SGD의 결합이 현재 최선의 방어 조합이다. MITRE ATLAS와 같은 AI 위협 지식 베이스를 활용한 체계적 위험 관리가 기술사 수준에서 요구된다.

📢 섹션 요약 비유: AI 보안은 성의 방어선 — 훈련 데이터(외성벽), 모델 추론(내성벽), 데이터 기밀(비밀 창고) 모두를 지켜야 한다.

📌 관련 개념 맵

개념	연결 포인트
백도어(Backdoor)	포이즈닝 유형 · 트리거 기반 오분류
클린-라벨 공격	포이즈닝 유형 · 라벨 무변조 특성 오염
멤버십 추론	기밀성 공격 · 훈련 데이터 포함 여부 추론
Neural Cleanse	백도어 탐지 · 이상 트리거 역설계
DP-SGD	방어 · 멤버십 추론 방어

📈 관련 키워드 및 발전 흐름도

[포이즈닝 유형 · 트리거 기반 오분류] → [데이터 포이즈닝과 적대적 예제 모델 오판] → [방어 · 멤버십 추론 방어]

👶 어린이를 위한 3줄 비유 설명

AI 학교에 나쁜 학생이 몰래 틀린 정보를 가르치면 AI가 잘못 배워요 — 이게 데이터 포이즈닝이에요.
멤버십 추론은 "이 학생이 시험에 나온 문제를 미리 봤는지" 알아내려는 꼼수예요.
이런 공격을 막으려면 공부 재료를 꼼꼼히 검사하고, 정보를 조금 흐릿하게 배우게(차분 프라이버시) 해야 해요.