핵심 인사이트 (3줄 요약)
- 본질: AI 모델 보안 위협은 훈련 데이터 오염(데이터 포이즈닝), 추론 시 입력 조작(적대적 예제), 훈련 데이터 포함 여부 추론(멤버십 추론 공격) 세 층위로 분류되며 각각 다른 방어 전략이 필요하다.
- 가치: 클린-레이블 공격(Clean-Label Attack)은 라벨 변조 없이 특성 공간만 오염시켜 탐지를 회피하는 정교한 공격으로, 웹 스크랩 기반 데이터 파이프라인에서 실제 위협이 된다.
- 판단 포인트: 멤버십 추론 공격(Membership Inference Attack)은 모델의 훈련 데이터 포함 여부를 통계적으로 추론하므로, 차분 프라이버시(DP-SGD)와 정규화(Regularization) 강화가 핵심 방어다.
Ⅰ. 개요 및 필요성
AI 시스템의 신뢰성은 세 가지 보안 속성에 달려 있다:
- 무결성(Integrity): 올바른 예측 → 포이즈닝·적대적 예제 위협
- 가용성(Availability): 서비스 중단 없음 → 적대적 예제, 모델 추출 위협
- 기밀성(Confidentiality): 데이터 비공개 → 멤버십 추론, 모델 역전(Inversion) 위협
AI 공급망(Supply Chain) 보안: 사전 학습 모델(Pre-trained Model), 공개 데이터셋, 파인튜닝 데이터 모두 포이즈닝 위협 대상.
- 📢 섹션 요약 비유: AI 보안은 집의 세 가지 보안 — 문(무결성), 전원(가용성), 개인정보(기밀성)을 모두 지켜야 한다.
Ⅱ. 아키텍처 및 핵심 원리
┌───────────────────────────────────────────────────────────┐
│ AI 보안 위협 전체 지형 │
│ │
│ 훈련 단계 위협 추론 단계 위협 │
│ ┌─────────────────────┐ ┌────────────────────┐ │
│ │ 데이터 포이즈닝 │ │ 적대적 예제(Evasion)│ │
│ │ ·백도어(트리거 삽입) │ │ ·FGSM, PGD, C&W │ │
│ │ ·클린-라벨 공격 │ └────────────────────┘ │
│ │ ·모델 독(Model Rot) │ ┌────────────────────┐ │
│ └─────────────────────┘ │ 멤버십 추론 공격 │ │
│ │ ·Shadow Model │ │
│ 학습 완료 후 위협 │ ·Likelihood Test │ │
│ ┌─────────────────────┐ └────────────────────┘ │
│ │ 모델 추출(Stealing) │ ┌────────────────────┐ │
│ │ ·블랙박스 쿼리 반복 │ │ 모델 역전(Inversion)│ │
│ └─────────────────────┘ │ ·훈련 데이터 복원 │ │
│ └────────────────────┘ │
└───────────────────────────────────────────────────────────┘
데이터 포이즈닝 세부 유형
| 공격 유형 | 방법 | 탐지 어려움 |
|---|---|---|
| 백도어(Backdoor) | 트리거 패턴 + 라벨 변조 | 낮음 |
| 클린-라벨 공격 | 라벨 유지, 특성 공간 오염 | 매우 높음 |
| 점진적 포이즈닝 | 소수 샘플 장기간 삽입 | 높음 |
| 모델 독(Model Rot) | 학습률 조작으로 수렴 방해 | 높음 |
클린-라벨 공격 원리
- 공격 목표: "개구리" 이미지를 "비행기"로 오분류시키길 원함
- "개구리" 라벨은 그대로 유지
- "개구리" 이미지의 특성 벡터를 "비행기" 특성 공간으로 이동 (미세 픽셀 조작)
- 모델이 이 "개구리"를 학습하면 정상으로 보이는 특정 개구리 이미지를 "비행기"로 예측
멤버십 추론 공격(Membership Inference Attack)
| 방법 | 원리 |
|---|---|
| Shadow Model 공격 | 타깃 모델 행동 모방 Shadow Model로 멤버/비멤버 구분기 학습 |
| Likelihood Ratio | 타깃 모델의 샘플 손실값 분포 차이 활용 |
| 임계값 기반 | 훈련 샘플은 낮은 손실값 → 임계치 이하면 멤버로 판별 |
- 📢 섹션 요약 비유: 멤버십 추론은 "이 이름이 학교 출석부에 있는지" 알아내는 것 — 선생님이 그 이름에 자동 반응하면 있다는 증거다.
Ⅲ. 비교 및 연결
방어 전략 매핑
| 공격 유형 | 1차 방어 | 2차 방어 |
|---|---|---|
| 백도어 포이즈닝 | 데이터 검증 및 정화 | Neural Cleanse, Fine-pruning |
| 클린-라벨 공격 | 이상 탐지(Spectral Signatures) | 신뢰 점수 필터링 |
| 적대적 예제 | 적대적 훈련 | 입력 정화, 인증 방어 |
| 멤버십 추론 | DP-SGD | 정규화 강화(Dropout) |
| 모델 추출 | 예측 신뢰도 노이즈 | 쿼리 제한(Rate Limiting) |
데이터 공급망 보안
-
데이터 출처 추적(Data Provenance): 훈련 데이터의 출처와 처리 이력 기록
-
Watermarking: 모델 가중치에 학습 데이터 워터마크 삽입 → 포이즈닝 소스 역추적
-
데이터 정화(Data Sanitization): 이상 탐지(스펙트럼 서명, KNN 기반)로 의심 샘플 제거
-
📢 섹션 요약 비유: 데이터 공급망 보안은 식품 이력 추적 시스템 — 재료가 어디서 왔는지 알아야 오염 발생 시 원인을 찾을 수 있다.
Ⅳ. 실무 적용 및 기술사 판단
AI 보안 평가 프레임워크
| 평가 항목 | 도구/방법 | 기준 |
|---|---|---|
| 백도어 탐지 | Neural Cleanse, ABS | ASR(Attack Success Rate) < 5% |
| 적대적 강건성 | AutoAttack 벤치마크 | Robust Accuracy 측정 |
| 멤버십 추론 | LiRA(Likelihood Ratio Attack) | AUC < 0.6 목표 |
| 모델 추출 | 쿼리 시뮬레이션 | 추출 모델 정확도 격차 |
기술사 판단 포인트
- 사전 학습 모델 감사: Hugging Face 등 공개 모델 도입 시 백도어 스캔 필수 (Fine-pruning 적용)
- 웹 스크랩 데이터 위험: LAION 등 대규모 웹 데이터 → 클린-라벨 공격 포함 가능성 → Spectral Signatures 검사
- 의료/금융 AI: 멤버십 추론 공격이 환자/고객 개인정보 유출로 연결 → DP-SGD ε ≤ 3 적용
- MITRE ATLAS: AI 위협 지식 베이스 — AI 공격 전술·기법·절차(TTP) 표준 참조 프레임워크
- 📢 섹션 요약 비유: AI 보안 감사는 식당 위생 검사 — 눈에 보이지 않는 오염(포이즈닝)을 정기적으로 확인해야 고객을 보호할 수 있다.
Ⅴ. 기대효과 및 결론
AI 모델 보안은 개발 단계부터 운영까지 전 생애주기에 걸친 다층 방어가 필요하다. 데이터 포이즈닝 탐지, 적대적 훈련, DP-SGD의 결합이 현재 최선의 방어 조합이다. MITRE ATLAS와 같은 AI 위협 지식 베이스를 활용한 체계적 위험 관리가 기술사 수준에서 요구된다.
- 📢 섹션 요약 비유: AI 보안은 성의 방어선 — 훈련 데이터(외성벽), 모델 추론(내성벽), 데이터 기밀(비밀 창고) 모두를 지켜야 한다.
📌 관련 개념 맵
| 개념 | 연결 포인트 |
|---|---|
| 백도어(Backdoor) | 포이즈닝 유형 · 트리거 기반 오분류 |
| 클린-라벨 공격 | 포이즈닝 유형 · 라벨 무변조 특성 오염 |
| 멤버십 추론 | 기밀성 공격 · 훈련 데이터 포함 여부 추론 |
| Neural Cleanse | 백도어 탐지 · 이상 트리거 역설계 |
| DP-SGD | 방어 · 멤버십 추론 방어 |
📈 관련 키워드 및 발전 흐름도
[포이즈닝 유형 · 트리거 기반 오분류] → [데이터 포이즈닝과 적대적 예제 모델 오판] → [방어 · 멤버십 추론 방어]
👶 어린이를 위한 3줄 비유 설명
- AI 학교에 나쁜 학생이 몰래 틀린 정보를 가르치면 AI가 잘못 배워요 — 이게 데이터 포이즈닝이에요.
- 멤버십 추론은 "이 학생이 시험에 나온 문제를 미리 봤는지" 알아내려는 꼼수예요.
- 이런 공격을 막으려면 공부 재료를 꼼꼼히 검사하고, 정보를 조금 흐릿하게 배우게(차분 프라이버시) 해야 해요.