적대적 예제 (Adversarial Example)

핵심 인사이트 (3줄 요약)

미세 섭동 주입: 사람 눈에는 보이지 않는 작은 노이즈(Perturbation)를 입력 데이터에 추가하여 AI 모델을 오작동시키는 데이터입니다.
회피 공격 (Evasion Attack): 모델의 가중치는 변경하지 않고, 추론(Inference) 단계의 입력을 조작하여 공격자의 의도대로 분류를 유도합니다.
취약성 노출: 딥러닝 모델의 결정 경계(Decision Boundary)가 선형적이고 고차원적이라는 특성을 악용하는 치명적인 보안 위협입니다.

Ⅰ. 개요 (Context & Background)

발생 배경: 딥러닝 모델이 일반화 성능은 뛰어나지만, 특정 방향의 노이즈에는 극도로 취약하다는 사실이 Szegedy 등에 의해 발견되었습니다.
위험성: 자율주행차의 '정지' 표지판에 미세한 스티커를 붙여 '직진'으로 인식하게 하거나, 안면 인식 시스템을 무력화할 수 있습니다.

Ⅱ. 아키텍처 및 핵심 원리 (Deep Dive)

생성 원리: 모델의 손실 함수(Loss Function)를 최대화하는 방향으로 입력 x를 미세하게 변형(x + ε * sign(∇x L))합니다.
화이트박스 vs 블랙박스: 모델의 내부 구조를 아는 상태에서의 공격과, API 응답만으로 추론하여 공격하는 방식으로 나뉩니다.

[Adversarial Example Generation Logic]
Original Input (x) + Perturbation (η) = Adversarial Input (x')

+-----------------+      +-----------------+      +-----------------+
|   Clean Image   |  +   |  Perturbation   |  =   | Adversarial Img |
|   (Label: Panda)|      | (Tiny Noise)    |      | (Label: Gibbon) |
+-----------------+      +-----------------+      +-----------------+
        |                        |                        |
     Correct                  Intentional              Miss-classified
     Output                   Deviation                Output

[Bilingual Flow]
1. Calculate Gradient (기울기 계산)
2. Directional Perturbation (방향성 섭동 추가)
3. Model Misclassification (모델 오분류 유발)

Ⅲ. 융합 비교 및 다각도 분석 (Comparison & Synergy)

비교 항목 (Comparison)	적대적 예제 (Adversarial Example)	데이터 포이즈닝 (Data Poisoning)
공격 시점	추론 단계 (Inference Stage)	훈련 단계 (Training Stage)
공격 대상	입력 데이터 (Input Data)	훈련 데이터셋 (Dataset)
목표	일시적 오분류 유도	모델 자체의 영구적 오염/백도어
대응 방법	적대적 훈련 (Adversarial Training)	데이터 정제 및 이상 탐지

Ⅳ. 실무 적용 및 기술사적 판단 (Strategy & Decision)

적대적 훈련 (Adversarial Training): 훈련 시 적대적 예제를 포함하여 학습시킴으로써 모델의 강건성(Robustness)을 높이는 가장 대표적인 방어 전략입니다.
디펜시브 디스틸레이션 (Defensive Distillation): 모델의 확률 분포를 부드럽게 만들어 공격자가 기울기를 계산하기 어렵게 만드는 기법입니다.

Ⅴ. 기대효과 및 결론 (Future & Standard)

AI 안전성 확보: 신뢰할 수 있는 AI(Trustworthy AI) 구현을 위해 적대적 공격에 대한 정량적 평가 지표 수립이 필수적입니다.
결론: AI 보안은 단순한 알고리즘 문제를 넘어 사회적 안전과 직결되므로, 설계 단계부터 적대적 방어를 고려하는 'AI Security-by-Design'이 요구됩니다.

📌 관련 개념 맵 (Knowledge Graph)

공격 기법: FGSM (Fast Gradient Sign Method), PGD, Carlini-Wagner Attack
방어 기법: Adversarial Training, Gradient Masking, Input Transformation
상위 개념: AI 보안 (AI Security), 강건성 (Robustness)

👶 어린이를 위한 3줄 비유 설명

"AI가 보는 안경에 아주 작은 먼지를 묻혀서, 사과를 바나나로 착각하게 만드는 장난이에요."
"사람 눈에는 똑같아 보이지만, 로봇에게는 완전히 다른 것처럼 보이게 숨겨진 암호를 넣는 것과 같아요."
"로봇이 정답을 맞히지 못하게 방해하는 아주 똑똑한 숨바꼭질이라고 생각하면 돼요."