온디바이스 AI (On-Device AI), TinyML, SLM, NPU

출제 빈도: ★★★★★ | 난이도: ★★★☆☆ | 기출: ★134회, ☆2026 확실 예측

답안.

Ⅰ. 개요

온디바이스 AI(On-Device AI)는 클라우드 서버가 아닌 엣지 단말(스마트폰, IoT, 자동차 ECU) 자체에서 AI 모델 추론(Inference)을 수행하는 기술이다. 단말 내장 NPU가 경량화된 AI 모델(SLM, TinyML)을 직접 실행하여 네트워크 지연 없이 실시간 처리하고, 프라이버시 데이터를 단말 외부로 전송하지 않는다.

Ⅱ. 핵심 구성요소

I. 온디바이스 AI의 정의 및 등장 배경
   - 클라우드 AI의 한계: 지연(Latency), 프라이버시, 연결 의존성
   - 에이전틱 AI 시대 단말 자율성 요구 증가

II. 기술 구성요소
   [단말 하드웨어]
   ┌─────────────────────────────────┐
   │  AP (Application Processor)     │
   │  ┌──────┐ ┌──────┐ ┌────────┐ │
   │  │ CPU  │ │ GPU  │ │  NPU   │ │
   │  └──────┘ └──────┘ └────────┘ │
   │         ↑ AI 추론 전담          │
   └─────────────────────────────────┘

   [소프트웨어 스택]
   1) 모델 경량화: 양자화(INT8/INT4), 지식증류, 프루닝
   2) SLM (Small Language Model): Phi-3, Gemma, Llama-3.2
   3) TinyML: MCU급 마이크로컨트롤러 AI (TensorFlow Lite)
   4) 런타임: ONNX Runtime, CoreML, Qualcomm AI Stack

III. 클라우드 AI vs 온디바이스 AI
   | 항목         | 클라우드 AI     | 온디바이스 AI  |
   |-------------|----------------|--------------|
   | 지연         | 100ms~수초      | 10ms 이하     |
   | 프라이버시    | 데이터 전송 필요 | 단말 내 처리   |
   | 모델 크기     | 제한 없음       | ~수 GB 이하   |
   | 연산 비용     | 서버 과금       | 단말 전력 소비 |
   | 오프라인      | 불가            | 가능          |


해당 키워드의 기술적 구성요소와 동작 원리를 서술한다.

### Ⅲ. 특징 및 비교

핵심 기술의 장단점과 유사 기술과의 차이를 분석한다.

### Ⅳ. 적용 사례

실무 환경에서의 적용 사례와 기대효과를 제시한다.

### Ⅴ. 전망

최신 기술 동향과 향후 발전 방향을 서술한다.