317. LPU (Language Processing Unit)

핵심 인사이트 (3줄 요약)

본질: LPU(Language Processing Unit)는 거대 언어 모델(LLM)이 단어를 하나씩 순차적으로 내뱉는 과정(디코딩)에서 발생하는 고질적인 메모리 지연 현상을 박살 내기 위해 설계된 'LLM 추론 전용' 초고속 반도체다.

가치: 기존 GPU는 데이터(가중치)를 외부 메모리(HBM)에서 불러오느라 시간을 다 허비했지만, LPU는 아예 칩 내부의 거대한 SRAM에 수백억 개의 가중치를 통째로 집어넣어 초당 수백 단어(Tokens/sec)를 생성하는 경이로운 속도를 낸다.

판단 포인트: LPU는 실시간 대화형 챗봇(음성 AI)의 응답 지연(Latency)을 인간 수준으로 없앨 수 있는 게임 체인저이나, 칩 내부의 SRAM 용량이 매우 적어 여러 대의 칩을 엮어야 하므로 모델 훈련(Training)보다는 서비스 서빙(Inference) 아키텍처에 국한하여 도입해야 한다.

Ⅰ. 개요 및 필요성

챗GPT에 질문하면 글자가 두두두둑 타이핑되듯 나온다. LLM은 한 번에 문장 전체를 내뱉는 것이 아니라, "나는" 다음에 "밥을", 그다음에 "먹는다"를 순차적으로 계산(Autoregressive)하기 때문이다. 이때 GPU는 "밥을"이라는 단어를 계산하기 위해 매번 수백 기가바이트의 모델 가중치를 외부 메모리(HBM)에서 연산기(코어)로 가져와야 한다.

아무리 연산 코어가 빨라도 HBM에서 데이터가 도착할 때까지 코어는 놀고 있다(Memory Wall). 이를 해결하기 위해 미국의 스타트업 Groq(그로크)는 아예 **"외부 메모리를 없애버리고, 연산기 바로 옆에 데이터를 다 저장해 두면 어떨까?"**라는 미친 아이디어를 실행했다. 이렇게 LLM의 순차적 토큰 생성 지연시간(Latency) 단축에 특화되어 탄생한 것이 바로 **LPU(Language Processing Unit)**다.

📢 섹션 요약 비유: 요리사(코어)가 냉장고(HBM)에서 재료를 꺼내오느라 요리(토큰 생성)가 지연되는 GPU와 달리, LPU는 도마(SRAM) 위에 모든 재료를 다 올려놓고 빛의 속도로 요리만 하는 주방이다.

Ⅱ. 아키텍처 및 핵심 원리

LPU 아키텍처의 핵심은 **TSR (Tensor Streaming Architecture)**과 거대한 On-chip SRAM이다.

┌────────────────────────────────────────────────────────┐
│            [ GPU vs LPU 추론 아키텍처 비교 ]                 │
├────────────────────────────────────────────────────────┤
│ 1. NVIDIA GPU 아키텍처 (대역폭 중심)                   │
│    ┌────────────┐    (지연 발생)   ┌───────────────┐   │
│    │ HBM (외부) │ ◀────────────▶ │ 연산 코어 (칩)│   │
│    └────────────┘                 └───────────────┘   │
│                                                        │
│ 2. Groq LPU 아키텍처 (지연시간 중심)                   │
│    ┌───────────────────────────────────────────┐       │
│    │ ┌────────┐ ┌────────┐ ┌────────┐ ┌──────┐ │       │
│    │ │  SRAM  │ │  SRAM  │ │  SRAM  │ │ SRAM │ │       │
│    │ └───────┬┘ └───────┬┘ └───────┬┘ └──────┘ │       │
│    │       ▶ ▼ ◀      ▶ ▼ ◀      ▶ ▼ ◀           │       │
│    │ ┌────────┐ ┌────────┐ ┌────────┐ ┌──────┐ │       │
│    │ │ Vector │ │ Vector │ │ Matrix │ │ ALU  │ │       │
│    │ └────────┘ └────────┘ └────────┘ └──────┘ │       │
│    │  (모든 가중치를 칩 내부의 SRAM에 분산 저장)          │       │
│    └───────────────────────────────────────────┘       │
└────────────────────────────────────────────────────────┘

SRAM 중심 설계: GPU가 느린 외부 HBM에 의존하는 반면, LPU는 칩 면적의 상당 부분을 속도가 100배 빠른 내부 SRAM으로 채운다. 가중치를 여기다 올려두고 연산기(Vector, Matrix 코어)와 실시간으로 데이터를 맞바꾼다.
소프트웨어 주도 스케줄링: 일반 칩은 데이터가 언제 도착할지 몰라 하드웨어 캐시 컨트롤러가 복잡하게 얽혀 있다. LPU는 하드웨어 스케줄러를 전부 없애버리고, 컴파일러가 "몇 나노초 뒤에 이 데이터가 저쪽으로 갈 것"을 100% 예측하여 소프트웨어 단에서 통제한다 (결정론적 실행, Deterministic Execution).

📢 섹션 요약 비유: LPU는 복잡한 신호등(하드웨어 스케줄러)을 다 없애버리고, 열차 시간표(컴파일러)를 완벽하게 짜서 기차들이 단 1초의 대기 시간도 없이 역(코어)을 통과하게 만드는 완벽한 철도망이다.

Ⅲ. 비교 및 연결

LLM을 구동하는 하드웨어 3형제의 특징을 비교하면 LPU의 극단적인 특화 포인트가 드러난다.

비교 항목	GPU (NVIDIA H100)	TPU (Google)	LPU (Groq)
기본 구조	병렬 연산 (SIMT) + HBM	행렬 시스톨릭 어레이 + HBM	SRAM 내장형 텐서 스트리밍
메모리 속도	약 3 TB/s (HBM3)	약 1.2 TB/s (HBM2e)	약 80 TB/s (On-chip SRAM)
LLM 추론 속도	초당 ~50 토큰 내외	초당 ~80 토큰 내외	초당 500~800 토큰 (압도적)
주요 강점	거대 모델의 병렬 '학습'에 최고	대규모 학습 및 자사 서비스 최적화	초저지연 실시간 '추론(디코딩)'에 올인
치명적 단점	비싼 가격, 엄청난 전력 소모	구글 클라우드에서만 사용 가능	SRAM 용량이 너무 작아 칩 수십 개 묶어야 함

LPU 칩 하나에 들어가는 SRAM은 고작 수백 MB에 불과하다. 70억 개(7B) 파라미터 모델의 가중치가 14GB 정도 되므로, 이를 담으려면 LPU 칩 수십 대를 묶어(Interconnect) 하나의 거대한 칩처럼 만들어야 한다. 즉 LPU는 칩 단일 성능이 아니라 칩과 칩 사이의 네트워크 연결 기술이 본질이다.

📢 섹션 요약 비유: GPU가 한 번에 엄청난 짐을 싣고 가는 덤프트럭이라면, LPU는 작은 짐을 빛의 속도로 나르는 오토바이 퀵서비스 수백 대를 동시에 출발시키는 기술이다.

Ⅳ. 실무 적용 및 기술사 판단

실무 적용 시나리오: 'AI 동시통역기'나 '음성 대화형 에이전트' 서비스에 혁명적이다. 음성 인식 $\rightarrow$ LLM 답변 생성 $\rightarrow$ 음성 합성(TTS)으로 이어지는 파이프라인에서, LLM의 텍스트 생성이 1초 이상 지연되면 사람은 AI와 대화하는 것을 몹시 답답해한다. LPU를 도입하면 사람이 말을 끝내자마자 0.1초 만에 텍스트가 주르륵 생성되어, 지연 없는 완벽한 티키타카가 가능해진다.

기술사 판단 포인트 (Trade-off): LPU를 엔터프라이즈 추론 인프라로 도입할 때는 **'모델 크기 대비 칩 묶음 비용'**을 냉정하게 계산해야 한다.

Llama-3 70B 같은 거대 모델을 올리려면 LPU 랙(Rack) 장비가 통째로 필요하므로 인프라 구축 비용이 GPU보다 비싸질 수 있다.
따라서 모든 서비스에 LPU를 쓰는 것은 낭비이며, '질문 요약' 같은 비동기 배치 작업은 기존 GPU(또는 값싼 NPU) 서버에 할당하고, 사용자와 실시간으로 상호작용하는 프런트엔드 챗봇 엔진만 LPU 노드로 라우팅하는 하이브리드 인퍼런스 아키텍처를 설계해야 한다.

📢 섹션 요약 비유: 이메일 답장(배치 작업)은 굳이 KTX(LPU)를 태울 필요 없이 무궁화호(GPU)를 태워도 되지만, 응급 수술용 혈액(실시간 음성 대화)은 무조건 비용을 들여서라도 KTX에 태워야 한다.

Ⅴ. 기대효과 및 결론

LPU의 등장은 엔비디아(NVIDIA)가 천하통일한 AI 하드웨어 시장에 "학습용 칩과 추론용 칩은 완전히 달라야 한다"는 날카로운 화두를 던졌다. 모델을 배포한 후 수억 명의 사용자가 쿼리를 던질 때 발생하는 극악의 토큰 생성 지연과 전기료를 해결할 구원투수로 평가받는다.

결론적으로 LPU는 폰 노이만 아키텍처의 고질병인 '메모리 병목(Memory Wall)'을 하드웨어 캐시를 버리고 소프트웨어 컴파일러의 힘으로 뚫어낸 아키텍처의 승리다. 미래의 데이터센터는 거대한 GPU 학습 팜(Training Farm)과 극도로 지연시간이 짧은 LPU 추론 팜(Inference Farm)으로 양극화될 것이며, 기술사는 이 두 이기종 클러스터를 오케스트레이션하는 설계 능력을 갖추어야 한다.

📢 섹션 요약 비유: LPU는 대학에서 수십 년간 공부(GPU 학습)를 마친 천재가, 마침내 현장에 투입되어 실전 질문들을 1초 만에 쳐내는(LPU 추론) 콜센터 에이스로 변신하는 과정이다.

📌 관련 개념 맵

상위 개념: AI 반도체 (AI Accelerator), 컴퓨터 아키텍처
하위 개념: On-chip SRAM, Deterministic Execution, 토큰 생성 (Token Generation)
연결 개념: GPU, HBM (High Bandwidth Memory), AI 컴파일러, LLM 추론 최적화 (Inference)

👶 어린이를 위한 3줄 비유 설명

보통 컴퓨터(GPU)는 글을 쓸 때마다 저 멀리 있는 창고(HBM)에서 단어 사전을 가져와야 해서 답변이 느렸어요.
LPU는 창고를 아예 없애버리고, 로봇의 손바닥(SRAM) 위에 세상 모든 단어 사전을 펼쳐놓고 타자를 치는 기술이에요.
덕분에 창고에 갈 시간이 필요 없어서, 질문을 던지자마자 1초 만에 책 한 페이지 분량의 글을 타다다닥 써낸답니다!