핵심 인사이트 (3줄 요약)
- 본질: LSTM(Long Short-Term Memory)은 Forget·Input·Output 3개의 게이트로 셀 상태(Cell State)를 제어하여 Vanilla RNN의 장기 의존성(Vanishing Gradient) 문제를 해결한 순환 신경망이며, GRU는 LSTM을 2개 게이트(Reset·Update)로 단순화한 경량 변형이다.
- 가치: RNN은 "어제 비가 왔다"는 기억하지만 "한 달 전 비가 왔다"는 잊지만, LSTM은 중요한 정보를 셀 상태에 장기 보존하여 먼 과거의 맥락도 활용한다.
- 판단 포인트: 성능은 LSTM≈GRU이나 GRU가 파라미터가 적어(학습 빠름) 소규모 데이터에 유리하며, 현재는 Transformer가 대부분 대체했으나 시계열·온디바이스에서 여전히 사용된다.
Ⅰ. 개요 및 필요성
LSTM 3 Gate:
Forget: 어떤 정보를 버릴지 (sigmoid)
Input: 어떤 정보를 저장할지 (sigmoid × tanh)
Output: 어떤 정보를 출력할지 (sigmoid)
Cell State: 정보 고속도로 (장기 기억)
GRU 2 Gate: Reset + Update (LSTM 단순화)
- 📢 섹션 요약 비유: LSTM은 포스트잇 붙은 일기장이다. 중요한 페이지에 포스트잇(Gate)을 붙여서 잊지 않는다.
Ⅱ~Ⅴ. 결론
LSTM/GRU는 시퀀스 모델링의 중요한 이정표이며, Transformer 이전의 NLP·음성·시계열 핵심 아키텍처였다.
📌 관련 개념 맵
| 개념 | 연결 포인트 |
|---|---|
| LSTM | 3 Gate + Cell State |
| GRU | 2 Gate (경량) |
| Cell State | 장기 기억 고속도로 |
| Vanishing Gradient | RNN 문제 → LSTM 해결 |
| Transformer | LSTM 대체 (병렬) |
📈 관련 키워드 및 발전 흐름도
[Vanilla RNN (1986)] → [LSTM (Hochreiter, 1997)]
→ [GRU (Cho, 2014)] → [Seq2Seq+Attention (2014)]
→ [Transformer (2017) — LSTM 대체]
→ [현재: xLSTM/Mamba — LSTM 르네상스]
👶 어린이를 위한 3줄 비유 설명
- LSTM은 포스트잇 붙은 일기장이에요. 중요한 페이지를 잊지 않아요.
- RNN은 옛날 일기를 잊지만, LSTM은 포스트잇(Gate) 덕분에 기억해요.
- GRU는 포스트잇을 2개만 쓰는 간단한 버전이에요!