437. 확률적 경사 하강법 (SGD)과 미니배치 (Mini-batch)

핵심 인사이트 (3줄 요약)

본질: 경사 하강법(Gradient Descent)은 데이터를 보고 오차를 줄이는 방향으로 걸어가는 것인데, 데이터 100만 개를 한 번에 다 보고 한 걸음 걷는 것(Batch)은 너무 무겁고, 데이터 1개만 보고 한 걸음 걷는 것(SGD)은 너무 지그재그로 흔들려서 길을 잃는다.

가치: 이 둘의 장점만 섞어서, 데이터를 32개나 64개씩 '적당한 바구니(Mini-batch)'로 묶어서 그 바구니의 평균 오차 방향으로 한 걸음씩 걷게 만든 것이 현대 딥러닝 최적화의 절대 표준인 미니배치 SGD다.

판단 포인트: 미니배치 사이즈를 너무 작게 주면 학습 시간이 무한대로 길어지고, 너무 크게 주면 VRAM(GPU 메모리)이 터져버리거나 모델이 좁은 웅덩이(Sharp Minima)에 갇혀 과적합되므로, 하드웨어 스펙이 허락하는 한도 내에서 최적의 Batch Size를 찾아야 한다.

Ⅰ. 개요 및 필요성

인공지능이 산꼭대기에서 가장 깊은 골짜기(오차가 0인 정답)를 찾아 내려가려 한다. "내가 서 있는 곳에서 어느 쪽이 내리막길이지?" 이걸 알아내려면 내가 가진 과거 데이터(예: 100만 명의 성적표)를 다 읽어보고 평균 기울기를 계산해야 한다(배치 경사 하강법, BGD). 그런데 100만 장을 다 읽어야 비로소 한 발짝을 뗄 수 있다면, 산을 다 내려가기 전에 늙어 죽을 것이다.

"그럼 그냥 학생 1명의 성적표만 보고 대충 기울기를 잡아서 빨리 걷자!"(확률적 경사 하강법, SGD). 속도는 미친 듯이 빨라졌지만, 1명의 성적표가 잘못된 노이즈 데이터라면 엉뚱한 방향으로 산을 올라가 버린다. 엄청나게 비틀거리며 걷게 된다. "100만 장은 너무 무겁고, 1장은 너무 불안하니까, 대충 64장씩만 뽑아서 보고 걸어가면 안 될까?" 이 완벽한 타협점이 바로 미니배치(Mini-batch) SGD다.

📢 섹션 요약 비유: 100만 명의 의견을 다 듣고 결정하면(BGD) 완벽하지만 평생 회의만 해야 하고, 1명의 말만 듣고 결정하면(SGD) 사기꾼한테 속을 수 있다. 64명의 대표 위원회(Mini-batch)를 꾸려서 다수결로 결정하는 게 민주주의에서 가장 빠르고 안전한 룰이다.

Ⅱ. 아키텍처 및 핵심 원리

미니배치 SGD는 훈련 데이터셋(Dataset)을 작은 조각들로 쪼개고 GPU로 병렬 처리하는 파이프라인이다.

┌────────────────────────────────────────────────────────┐
│             [ 미니배치 SGD의 에포크(Epoch) 학습 파이프라인 ]    │
├────────────────────────────────────────────────────────┤
│ 1. 하이퍼파라미터 세팅                                    │
│    - 전체 데이터 수: 1,000개                            │
│    - 미니배치 사이즈 (Batch Size): 100개                │
│                                                        │
│ 2. 이터레이션 (Iteration) 진행                          │
│    - 100개를 GPU에 올림 -> 오차(Loss) 계산 -> 가중치 1번 업데이트│
│    - 이 짓을 10번(Iteration) 반복하면 1,000개를 다 보게 됨!    │
│                                                        │
│ 3. 에포크 (Epoch) 완성                                  │
│    - 1,000개를 한 바퀴 다 봤다! = "1 Epoch 끝!"            │
│    - 이제 데이터 순서를 마구 섞은(Shuffle) 뒤, 다시 2단계로 감  │
└────────────────────────────────────────────────────────┘

지그재그 탐색의 장점 (Exploration): 미니배치는 100만 장 전체 평균이 아니라 64장의 임시 평균이므로 걷는 방향이 조금 삐뚤빼뚤하다(Stochastic). 하지만 이 삐뚤거림이 오히려 얕은 웅덩이(Local Minima)에 갇혔을 때 "어이쿠"하고 웅덩이를 튕겨 나가는 탈출구 역할을 해준다. (노이즈의 축복)
GPU 병렬 처리: 컴퓨터 메모리(RAM)는 행렬 연산을 할 때 데이터 1개를 넣든 64개를 넣든 동시에(병렬로) 곱해버리기 때문에 걸리는 시간이 똑같다. 따라서 GPU의 메모리가 꽉 차기 직전까지 텐서(배치 사이즈)를 빵빵하게 밀어 넣는 것이 하드웨어 공학의 정석이다. 보통 컴퓨터 이진법에 맞춰 32, 64, 128, 256을 쓴다.

📢 섹션 요약 비유: 트럭(GPU)에 벽돌(데이터)을 실어 나른다. 1개씩 실어 나르나(순수 SGD) 64개를 한 번에 실어 나르나(미니배치) 트럭이 한 번 왕복하는 시간은 똑같다. 트럭 적재함이 버티는 한도 내에서 최대한 많은 벽돌을 실어 나르는 게 최고의 가성비다.

Ⅲ. 비교 및 연결

경사 하강법의 3가지 업데이트 전략을 비교해 본다.

비교 항목	배치 경사 하강법 (BGD)	미니배치 SGD (Mini-batch)	확률적 경사 하강법 (순수 SGD)
업데이트 기준	전체 데이터 100%	전체 데이터의 일부 (예: 64개)	데이터 단 1개
업데이트 속도	숨넘어가게 느림	빠름 (GPU 병렬 처리)	엄청나게 빠름
수렴 안정성	매끄럽게 정답을 찾아 내려감	조금 지그재그지만 잘 찾아감	심하게 흔들리며 정답 근처에서 배회함
메모리(RAM) 요구량	메모리 펑 터짐 (OOM)	조절 가능 (메모리에 맞춰 튜닝)	거의 안 듦

우리가 딥러닝에서 "SGD 옵티마이저를 쓴다"라고 말할 때, 그것은 순수하게 1개씩 넣는 게 아니라 99.9% 미니배치 SGD를 의미하는 업계의 관용어다.

📢 섹션 요약 비유: 산을 내려갈 때 BGD는 "전 세계 지도를 다 외운 다음" 1걸음 걷는 거고, 순수 SGD는 "눈앞의 돌멩이 하나"만 보고 1걸음 걷는 거다. 미니배치는 "주변 10미터 반경"을 쓱 둘러보고 1걸음 걷는, 인간이 할 수 있는 가장 상식적이고 합리적인 하산법이다.

Ⅳ. 실무 적용 및 기술사 판단

실무 적용 시나리오: 자율주행 영상 인식 모델을 파이토치로 학습시킨다. 처음에 Batch Size를 1024로 잡았다. 속도는 엄청 빠른데, 다 학습하고 나니 모델이 안 본 테스트 데이터(Test Set)를 전혀 맞추지 못하는 일반화 오류(Overfitting)에 빠졌다. 데이터 과학자가 Batch Size를 64로 대폭 낮추고 다시 돌린다. 모델이 조금 지그재그로 헤매며 천천히 학습하더니, 얕고 좁은 정답(Sharp Minima)에 갇히지 않고 가장 넓고 평평한 진짜 정답(Flat Minima)을 스스로 찾아내어, 실전 테스트에서도 기가 막힌 일반화(Generalization) 성능을 뿜어낸다.

기술사 판단 포인트 (Trade-off): 딥러닝 아키텍처 설계 시 기술사는 **'배치 사이즈(Batch Size)'와 '학습률(Learning Rate)'**의 짝꿍 딜레마를 제어해야 한다.

배치가 클 때: 걷는 방향이 매우 정확하다. 따라서 한 걸음을 큼직하게 내디뎌도 안전하다(Learning Rate 증가). 단, 큰 배치는 좁은 웅덩이(Local Minima)에 확 빠져버릴 위험이 있다.
배치가 작을 때: 걷는 방향이 삐뚤빼뚤하다(노이즈 심함). 이때 런닝 머신 속도(학습률)까지 높여버리면 차가 아예 산 밖으로 날아가 버린다. 반드시 Learning Rate를 줄여서 종종걸음으로 걷게 해야 한다.
기술사는 "배치 사이즈를 2배로 늘렸다면, 학습률도 2배로(또는 $\sqrt{2}$배로) 늘려라"는 선형 확장 룰(Linear Scaling Rule)을 파이프라인에 반드시 하드코딩해야 한다.

📢 섹션 요약 비유: 큰 배치는 고속도로를 달리는 거라 액셀을 세게 밟아도(높은 학습률) 안전하다. 작은 배치는 흙길 오프로드를 달리는 거라 액셀을 세게 밟으면 차가 절벽으로 튀어버리므로 반드시 속도(낮은 학습률)를 줄이고 종종걸음으로 운전해야 한다.

Ⅴ. 기대효과 및 결론

미니배치 SGD는 메모리의 물리적 한계(VRAM)와 최적화의 수학적 한계(Local Minima)를 동시에 박살 낸 딥러닝 세계의 가장 위대한 타협안이다. '부분을 묶어서 전체를 흉내 낸다'는 통계학의 샘플링 철학이 컴퓨터의 하드웨어 스펙과 가장 예쁘게 맞아떨어진 결과물이다.

결론적으로 딥러닝 프레임워크의 코드를 짤 때 DataLoader의 batch_size 숫자 하나를 바꾸는 것은 단순한 용량 조절이 아니다. 모델의 뇌세포가 얼마나 많은 노이즈(불확실성)를 허용할 것인지, 그리고 얼마나 평평하고 일반화된 정답(Flat Minima)을 찾아가게 할 것인지를 결정하는 거대한 조향 장치(Steering Wheel)다. 기술사는 무작정 배치를 키워 연산 속도만 자랑하는 초보 티를 벗고, 미니배치 노이즈가 가져다주는 일반화의 축복을 컨트롤해야 한다.

📢 섹션 요약 비유: 1,000만 원을 주식에 투자할 때, 한 종목에 다 몰빵(BGD)하면 위험하고 1원씩 1,000만 번 나눠 사면(SGD) 수수료가 더 든다. 미니배치는 가장 안전한 ETF 펀드를 구성해 분할 매수하는 완벽한 투자 포트폴리오다.

📌 관련 개념 맵

상위 개념: 최적화 (Optimization), 오차 역전파 (Backpropagation)
하위 개념: 에포크 (Epoch), 이터레이션 (Iteration), 배치 사이즈 (Batch Size)
연결 개념: Adam 옵티마이저, 학습률 (Learning Rate), Flat Minima, 과적합 (Overfitting)

👶 어린이를 위한 3줄 비유 설명

거대한 산을 내려갈 때, "산 전체 지도를 다 확인하고 1걸음 걷기"를 하면 너무 느려서 해가 져버려요.
그렇다고 "코앞의 돌멩이 1개만 보고 걷기"를 하면 절벽으로 떨어지거나 웅덩이에 빠지기 쉽죠.
미니배치 SGD는 "딱 내 주변 10미터의 땅 모양만 살펴보고 1걸음씩 걷자"고 합의한 거예요. 살짝 비틀거리긴 해도 가장 빠르고 무사하게 산속 보물을 찾아내는 최고의 하산법이랍니다!