83. 지역 최솟값 (Local Minima) vs 전역 최솟값 (Global Minimum)

⚠️ 이 문서는 딥러닝 모델이 경사하강법을 통해 오차(손실 함수)를 줄여나가는 과정에서, 가장 깊은 진짜 바닥(전역 최솟값)을 찾지 못하고 산 중턱에 있는 얕은 웅덩이(지역 최솟값)나 평평한 지대(안장점)를 바닥으로 착각하여 학습을 영원히 멈춰버리는 치명적인 최적화 실패 현상을 다룹니다.

핵심 인사이트 (3줄 요약)

  1. 본질: 경사하강법은 "눈가리개를 하고 발끝의 내리막길만 따라 걷는" 알고리즘이다. 따라서 어느 방향으로든 오르막으로 둘러싸인 웅덩이를 만나면, 그것이 100m 깊이의 웅덩이(Local)인지 1,000m 깊이의 진짜 계곡 바닥(Global)인지 알 수 없다.
  2. 가치: 이 얕은 웅덩이에 갇히면 모델은 오차율 30%라는 형편없는 수준에서 "나 학습 끝났어 완벽해"라고 자만하게 되어 상용화가 불가능해진다. 딥러닝 학습 기술(옵티마이저 등)의 역사는 이 웅덩이 탈출의 역사다.
  3. 극복 체계: 웅덩이를 뚫고 나갈 '관성'을 부여하는 모멘텀(Momentum), 한 번에 데이터를 쪼개어 노이즈(덜컹거림)를 일으키는 미니배치 SGD, 그리고 고차원 공간에서는 생각보다 웅덩이가 적다는 최신 수학적 증명(안장점 이론)이 이 문제를 해결하고 있다.

Ⅰ. 맹목적 하산의 비극: 웅덩이의 착각

손실 함수의 지형은 완벽하게 매끄러운 밥그릇 모양이 아니다. 구불구불한 계곡에 가깝다.

  1. Global Minimum (전역 최솟값):
    • 손실(오차) 값이 도달할 수 있는 우주에서 가장 작은 지점. 인공지능이 반드시 도달해야 하는 궁극의 목표(완벽한 정답)다.
  2. Local Minima (지역 최솟값):
    • 진짜 밑바닥은 아니지만, 주변 지형보다는 움푹 파여 있어 동서남북 사방이 오르막인 지점이다.
    • 경사하강법의 한계: 경사하강법은 '미분값(기울기)이 0'인 곳을 바닥으로 인식하고 멈춘다. Local Minima 한가운데 서면 사방이 오르막이라 기울기가 0이 되므로, AI는 눈이 가려져 있어 여기가 진짜 바닥인 줄 착각하고 주저앉아 버린다.
  3. 안장점 (Saddle Point):
    • 말의 안장처럼, 앞뒤로는 오르막인데 좌우로는 내리막인 기묘한 평지지대다. 이 평평한 구간(기울기 0)에 잘못 걸리면 경사하강법은 역시 방향을 잃고 영원히 정체된다 (딥러닝 초창기의 가장 큰 공포).

📢 섹션 요약 비유: 눈을 가린 등산객이 에베레스트산 꼭대기에서 계곡 맨 밑바닥(Global)으로 내려가려 합니다. 무조건 내리막으로만 걷다가 산 중턱의 작은 옹달샘(Local)에 빠졌습니다. 주변을 더듬어보니 사방이 다 오르막이라 "아, 여기가 산의 가장 깊은 바닥이구나!"라고 착각하고 텐트를 쳐버리는 비극적인 상황입니다.


Ⅱ. 웅덩이 탈출을 위한 마법의 장비들

AI 공학자들은 웅덩이에 빠지지 않거나, 빠져도 박차고 나올 수 있는 장치를 고안했다.

  1. 모멘텀 (Momentum: 관성의 법칙):
    • 언덕을 굴러 내려오는 쇠공을 상상하자. 가파른 언덕을 내려오며 속도가 잔뜩 붙은 쇠공은 작은 웅덩이(Local Minima)를 만나면 멈추지 않고 그 관성으로 웅덩이 반대편을 치고 밖으로 튀어 나간다.
    • 옵티마이저(Adam 등)는 이전 걸음의 기울기(속도)를 기억했다가 다음 걸음에 더해주어 얕은 함정들을 그냥 스치듯 뚫고 지나가게 해준다.
  2. 미니배치 SGD의 덜컹거림 (노이즈):
    • 전체 데이터(Batch)로 정확한 길을 찾으면 지형의 함정을 그대로 직격탄으로 맞는다.
    • 일부 데이터(Mini-Batch)만 뽑아서 걸으면 방향이 삐뚤빼뚤하게 노이즈가 발생하는데, 이 불안정한 덜컹거림(Stochastic Noise) 덕분에 웅덩이에 빠지더라도 퉁! 하고 옆으로 튕겨나가 탈출할 확률이 비약적으로 높아진다.

📢 섹션 요약 비유: 자전거로 산을 내려갈 때 브레이크를 꼭 쥐고 너무 천천히 가면 작은 웅덩이에도 바퀴가 빠져 멈추지만, 엄청난 속도(관성/모멘텀)로 브레이크 없이 달려가면 어지간한 웅덩이는 점프하듯 타고 넘어버립니다. 게다가 타이어를 일부러 울퉁불퉁하게(SGD 노이즈) 만들어놔서 아무리 미끄러운 함정에서도 요동치며 빠져나올 수 있는 오프로드 세팅을 마친 것입니다.


Ⅲ. 차원의 역설: "Local Minima는 사실 환상이다?"

최신 딥러닝 연구는 우리가 잘못된 공포를 가지고 있었다고 밝혀냈다.

  1. 3차원 지형의 공포:
    • 인간은 3차원 공간밖에 상상하지 못하므로, 산악 지형을 그리며 웅덩이(Local Minima)가 엄청 많을 것이라 겁을 먹었다.
  2. 고차원 공간(수백만 차원)의 진실:
    • 딥러닝의 파라미터는 수백만~수십억 개(수십억 차원)다. 수학적으로 증명해 보니, 수억 차원의 공간에서는 어떤 지점이 "모든 차원(방향)에서 완벽하게 오르막(웅덩이)"일 확률이 번개 맞을 확률보다 적다는 것이 밝혀졌다.
    • 즉, 100만 개의 방향 중 하나라도 내리막(탈출구)이 뚫려 있으면 그곳은 웅덩이가 아니라 안장점(Saddle Point)에 불과하다.
  3. 결론 (안장점만 벗어나면 된다):
    • 딥러닝 모델이 멈추는 이유는 웅덩이에 빠져서가 아니라 평평한 안장점에서 길을 못 찾아 정체된 경우가 대부분이다. 따라서 Adam 같은 우수한 옵티마이저만 쓰면 안장점을 미끄러지듯 통과하여 진짜 바닥(Global Minimum) 근처까지 문제없이 도달할 수 있다는 것이 현대 딥러닝의 상식이다.

📢 섹션 요약 비유: 방 안에 개미를 가뒀을 때(3차원), 바닥에 작은 컵(웅덩이)을 두면 개미가 빠져나오기 힘듭니다. 하지만 문이 100만 개나 달린 초거대 다차원 우주 공간에서는 그 컵의 옆구리 어딘가는 무조건 뚫려있기 때문에 개미가 갇힐 일이 수학적으로 불가능하다는, 차원의 마법이 딥러닝을 구원한 것입니다.