74. 대수의 법칙 (Law of Large Numbers)과 중심 극한 정리의 연계

⚠️ 이 문서는 동전을 10번 던졌을 때 앞면이 8번 나오는 기막힌 뽀록(우연)을 보고 "이 동전은 앞면 확률이 80%인 조작 동전이야!"라고 우기는 통계적 무지함을 깨부수기 위해, **"동전을 10번이 아니라 1만 번, 1억 번 미친 듯이 무한 반복해서 던지면(시행 횟수 n이 무한대로 커지면), 그 우연한 뽀록들은 모두 깎여나가고 결국 표본의 평균은 '원래 그 우주가 가지고 있던 진짜 진실(모평균 50%)'에 100% 찰떡같이 수렴(Convergence)하게 된다"는 확률과 통계의 가장 거대하고 아름다운 진리인 '대수의 법칙(LLN)'**을 다룹니다.

핵심 인사이트 (3줄 요약)

  1. 본질: "많이 할수록 진실에 다가간다." 적게 조사하면 오차(노이즈)에 휩쓸려 쓰레기 결론을 얻지만, 샘플 크기(n)를 엄청나게 키우면 오차는 0으로 수렴하고 우리가 찾던 모집단의 진짜 평균값(기대값)에 완벽히 달라붙게 된다.
  2. 가치: 카지노(도박장)와 보험회사가 절대 망하지 않고 영원히 돈을 쓸어 담는 수학적 근거다. 손님이 10번 게임해서 잭팟을 터뜨려 돈을 따갈 수는 있지만(소수의 뽀록), 1년 동안 100만 명의 손님이 게임을 하면 그 확률은 무조건 수학적 기대치(카지노가 51% 이기는 확률)로 수렴하기 때문에 카지노는 100% 떼돈을 번다.
  3. 기술 체계: 어제 배운 '중심 극한 정리(CLT)'가 표본이 30개 넘어가면 "모양이 '종 모양(정규분포)'으로 예뻐진다"는 뼈대라면, **'대수의 법칙(LLN)'**은 "표본이 수만 개로 커지면 그 종 모양이 한없이 얇고 날카로운 바늘처럼 변해서 오차가 사라지고 '진짜 평균 숫자 1개'에 완벽히 꽂힌다"는 확신의 철학이다.

Ⅰ. 작은 숫자의 법칙(Law of Small Numbers): 인간의 멍청한 직관

내가 로또 당첨자를 3명이나 아니까, 나도 로또에 당첨될 거야.

  1. 오류와 편향의 온상:
    • 윷놀이에서 윷을 5번 던졌는데 윷이 3번, 모가 2번 나왔다.
    • 멍청한 도박꾼(작은 표본)은 "아! 이 윷은 던지면 무조건 윷이나 모만 나오는 마법의 윷이구나!"라고 착각하고 전 재산을 건다. 이것을 행동경제학에서 '작은 숫자의 법칙(오류)'이라고 부른다. 데이터 5개(n=5)만 보고 우주의 진리를 다 깨우친 척하는 오만함이다.
  2. 분산(노이즈)의 폭발:
    • 표본(n)이 작으면, 우연히 발생한 돌연변이(Outlier) 1개의 파워가 너무 세서 전체 평균을 미친 듯이 오염시킨다.
    • 10명 조사했는데 워렌 버핏 1명 끼어있으면 대한민국 평균 월급이 100억으로 나오는 쓰레기 통계가 그 증거다.
  3. 대수의 법칙 (LLN)의 등판:
    • 통계학 판사가 망치를 두드린다. "윷을 5번 던지지 말고, 100만 번 던져라. 그러면 윷이나 모가 나올 확률은 결국 수학적 진짜 확률인 '걸(가장 많이 나옴)' 밑으로 쪼그라들고, 완벽하게 통계적 기대치에 수렴(Convergence)할 것이다!"

📢 섹션 요약 비유: 작은 숫자의 법칙은, 장마철에 비가 3일 연속 왔다고 "아, 지구의 기후가 바뀌어서 1년 365일 내내 비만 오게 되었구나"라고 호들갑을 떨며 전 재산으로 우산을 사재기하는 바보짓입니다. 대수의 법칙은 "기다려봐. 1년, 10년, 100년 치 날씨 데이터를 다 모아(표본 n을 무한대로 키움) 평균을 내보면, 결국 지구의 원래 1년 평균 강수량(진짜 평균)은 매년 완벽하게 똑같은 수준으로 유지되고 있다(수렴)는 절대 불변의 진리를 보여주는 현자의 지혜입니다.


Ⅱ. 카지노의 절대 승리: 왜 도박꾼은 파산하는가?

운(Luck)은 단기전에서는 통하지만, 장기전에서는 수학(Math)에 처참히 박살 난다.

  1. 기대값(Expected Value)의 함정:
    • 룰렛 게임이 있다. 빨간색에 걸면 2배를 주고, 까만색에 걸면 돈을 잃는다.
    • 그런데 카지노는 룰렛 판에 '녹색 0(제로)'이라는 꽝 칸을 2개 만들어 두었다. 손님이 이길 확률은 50%가 아니라 47.3%다.
    • 카지노가 이길 확률은 52.7%다. (손님의 기대값은 10,000원 걸 때마다 -520원이다.)
  2. 대수의 법칙이 만드는 무한의 빨대:
    • 도박꾼 A가 들어와 룰렛을 10번 돌렸다(n=10). 운 좋게 빨간색이 8번 나와서 천만 원을 따갔다. 카지노 지배인은 콧방귀도 안 뀐다.
    • 왜? 오늘 하루 동안 카지노에 1만 명의 도박꾼이 들어와 룰렛을 100만 번(n=1,000,000) 돌릴 것이기 때문이다.
    • 대수의 법칙이 발동한다. 100만 번이 굴러가면, 우연한 뽀록들은 다 상쇄되고, 결국 빨간색이 나올 확률은 기가 막히게 수학적 진실인 **47.3%**에 소름 돋게 찰떡으로 수렴해 버린다.
  3. 카지노의 수학적 착취:
    • 100만 번의 게임이 끝나는 순간, 손님들의 돈통에는 정확히 전체 돈의 47.3%만 남아있고, 카지노 금고에는 정확히 52.7%의 돈이 쓸려 들어온다.
    • 카지노는 '운'으로 장사하는 게 아니다. 횟수(n)를 무한대로 늘려 대수의 법칙을 발동시켜서 '수학적 팩트(기대값)'로 돈을 뜯어내는 세상에서 가장 안전하고 거대한 수학 팩토리다.

📢 섹션 요약 비유: 동네 양아치(도박꾼)가 복싱장에 와서 챔피언(카지노)에게 덤빕니다. 양아치가 붕붕 펀치를 5번 휘둘러(적은 표본) 우연히 챔피언의 턱을 1대 맞춰 다운시킬 순 있습니다(단기적 운빨 승리). 하지만 챔피언은 절대 화내지 않습니다. "우리 딱 1,000라운드(무한대의 표본 n)만 스파링해보자"고 제안합니다. 1,000라운드를 뛰다 보면 양아치의 뽀록 펀치 확률은 0%에 수렴해 버리고, 챔피언의 정교한 복싱 실력(기대값 52.7%)만이 누적되어 결국 1,000라운드 째에 양아치는 피떡이 되어 쓰러져 전 재산을 챔피언에게 바치게 되는 잔인한 수학의 체력전입니다.


Ⅲ. 중심 극한 정리(CLT)와의 쌍두마차 체제

모양은 CLT가 둥글게 잡아주고, 바늘구멍 같은 정밀함은 LLN이 꽂아 넣는다.

  1. 형제 법칙의 환상적 조화:
    • 데이터 분석 면접에서 "대수의 법칙과 중심 극한 정리가 뭐가 다른가요?"라는 단골 질문이 나온다.
    • 중심 극한 정리 (CLT): 표본을 30개만 모아서 계속 찍어보면 "그래프가 예쁜 종 모양(정규분포)으로 그려진다(Shape, 형태의 마법)."
    • 대수의 법칙 (LLN): 표본 30개를 넘어 10만 개, 100만 개로 덩치를 무한히 키우면 그 종 모양의 가운데 꼭대기 점이 "진짜 우주의 평균(모평균)이라는 숫자 딱 하나(Single Value)에 완벽하게 꽂혀서 오차가 0이 된다(수렴의 마법)."
  2. 빅데이터(Big Data)가 위대한 진짜 이유:
    • 왜 기업들이 쓸데없어 보이는 고객의 클릭 로그를 수십억 건씩 하둡(Hadoop) 창고에 긁어모을까?
    • 데이터가 100건일 땐 고객이 우리 옷을 좋아하는지 운빨(오차)이 섞여서 알 수 없다. 하지만 데이터가 10억 건(대수의 법칙 발동)이 되면, 모든 우연과 거짓말은 수학적으로 완전히 깎여나가고, 오직 "이 고객은 빨간 원피스를 72.3% 확률로 무조건 산다"는 신(God)의 영역에 가까운 날카롭고 100% 확실한 진리(True Mean) 하나만이 빛나며 튀어나오기 때문이다. 현대 AI 혁명의 근본적인 수학 엔진이 바로 대수의 법칙이다.

📢 섹션 요약 비유: 깜깜한 밤바다에서 레이더로 적의 잠수함을 찾습니다. **중심 극한 정리(CLT)**는 "적 잠수함이 대충 저 둥그런 반경 1km 원(종 모양 분포) 안에 무조건 있습니다!"라고 수색 범위를 예쁘게 좁혀주는 고마운 기술입니다. 하지만 폭탄을 쏘기엔 아직 원이 너무 넓습니다. 이때 **대수의 법칙(LLN)**이 출동하여 레이더 전파를 1억 번 쏴댑니다(표본의 무한대 증가). 그러면 1km짜리 둥그런 원이 점점 작아지더니 마침내 1mm짜리 바늘구멍 붉은 점 하나로 소름 돋게 수렴(Convergence)하여 꽂힙니다. 그곳에 미사일을 날리면 정확히 잠수함의 정수리(모평균)를 폭파시키는, 빅데이터가 완성한 극강의 타겟팅 콤비입니다.