💡 핵심 인사이트
토일(Toil)은 구글의 SRE(사이트 신뢰성 공학)에서 극도로 혐오하고 척결하고자 하는 대상으로, **운영자가 매일 손으로 마우스를 클릭하고 텍스트를 복사/붙여넣기 하는 '수동적이고, 반복적이며, 자동화할 수 있지만 하지 않아서 인간의 가치를 갉아먹는 단순 노가다 작업'**을 의미합니다.
SRE 엔지니어의 핵심 임무는 스크립트(코드)를 짜서 이 토일을 50% 이하로 박살 내는 것입니다.


Ⅰ. 어떤 업무가 토일(Toil)인가? (판단 기준)

모든 귀찮은 회의나 서류 작업이 토일은 아닙니다. 구글은 토일의 조건을 6가지로 명확히 규정합니다.

  1. 수동적 (Manual): 인간이 직접 키보드 명령어를 치거나 마우스로 클릭해야만 진행되는 일.
  2. 반복적 (Repetitive): 처음 한두 번 하는 게 아니라 매일, 매주 끝없이 똑같이 반복되는 일.
  3. 자동화 가능성 (Automatable): 사람의 고도의 창의력이나 판단이 필요 없어서, 파이썬이나 쉘 스크립트로 짜면 기계가 1초 만에 할 수 있는 일.
  4. 전술적 (Tactical): 전략적인 큰 그림(아키텍처 설계)이 아니라 당장 불 끄는 일시적인 일.
  5. 선형적 확장 (O(n) 증대): 회사에 서버가 10대에서 100대로 늘어나면, 이 작업에 드는 인간의 시간도 정확히 10배 비례해서 끔찍하게 늘어나는 일.
  6. 가치 창출 전무: 이 노가다를 아무리 열심히 끝내봤자 서비스 기능이 좋아지는 건 없고 그냥 어제와 똑같은 상태를 간신히 유지할 뿐인 일.

예시: 신입사원 들어올 때마다 매번 DB 접속해서 수동으로 계정 파주고 권한 넣어주기, 디스크 꽉 찼다고 알람 오면 서버 들어가서 로그 폴더 rm -rf 명령어로 지워주기.


Ⅱ. 오버헤드(Overhead)와의 차이점

"팀 주간 회의", "연말 인사 평가", "경비 영수증 처리" ➔ 이런 건 토일일까요? 아닙니다. 이것들은 사람이 꼭 해야만 하는 행정적 관리 업무로 **'오버헤드(Overhead, 간접비)'**라고 부릅니다. 이건 기계가 대신해 줄 수 없습니다. 오직 **'자동화할 수 있는데 게을러서 사람이 손으로 하고 있는 IT 기술적 노가다'**만이 진짜 토일입니다.


Ⅲ. SRE의 토일 척결 원칙 (50% 캡)

구글 SRE는 엔지니어가 평생 토일만 하다가 지쳐서 퇴사하는(번아웃) 것을 막기 위해 강력한 룰을 만들었습니다.

"SRE 엔지니어의 전체 업무 시간 중, 토일(노가다 운영)에 쓰는 시간은 절대 50%를 넘어선 안 된다."

만약 이번 주에 50%의 시간을 서버 재부팅하고 계정 파주는 토일에 썼다면, 나머지 50%의 시간은 무조건 파이썬, 테라폼, 젠킨스를 열고 "이 멍청한 반복 작업을 로봇이 알아서 하도록 자동화 코드를 짜는 고부가가치 엔지니어링 작업(Engineering Work)"에 투자해야 합니다. 그 결과 다음 달에는 토일 시간이 30%로 줄어들게 만들어 시스템의 신뢰성과 생산성을 스스로 끌어올리는 것이 진정한 SRE의 철학입니다.

📢 섹션 요약 비유: 토일(Toil)은 마당에 물이 고일 때마다 **'양동이로 직접 물을 퍼서 버리는 바보 같은 반복 노동'**입니다. 비가 더 오면 퍼내는 시간(선형적 증가)도 더 늘어납니다. SRE 엔지니어는 물 퍼내는 시간을 50%로 제한하고, 남은 시간에 **'자동 배수 펌프(스크립트 자동화)'**를 설계하고 설치하여, 내일부턴 인간이 양동이를 들지 않아도 기계가 알아서 물을 빼게 만드는 똑똑한 설계자입니다.