๐Ÿ’ก ํ•ต์‹ฌ ์ธ์‚ฌ์ดํŠธ
SRE(์‚ฌ์ดํŠธ ์‹ ๋ขฐ์„ฑ ๊ณตํ•™)์—์„œ ์‹œ์Šคํ…œ์˜ ๊ฑด๊ฐ• ์ƒํƒœ๋ฅผ ์ธก์ •ํ•˜๊ณ  ๊ด€๋ฆฌํ•˜๋Š” ํ•ต์‹ฌ ๋ผˆ๋Œ€์ž…๋‹ˆ๋‹ค.
**SLI(์ง€ํ‘œ)**๋Š” "ํ˜„์žฌ ์šฐ๋ฆฌ ์‹œ์Šคํ…œ์˜ ๊ฒฐ์ œ ์„ฑ๊ณต๋ฅ ์ด ๋ช‡ ํผ์„ผํŠธ(%)์ธ๊ฐ€?"๋ฅผ ์žฌ๋Š” ์‹ค์ œ ์ฒด์˜จ๊ณ„ ๋ˆˆ๊ธˆ์ด๋ฉฐ, **SLO(๋ชฉํ‘œ)**๋Š” "์ด ์ฒด์˜จ์ด 99.5% ์ด์ƒ์€ ์œ ์ง€๋˜์–ด์•ผ ํ™˜์ž๊ฐ€ ์‚ด ์ˆ˜ ์žˆ๋‹ค"๋ผ๊ณ  ํŒ€ ๋‚ด๋ถ€์ ์œผ๋กœ ์ •ํ•ด๋†“์€ ๋ชฉํ‘œ ์ •์ƒ ์ฒด์˜จ์„ ์ž…๋‹ˆ๋‹ค.


โ… . SLI (Service Level Indicator, ์„œ๋น„์Šค ์ˆ˜์ค€ ์ง€ํ‘œ)

"๊ทธ๋ž˜์„œ ์šฐ๋ฆฌ ์„œ๋น„์Šค๊ฐ€ ์–ผ๋งˆ๋‚˜ ์ž˜ ๋Œ์•„๊ฐ€๊ณ  ์žˆ๋Š”๋ฐ?"๋ฅผ ๊ฐ๊ด€์ ์œผ๋กœ ๋‚˜ํƒ€๋‚ด๋Š” ํŒฉํŠธ(๋ฐ์ดํ„ฐ)์ž…๋‹ˆ๋‹ค.

  • ์ •์˜: ์„œ๋น„์Šค ์ˆ˜์ค€์˜ ํ˜„์žฌ ์ƒํƒœ๋ฅผ ์ธก์ •ํ•˜๋Š” ์ •๋Ÿ‰์ ์ธ ์ฒ™๋„์ž…๋‹ˆ๋‹ค. ์ฃผ๋กœ **(์„ฑ๊ณตํ•œ ์š”์ฒญ ์ˆ˜ / ์ „์ฒด ์š”์ฒญ ์ˆ˜) $\times 100$**์˜ ๋ฐฑ๋ถ„์œจ๋กœ ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค.
  • ์ข‹์€ SLI์˜ ์˜ˆ:
    • ๊ฐ€์šฉ์„ฑ (Availability): "์–ด์ œ ํ•˜๋ฃจ ์ข…์ผ ๋“ค์–ด์˜จ HTTP GET ์š”์ฒญ ์ค‘, 200 OK(์„ฑ๊ณต)๋ฅผ ๋ฐ˜ํ™˜ํ•œ ๋น„์œจ" (๊ฒฐ๊ณผ: 99.99%).
    • ์ง€์—ฐ ์‹œ๊ฐ„ (Latency): "DB ์กฐํšŒ ์š”์ฒญ ์ค‘, 100ms(0.1์ดˆ) ์ด๋‚ด์— ์ดˆ๊ณ ์†์œผ๋กœ ์‘๋‹ต์„ ๋งˆ์นœ ๋น„์œจ" (๊ฒฐ๊ณผ: 98%).
  • ๋‚˜์œ SLI์˜ ์˜ˆ: "์„œ๋ฒ„ CPU ์‚ฌ์šฉ๋Ÿ‰ 50%". (CPU๊ฐ€ 100%๋ฅผ ์น˜๋”๋ผ๋„ ๊ณ ๊ฐ ํ™”๋ฉด์— 1์ดˆ ๋งŒ์— ๋œฌ๋‹ค๋ฉด ๊ณ ๊ฐ ์ž…์žฅ์—์„  ํ›Œ๋ฅญํ•œ ์„œ๋น„์Šค์ž…๋‹ˆ๋‹ค. SLI๋Š” ์ฒ ์ €ํžˆ ์‚ฌ์šฉ์ž๊ฐ€ ์ฒด๊ฐํ•˜๋Š” ์ง€ํ‘œ์—ฌ์•ผ ํ•ฉ๋‹ˆ๋‹ค.)

โ…ก. SLO (Service Level Objective, ์„œ๋น„์Šค ์ˆ˜์ค€ ๋ชฉํ‘œ)

์ฒด์˜จ๊ณ„(SLI)๋ฅผ ์Ÿ€์œผ๋ฉด ์ด ์ฒด์˜จ์ด ์ •์ƒ์ธ์ง€ ๋น„์ •์ƒ์ธ์ง€ ํŒ๋‹จํ•  ํ•ฉ๊ฒฉ ๊ธฐ์ค€์„ ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

  • ์ •์˜: SLI๊ฐ€ "๋ฐ˜๋“œ์‹œ ๋„๋‹ฌํ•ด์•ผ ํ•˜๋Š” ๋ชฉํ‘œ ์ˆ˜์น˜"๋ฅผ ๋ช…์‹œํ•œ ์‚ฌ๋‚ด ๋‚ด๋ถ€ ํ•ฉ์˜์„œ์ž…๋‹ˆ๋‹ค.
  • ์˜ˆ์‹œ: "์šฐ๋ฆฌ์˜ ๊ฒฐ์ œ ์„œ๋ฒ„๋Š” ๋‹ค์Œ ๋‹ฌ๊นŒ์ง€ HTTP 200 OK ๋ฐ˜ํ™˜ ๋น„์œจ(SLI)์ด **99.9% ์ด์ƒ(SLO)**์ด ๋˜์–ด์•ผ ํ•œ๋‹ค."
  • ํŠน์ง•: ์ด SLO๋ฅผ 100%์—์„œ ๋บ€ ๋‚˜๋จธ์ง€ ๊ฐ’(0.1%)์ด ๋ฐ”๋กœ ์•ž ์žฅ์—์„œ ๋ฐฐ์šด **'์—๋Ÿฌ ์˜ˆ์‚ฐ(Error Budget)'**์ด ๋ฉ๋‹ˆ๋‹ค.

SLO ์„ค์ • ์‹œ ์ฃผ์˜์ 

  • ๋„ˆ๋ฌด ๋†’๊ฒŒ ์žก์œผ๋ฉด(์˜ˆ: 99.999%): ์—๋Ÿฌ ์˜ˆ์‚ฐ์ด 1๋‹ฌ์— 5๋ถ„๋ฐ–์— ์•ˆ ๋˜์–ด, ๊ฐœ๋ฐœํŒ€์ด ์ƒˆ๋กœ์šด ๋„์ „์„ ์ „ํ˜€ ํ•˜์ง€ ๋ชปํ•˜๊ณ  ๊ฒฝ์ง๋ฉ๋‹ˆ๋‹ค.
  • ๋„ˆ๋ฌด ๋‚ฎ๊ฒŒ ์žก์œผ๋ฉด(์˜ˆ: 95%): ๊ณ ๊ฐ๋“ค์ด ๋งจ๋‚  ์—๋Ÿฌ ์ฐฝ์„ ๋ณด๋ฉฐ ๋ถ„๋…ธํ•˜์—ฌ ๊ฒฝ์Ÿ์‚ฌ๋กœ ๋– ๋‚ฉ๋‹ˆ๋‹ค.
  • ๋”ฐ๋ผ์„œ ๋น„์ฆˆ๋‹ˆ์Šค ๋ถ€์„œ์žฅ(PO)๊ณผ SRE ํŒ€์ด ์น˜์—ดํ•˜๊ฒŒ ์‹ธ์šฐ๋ฉฐ ์ด ์ ˆ๋ฌ˜ํ•œ ๋ฐธ๋Ÿฐ์Šค๋ฅผ ์žก์•„์•ผ ํ•ฉ๋‹ˆ๋‹ค.

โ…ข. SLA (Service Level Agreement)์™€์˜ ๋ช…ํ™•ํ•œ ๋น„๊ต

SLI, SLO๊ฐ€ 'ํšŒ์‚ฌ ๋‚ด๋ถ€'์˜ ๋ชฉํ‘œ๋ผ๋ฉด, 103์žฅ์—์„œ ๋ฐฐ์šธ SLA๋Š” **'๋ฐ”๊นฅ ๊ณ ๊ฐ๊ณผ์˜ ๋ฒ•์  ๊ณ„์•ฝ'**์ž…๋‹ˆ๋‹ค.

  1. SLO (๋‚ด๋ถ€ ๋ชฉํ‘œ): "์šฐ๋ฆฐ 99.9%๋ฅผ ๋ชฉํ‘œ๋กœ ๋‹ฌ๋ฆฌ์ž!" (๋ชป ์ง€์ผœ๋„ ์šฐ๋ฆฌ๋ผ๋ฆฌ ์—๋Ÿฌ ์˜ˆ์‚ฐ ๊นŽ๊ณ  ์•ผ๊ทผํ•˜๋ฉด ๋จ).
  2. SLA (์™ธ๋ถ€ ๊ณ„์•ฝ): "๊ณ ๊ฐ๋‹˜, ์ตœ์†Œ 99.0%๋Š” ๋ฌด์กฐ๊ฑด ์ง€์ผœ๋“œ๋ฆด๊ฒŒ์š”." (๋งŒ์•ฝ 98.9%๋กœ ๋–จ์–ด์ง€๋ฉด ๊ณ ๊ฐ์—๊ฒŒ ์—„์ฒญ๋‚œ ์œ„์•ฝ๊ธˆ๊ณผ ํ™˜๋ถˆ์„ ํ•ด์ค˜์•ผ ํ•˜๋Š” ๋ฒ•์  ์ฒ˜๋ฒŒ์„ ).
  • ๋”ฐ๋ผ์„œ SLA๋Š” ๋ฌด์กฐ๊ฑด SLO๋ณด๋‹ค ๋‚ฎ๊ณ  ๋ณด์ˆ˜์ ์œผ๋กœ ์žก์•„์„œ ์ฟ ์…˜์„ ๋‘์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ“ข ์„น์…˜ ์š”์•ฝ ๋น„์œ : ๋‹ค์ด์–ดํŠธ์™€ ๊ฑด๊ฐ• ๊ฒ€์ง„์— ๋น„์œ ํ•ด ๋ด…์‹œ๋‹ค.

  • SLI (์ง€ํ‘œ): ์ฒด์ค‘๊ณ„์— ์˜ฌ๋ผ๊ฐ€์„œ ๋‚˜์˜จ ๋‚ด ์ง„์งœ ๋ชธ๋ฌด๊ฒŒ ์ˆ˜์น˜ '75kg'.
  • SLO (๋ชฉํ‘œ): ์˜์‚ฌ์™€ ๋‚ด๊ฐ€ ์˜ฌ์—ฌ๋ฆ„๊นŒ์ง€ ๋นผ๊ธฐ๋กœ ๋‹ค์งํ•œ ๋ชฉํ‘œ ์ฒด์ค‘ '70kg ์ดํ•˜' (์ด๊ฑธ ๋„˜์œผ๋ฉด ๊ตถ์–ด์•ผ ํ•จ = ์—๋Ÿฌ ์˜ˆ์‚ฐ ์†Œ์ง„).
  • SLA (๊ณ„์•ฝ): ํ—ฌ์Šค์žฅ ๊ด€์žฅ๋‹˜๊ณผ ๋งบ์€ ๋ฒ•์  ๊ณ„์•ฝ. "๋งŒ์•ฝ 80kg์„ ๋„˜์œผ๋ฉด ์ œ๊ฐ€ ๊ด€์žฅ๋‹˜๊ป˜ ๋ฒŒ๊ธˆ 100๋งŒ ์›์„ ๋‚ด๊ฒ ์Šต๋‹ˆ๋‹ค."