티스토리 뷰

Development

SLI / SLO / SLA

KimDoubleB 2025. 1. 18. 04:35

SLI (Service Level Indicator)

서비스 수준을 측정하는 실제 지표 => "무엇을 측정할 것인가?"

Example

  • 요청 성공률: (성공한 요청 수 / 전체 요청 수) × 100%
  • 응답시간: API 응답 시간의 p95 값
  • 시스템 가용성: (전체 시간 - 장애 시간) / 전체 시간 × 100%

 


SLO (Service Level Objective)

SLI에 대한 목표치 => "어느 수준을 달성할 것인가?"

Example

  • 월간 가용성 99.95% 이상 달성
  • API 응답시간 p95가 300ms 이하
  • 분당 에러율 0.1% 미만 유지

 


SLA (Service Level Agreement)

서비스 제공자와 고객간의 공식적인 계약 => "고객에게 어떤 서비스 품질을 보장할 것인가?"

Example

  • 월간 가용성 99.9% 보장
  • 계획된 점검 시간 월 최대 4시간
  • SLA 위반 시 월 이용료의 10% 환불

 


결론

위 3개를 조합하면 다음과 같이 서비스의 현재, 목표, 계약을 살펴볼 수 있다.

 

Example

  • Example: 가용성
    • SLI: 현재 측정된 가용성 99.97%
    • SLO: 내부 목표치 99.95%
    • SLA: 고객과의 계약상 보장 99.9%
  • Example: 응답시간
    • SLI: 현재 측정된 p95 응답시간 280ms
    • SLO: 내부 목표치 300ms
    • SLA: 고객과의 계약상 보장 500ms
  • Example: 결제 서비스
    • SLI: 결제 성공률, 평균 처리 시간, p99 응답시간
    • SLO: 성공률 99.99%, p99 응답시간 1초 이내
    • SLA: 월간 가용성 99.9%, 중대 장애 시 응답시간 30분 이내
  • Example: 검색 서비스
    • SLI: 검색 응답시간, 검색 정확도, 초당 처리 요청 수
    • SLO: p95 응답시간 800ms, 검색 정확도 95%
    • SLA: 피크 시간대 초당 1000요청 처리 보장

 

 

실제로 SLI / SLO / SLA를 정할 땐, 값의 크기가 SLI > SLO > SLA와 같아야 한다.

  • SLA보다 SLI / SLO가 작으면, 계약을 안하겠다는 의미이자 서비스 규칙을 지키지 못했으니 보상하겠다는 말이 된다.
  • SLO는 목표치이자 SLA를 지키기 위한 수준이라고 볼 수 있다. SLO로 알림을 설정해서 받아보며 SLA를 지키고자 노력해야 할 수 있다.

 

모니터링 전략

  • SLI 모니터링
    • 실시간 메트릭 수집
    • 트렌드 분석
    • 이상 징후 감지
  • SLO 위반 임박 시
    • 원인 분석
    • 즉각적인 대응
    • 리소스 스케일링
  • SLA 위반 가능성 발생 시
    • 긴급 대응 체계 가동
    • 고객 커뮤니케이션
    • 임시 해결책 적용
320x100
반응형
댓글
반응형
250x250
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
글 보관함