주제 : 어떤 조직의 SLO가 다음과 같습니다. "GET 호출의 99%는 10ms 이내에 수행되어야 한다" 그렇다면, 이러한 SLO를 달성하려면 어떤 메트릭을 수집하고 어떻게 계산해야 할까요? (척도는 표준화..
"GET 호출의 99%가 10ms 내에 이루어져야 합니다"라는 SLO를 달성하려면 GET 요청의 지연 시간과 관련된 특정 메트릭을 수집하고 적절한 값을 계산해야 합니다.
다음은 고려해야 할 몇 가지 메트릭과 표준화된 범용 메트릭을 사용하여 계산하는 방법입니다
응답 시간:
Metric: 각 GET 요청의 응답 시간입니다.
계산: 각 GET 요청에 소요된 시간을 기록하고 응답 시간을 계산합니다.
지연 시간 분포:
Metric: GET 호출에 대한 지연 시간 값의 분포입니다.
Calculation: 각 GET 호출에 대한 응답 시간을 수집하고 백분위수를 사용하여 분포를 분석합니다.
99번째 백분위수 응답 시간:
Metric: 99번째 백분위수에서의 응답 시간입니다.
Calculation: 응답 시간을 오름차순으로 정렬하고 99번째 백분위수를 나타내는 값을 찾습니다.
오류율:
Metric: 오류가 발생하는 GET 호출의 백분율입니다.
Calculation: 오류를 반환하는 GET 호출 수를 추적하고 총 호출에 대한 오류 호출 비율을 계산합니다.
결론 :
"GET 호출의 99%가 10ms 이내에 이루어져야 합니다"라는 SLO를 달성하려면 이러한 메트릭을 정기적으로 모니터링하고 분석해야 합니다. SLO를 평가하는 데 사용할 수 있는 방법은 다음과 같습니다:
각 GET 호출의 응답 시간을 추적하고 99번째 백분위수 응답 시간을 계산합니다. 99번째 백분위수 응답 시간이 지속적으로 10ms 미만이면 GET 호출의 99%가 SLO를 충족하고 있음을 나타냅니다.
대기 시간 분포를 분석하여 응답 시간의 특이결과값 또는 스파이크를 식별합니다. 대부분의 GET 호출가 허용 가능한 범위 내에 있고 목표 지연 시간보다 크게 높지 않은지 확인합니다.
오류율을 모니터링하고 허용 임계값 내에 있는지 확인합니다. 오류율이 너무 높으면 전체 성능과 SLO 준수에 영향을 미칠 수 있습니다.
이러한 메트릭을 정기적으로 모니터링하고 시스템 또는 인프라 최적화와 같은 적절한 조치를 취함으로써 GET 요청의 99% SLO를 10ms 내에 달성하기 위해 노력할 수 있습니다. 또한 경고 또는 알림을 설정하여 발생할 수 있는 문제를 사전에 해결하고 SLO에 영향을 줄 수 있습니다.
주제 : 모니터링 시스템에는 메트릭 수집을 위한 두 가지 방식의 메커니즘이 존재합니다. 바로 Pull 방식과 Push 방식입니다. 프로메테우스는 어떤 방식의 메커니즘을 사용하나요? 또한 Pull 방식.. (0) | 2023.06.05 |
---|---|
k8s의 배포전략 및 서비스의 목적,동작 (0) | 2023.05.18 |
주제 20, 21 ) 아키텍처를 구성하는 요소들 (0) | 2023.04.07 |
주제 18,19 ) OSI 7계층과 TCP/IP 4계층 (0) | 2023.04.06 |
[주제 16,17] 데이터베이스 기초 (0) | 2023.03.29 |