SRE(Site Reliability Engineering)

728x90

개발자가 셀프 서비스로 운영을 하려면 그 플랫폼이 자동화되어 있어야 한다.

애플리케이션을 빌드하고 유연하게 배포하고, 이를 모니터링할 수 있는 플랫폼이 필요한데, SRE의 역할은 이러한 플랫폼을 개발하고,

이 플랫폼 위에서 개발자들이 스스로 배포,운영을 하는 것이 목표이다.

물론 완벽한 셀프 서비스는 불가능하다. 여전히 큰 장애 처리나 배포등은 SRE 엔지니어가 관여하지만 많은 부분을 개발팀이 스스로 할 수 있도록 점점 그 비중을 줄여 나간다.

# SRE 엔지니어가 하는 일

1. Metric & Monitoring : 모니터링 지표 정의 및 모니터링 시스템 구축

2. Capacity Planning : 용량 계획

3. Change Management : 변경 관리

4. Emergency Response : 장애를 빨리 복구하는 시간

5. Culture : 장애시 서로 욕하지 않고 책임을 나눠 가지는 문화

#SRE의 4가지 골든 시그널 : 특정 어플리케이션의 상태를 잘 나타낼 수 있는 지표에 맞춰서 네가지 요소를 정확하게 측정하면 애플리케이션의 상태를 합리적으로 이해 할 수 있다
1. 지연 시간(latency) : 어떤 일을 하는데 걸리는 시간 / 요청과 요청처리 완료 간 경과 시간
2. 트래픽(traffic) : 서비스 요청 빈도. 데이터베이스 또는 파일 서버에 대한 초당 트랜잭션 등을 모니터링
3. 오류(error) : HTTP 500 오류와 같이 실패한 요청
4. 포화도(saturation) : 제한된 리소스에 대한 서비스의 소비량을 측정하는 지표. CPU,RAM,I/O등의 리소스

저작자표시 (새창열림)

'Cloud' 카테고리의 다른 글

메시지브로커 vs 이벤트브로커 (1)	2023.01.04
kafka overview (0)	2021.07.05

SRE(Site Reliability Engineering)

'Cloud' 카테고리의 다른 글

전체 카테고리

전체 방문자

티스토리툴바