728x90

    개발자가 셀프 서비스로 운영을 하려면 그 플랫폼이 자동화되어 있어야 한다. 

    애플리케이션을  빌드하고 유연하게 배포하고, 이를 모니터링할 수 있는 플랫폼이 필요한데,  SRE의 역할은 이러한 플랫폼을 개발하고,

    이 플랫폼 위에서 개발자들이 스스로 배포,운영을 하는 것이 목표이다.

    물론 완벽한 셀프 서비스는 불가능하다. 여전히 큰 장애 처리나 배포등은 SRE 엔지니어가 관여하지만 많은 부분을 개발팀이 스스로 할 수 있도록 점점 그 비중을 줄여 나간다.

     

    # SRE 엔지니어가 하는 일

    1. Metric & Monitoring : 모니터링 지표 정의 및 모니터링 시스템 구축

    2. Capacity Planning : 용량 계획

    3. Change Management : 변경 관리 

    4. Emergency Response : 장애를 빨리 복구하는 시간

    5. Culture : 장애시 서로 욕하지 않고 책임을 나눠 가지는 문화

     

    #SRE의 4가지 골든 시그널 : 특정 어플리케이션의 상태를 잘 나타낼 수 있는 지표에 맞춰서 네가지 요소를 정확하게 측정하면 애플리케이션의 상태를 합리적으로 이해 할 수 있다
    1. 지연 시간(latency) : 어떤 일을 하는데 걸리는 시간 / 요청과 요청처리 완료 간 경과 시간
    2. 트래픽(traffic) : 서비스 요청 빈도. 데이터베이스 또는 파일 서버에 대한 초당 트랜잭션 등을 모니터링 
    3. 오류(error) : HTTP 500 오류와 같이 실패한 요청
    4. 포화도(saturation) : 제한된 리소스에 대한 서비스의 소비량을 측정하는 지표. CPU,RAM,I/O등의 리소스

    'Cloud' 카테고리의 다른 글

    메시지브로커 vs 이벤트브로커  (1) 2023.01.04
    kafka overview  (0) 2021.07.05
    • 네이버 블러그 공유하기
    • 네이버 밴드에 공유하기
    • 페이스북 공유하기
    • 카카오스토리 공유하기