SRE

⚙️ SRE (Site Reliability Engineering)

SRE는 구글에서 시작된 역할이자 문화로, 소프트웨어 엔지니어링의 원칙과 자동화 기술을 인프라 및 운영 문제에 적용하여, 확장 가능하고 신뢰성 높은 대규모 시스템을 구축하고 운영하는 것을 목표로 합니다. 전통적인 운영팀이 수작업으로 처리하던 일들을, 소프트웨어를 작성하여 자동화하고 해결하는 방식입니다.

"SRE는 소프트웨어 엔지니어가 운영팀의 역할을 맡는 것이다" - 벤 트레이너 슬로스 (구글 SRE 창시자)

🤔 SRE는 무엇을 하는가?

SRE는 단순히 시스템을 안정적으로 유지하는 것을 넘어, 서비스의 신뢰성을 측정하고, 개발 속도와 안정성 사이의 균형을 맞추는 데이터 기반의 접근 방식을 취합니다.

서비스 수준 목표 (SLO, Service Level Objective) : 서비스가 달성해야 할 신뢰성의 구체적인 목표를 정량적으로 정의합니다. (예: 월 가용성 99.95%)
에러 버짓 (Error Budget) : 100% 완벽한 서비스는 없다는 것을 인정하고, SLO를 기준으로 허용 가능한 장애 시간을 '예산'처럼 정의합니다. 개발팀은 이 에러 버짓이 남아있는 동안에는 새로운 기능을 빠르게 배포할 수 있지만, 에러 버짓을 모두 소진하면 새로운 배포를 중단하고 안정성 확보에 집중해야 합니다.
반복적인 업무(Toil) 제거 : 수작업으로 반복되는 운영 업무를 자동화하여, 엔지니어들이 더 중요한 장기적인 개선 작업에 시간을 쓸 수 있도록 합니다.
장애 사후 분석 (Post-mortem) : 장애가 발생했을 때, 특정 개인을 비난하는 것이 아니라(Blameless Post-mortem), 원인을 철저히 분석하고 재발 방지 대책을 마련하는 데 집중합니다.

🆚 DevOps와의 관계

DevOps와 SRE는 매우 유사한 목표(개발과 운영의 협력, 속도와 안정성)를 공유하며, 서로를 보완하는 관계입니다.

DevOps는 '무엇을' 해야 하는지에 대한 철학에 가깝다면, SRE는 그 철학을 '어떻게' 구현할 것인지에 대한 구체적인 방법론과 실천 방안을 제시합니다.
SRE는 DevOps의 성공적인 구현 사례 중 하나로 볼 수 있습니다.

💡 기술사 핵심 Point

SRE의 핵심은 데이터와 자동화를 통해 서비스 신뢰성을 관리하는 것입니다.
SLO와 에러 버짓은 개발 속도와 안정성이라는 상충될 수 있는 두 목표 사이의 균형을 맞추는 데이터 기반의 객관적인 기준을 제공합니다.
SRE는 시스템의 신뢰성을 높이기 위한 모든 활동, 즉 모니터링, 로깅, 배포 자동화, 장애 대응 훈련 등을 포괄하는 역할입니다.
성공적인 SRE 문화를 위해서는, 장애를 개인의 실수가 아닌 시스템의 문제로 보고, 이를 통해 배우고 개선하려는 비난 없는(Blameless) 조직 문화가 필수적입니다.

익명 사용자

검색

SRE

이름공간

더 보기

문서 행위

목차

⚙️ SRE (Site Reliability Engineering)

🤔 SRE는 무엇을 하는가?

🆚 DevOps와의 관계

💡 기술사 핵심 Point

둘러보기

둘러보기

위키 도구

위키 도구

익명 사용자

검색

SRE

⚙️ SRE (Site Reliability Engineering)

🤔 SRE는 무엇을 하는가?

🆚 DevOps와의 관계

💡 기술사 핵심 Point

둘러보기

위키 도구

문서 도구