RPO

기술노트

🔄 RTO와 RPO란?

RTO(Recovery Time Objective)는 시스템 장애 발생 시 **복구가 완료되어야 하는 최대 시간**을 의미합니다.

RPO(Recovery Point Objective)는 장애 발생 시 **복구 가능한 데이터 손실 허용 범위**를 뜻합니다.

예시로, RTO가 2시간이라면 장애 후 2시간 이내 시스템이 복구되어야 하고, RPO가 30분이라면 최대 30분 전까지의 데이터가 보존되어야 합니다.


🧩 RTO와 RPO의 주요 개념

- RTO (복구 시간 목표)

 : 시스템 복구까지의 최대 허용 시간  
 : 예) 장애 후 2시간 내 복구

- RPO (복구 시점 목표)

 : 데이터 손실을 허용할 수 있는 최대 시간 범위  
 : 예) 최근 30분 이내 데이터까지만 손실 허용

🎯 RTO와 RPO 설정 시 고려 요소

- 업무 중요도

 : 핵심 서비스일수록 RTO와 RPO를 낮게 설정

- 데이터 민감도

 : 중요 정보일수록 RPO를 짧게 설정해 데이터 보존

- 비용과 효율의 균형

 : 복구 성능 대비 인프라 비용 고려한 전략 수립

🛠️ 장애 복구 전략

효과적인 장애 대응을 위해 다음과 같은 복구 체계를 갖추는 것이 중요합니다:

- 백업 및 복구 체계 구축

 : 주기적 백업, 자동화된 복원 프로세스 마련

- 이중화 시스템 구성 (HA)

 : 장애 발생 시 자동으로 대체 시스템 전환

- DR(Disaster Recovery) 사이트 운영

 : 지역 분산 복구 시스템 구축 (예: 클라우드 기반 DR)

- 모니터링 및 자동 알림 시스템

 : 이상 징후 감지 및 신속한 알림 제공

- 정기적 훈련과 점검

 : 비상 복구 훈련을 통해 대응 능력 강화

💡 개발자가 꼭 알아야 할 포인트

- RTO와 RPO는 장애 복구 전략의 핵심 지표입니다. - 단순 용어 암기보다 비즈니스 영향도와 연계된 이해가 필요합니다. - 클라우드, 컨테이너 환경에서도 복구 시간과 데이터 보호 기준은 여전히 유효한 기준입니다.


📚 참고 링크