RTO
기술노트
🔄 RTO와 RPO란?
RTO(Recovery Time Objective)는 시스템 장애 발생 시 **복구가 완료되어야 하는 최대 시간**을 의미합니다.
RPO(Recovery Point Objective)는 장애 발생 시 **복구 가능한 데이터 손실 허용 범위**를 뜻합니다.
예시로, RTO가 2시간이라면 장애 후 2시간 이내 시스템이 복구되어야 하고, RPO가 30분이라면 최대 30분 전까지의 데이터가 보존되어야 합니다.
🧩 RTO와 RPO의 주요 개념
- RTO (복구 시간 목표)
: 시스템 복구까지의 최대 허용 시간 : 예) 장애 후 2시간 내 복구
- RPO (복구 시점 목표)
: 데이터 손실을 허용할 수 있는 최대 시간 범위 : 예) 최근 30분 이내 데이터까지만 손실 허용
🎯 RTO와 RPO 설정 시 고려 요소
- 업무 중요도
: 핵심 서비스일수록 RTO와 RPO를 낮게 설정
- 데이터 민감도
: 중요 정보일수록 RPO를 짧게 설정해 데이터 보존
- 비용과 효율의 균형
: 복구 성능 대비 인프라 비용 고려한 전략 수립
🛠️ 장애 복구 전략
효과적인 장애 대응을 위해 다음과 같은 복구 체계를 갖추는 것이 중요합니다:
- 백업 및 복구 체계 구축
: 주기적 백업, 자동화된 복원 프로세스 마련
- 이중화 시스템 구성 (HA)
: 장애 발생 시 자동으로 대체 시스템 전환
- DR(Disaster Recovery) 사이트 운영
: 지역 분산 복구 시스템 구축 (예: 클라우드 기반 DR)
- 모니터링 및 자동 알림 시스템
: 이상 징후 감지 및 신속한 알림 제공
- 정기적 훈련과 점검
: 비상 복구 훈련을 통해 대응 능력 강화
💡 개발자가 꼭 알아야 할 포인트
- RTO와 RPO는 장애 복구 전략의 핵심 지표입니다. - 단순 용어 암기보다 비즈니스 영향도와 연계된 이해가 필요합니다. - 클라우드, 컨테이너 환경에서도 복구 시간과 데이터 보호 기준은 여전히 유효한 기준입니다.