Database

[Database] DR 이란? 재해복구(Disaster Recovery) 의 개념

리거니 2023. 3. 27. 15:23
재해복구(Disaster Recovery, 이하 DR)

 

최근 판교 데이터센터 화재로 인해 카카오 서비스 장애가 10시간 이상 이어지면서

데이터 재해 복구의 중요성이 크게 대두되었다.

재해복구(DR)는 예상치 못한 재해로부터 서비스 연속성을 유지하기 위한 보호 전략이다. 

재해에는 지진, 태풍, 홍수, 화재 등의 자연재해를 비롯해 전쟁, 해킹, 통신장애, 전력공급차단 등 외부요인과 시스템 결함, 기계적 오류, 관리정책 오류 등 내부적 요인에 의한 장애를 모두 포함한다.

DR센터는 운영방침에 따라 ▲미러사이트(1등급) ▲핫사이트(2등급) ▲웜사이트(3등급) ▲콜드사이트(4등급) 등으로 나뉘며, 클라우드 또는 온프레미스로 구축할 수 있다.


운영서버에서의 장애로 인해 복구가 불가능 또는 지연될 경우 실시간 Replication 이 가능한 DR 서버에서 서비스를 가동시켜 중단없이 유지 할 수 있다.

DR 시스템 구축은 단순히 데이터를 동기화하고 복제하는 것에서 끝나지 않습니다. 예기치 못한 상황에 즉각적으로 대응하고, 빠르게 복구하는 것이 핵심이기 때문에 범위 정의부터 사전 테스트까지 여러 단계를 거치게 됩니다.

1. 복구 범위 정의

장애 대비의 첫 번째 절차는 어디까지 복구할 것인지 정의를 내리는 것입니다. 비즈니스 연속성 계획(BCP)과 밀접한 관련이 있으며, 서비스 또는 시스템이 끊기지 않고 운영되기 위해 어디까지 복구되어야 하는지 그 범위를 정하는 단계입니다.

2. 재해 복구 전략 수립

위기 상황에서 재해 복구를 담당할 조직과 역할을 분담하고, 업무 중요도에 따라 복구 계획을 수립하는 단계입니다. 해당 단계에서 복구 솔루션으로 무엇을 쓸지, DR센터는 어디로 할지 등을 정합니다.

3. 데이터 백업 및 관리

상세 계획에 따라 데이터 백업을 진행합니다.

4. 운영 및 사전 테스트

예기치 못한 상황에 대처하기 위해 주기적으로 사전 테스트를 진행합니다. 테스트에서 문제점이 확인되면 이를 보완하기 위한 조치를 취하고 꾸준히 관리합니다.


재해 복구(Disaster Recover, DR)과 관련된 핵심 용어를 정리해보도록 하겠습니다.

백업은 데이터 복구의 핵심 구성 요소입니다. 백업은 데이터의 특정 시점 복사본을 만드는 것입니다. 데이터는 비구조적일 수도, 구조적인 데이터일 수도 있습니다. 백업은 파일, 블록 또는 이미지 기반일 수 있습니다. 각 백업 유형마다 장단점이 있습니다.

비즈니스 연속성(Business Continuity, BC)은 “비즈니스 회복성”이라고도 하며, 광범위한 형태의 데이터 보호를 지칭합니다. “재해 복구”의 경우와 마찬가지로 데이터와 IT 서비스의 복원을 포함하지만 재해 중 비즈니스 운영을 지속하기 위한 프로세스와 절차도 포함합니다.

지속적 데이터 보호(Continuous Data Protection, CDP)는 “지속적 백업” 또는 “실시간 백업”이라고도 하며, 데이터에 대한 모든 변경의 복사본을 자동으로 저장하여 IT 관리자가 어느 시점으로든 데이터를 복원할 수 있도록 하는 데이터 백업을 의미합니다.

재해 복구(Disaster Recovery, DR)는 중단 이벤트 발생 후 가용한 툴과 기술을 사용해 IT 서비스를 복구하는 일련의 단계입니다. 퀘스트 블로그에서는 구체적으로 애플리케이션, 데이터, 네트워크, IP 전화 시스템과 기타 비즈니스 수행에 필요한 다른 모든 기술의 복구를 의미합니다.

고가용성(High Availability, HA)은 재해 중 비즈니스를 지속하는 데 도움이 될 수 있는 기술의 특성입니다. HA 기술은 프로덕션 시스템의 예비성을 제공하여 하나가 실패하면 다른 하나로 신속하게 “페일오버(failover)”해서 원래 시스템을 대체합니다. 손상에 대비한 보호 기능은 제공하지 않습니다. 고가용성은 전혀 다른 요구 사항을 충족하기 위한 기술이므로 견고한 DR 전략의 대체제로 간주해서는 안 됩니다.

복제(Repllication)는 재해 발생 시 IT 관리자가 최신 데이터를 복원할 수 있도록 한 위치에서 다른 위치로 데이터를 복사하는 프로세스입니다. 동기 복제 솔루션은 주 스토리지와 복제 사이트에 동시에 데이터를 써서 주 복사본과 복제본이 항상 동기화되도록 합니다. 비동기 복제 솔루션은 이와 달리 먼저 주 스토리지에 데이터를 쓴 다음 이 데이터를 복제 사이트로 복사합니다. 이 경우 복제는 예약에 따라 실시되는 경우가 많습니다. 비동기 복제는 비용이 덜 들고 대역폭이 덜 필요하며 장거리에 걸쳐 사용할 수 있습니다. 동기 복제는 핵심 애플리케이션의 고가용성을 제공합니다. 주 스토리지에서 복제본으로의 페일오버는 거의 즉각적으로 이뤄지므로 사용자가 경험하는 다운타임은 제로에 가깝습니다.