DR 서버

Disaster Recovery(DR) 서버는 기업이나 조직이 비상시나 재해 발생시에 중요한 데이터나 시스템을 보호하기 위해 사용되는 서버이다. 이 서버는 일반적으로 중요한 데이터를 보호하기 위해 데이터 백업, 복제 및 저장에 사용된다.

DR서버는 기업이나 조직이 소유하고 있는 기본적인 서버와는 별도로 유지되며, 일반적으로 원격지에 설치된다. 이러한 서버는 비상시에 기본서버가 작동하지 않을 경우 대체 서버로 사용되어 중요한 데이터나 시스템을 복구할 수 있다.

DR서버는 일반적으로 기본 서버와 동일한 구성을 갖추고 있으며, 중요한 데이터와 시스템을 복제하고 저장하는 역할을 수행한다. 이를 통해 기본 서버와 동일한 수준의 기능을 제공하며, 시스템 복구 시간을 최소화하고 업무 지속성을 보장할 수 있다.

DR 서버는 기업이나 조직이 비상시나 재해 발생 시 신속하고 효과적인 대처를 할 수 있도록 도와준다. 이를 통해 중요한 데이터와 시스템을 보호하고 업무 지속성을 유지할 수 있다.


대표적인 DR 서버 장애 사례로는, 2021년 3월 17일 발생한 카카오 서비스 장애가 있다. 이로 인해 카카오톡, 카카오스토리, 카카오맵, 카카오버스, 카카오뱅크, 카카오페이 등 다수의 카카오 서비스가 일시적으로 사용이 불가능하게 되었다.

카카오는 이 사고 이후에 자체적인 조사를 진행한 결과, DR(Disaster Recovery) 시스템의 문제로 복구 작업이 지연된 것으로 밝혔다. 카카오의 DR 시스템은 본 서비스와 다른 데이터 센터에 위치하고 있었으며, 이전에는 DR 시스템의 가용성을 확인하고자 무중단 테스트를 진행했다. 하지만 이번 장애 사고에서는 DR 시스템의 무중단 테스트 결과가 발생 시점에서도 정상적으로 진행될 것으로 예측되어 복구 작업이 지연되었다.

이러한 문제로 인해 카카오는 해당 장애 사고에 대한 빠른 대응과 원인분석을 진행했고, 이후에는 DR 시스템에 대한 안전 대책 강화와 무중단 테스트의 정확성을 보완할 수 있는 대책 마련 등을 진행하고 있다.

카카오 장애사고는 국내 최대 인기 모바일 메신저 서비스의 일시적인 중단으로서 많은 이용자들에게 불편을 끼쳤다. 이 사건은 기업에서 DR 시스템 구축 및 운영에 대한 중욧ㅇ을 다시 한 번 상기시켜주는 계기가 되었다.


  • DR 시스템의 무중단 테스트란,

재해 발생 시 복구를 위해 준비한 DR 시스템이 실제 장애 상황에서도 문제 없이 작동할 수 있는지 확인하기 위한 테스트이다. 이를 위해 본 시스템과 DR 시스템을 동시에 운영하면서 DR 시스템이 본 시스템의 역할을 대신 수행할 수 있는지 여부를 확인한다.

무중단 테스트는 일반적으로 실제 재해 발생과 유사한 환경을 조성하여 진행된다. 이를 위해 가상의 재해 상황을 만들어 본 시스템과 DR 시스템이 대응할 수 있도록 하는 것이 일반적이다. 무중단 테스트는 시스템의 안정성과 가용성을 확인하기 위한 중요한 과정으로, 장애 대응에 대한 신뢰성을 높이기 위해 꼭 필요한 작업이다.

하지만 카카오 사례처럼 무중단 테스트가 제대로 이루어지지 않아 DR 시스템의 문제를 발견하지 못하고 복구 작업이 지연되는 경우도 있다. 따라서 기업은 무중단 테스트를 신중하게 계획하고, 정확한 결과를 얻을 수 있도록 충분한 검토와 대처 방안 마련 등을 철저히 고려해야 한다.

Categories:

Updated: