План восстановления при катастрофе: DRP
Что делать, если не сработал план А?
Если не сработал план B?
А если провалился план C?
Тогда приходит план D - и имя ему DRP
Что такое DRP?

Disaster Recovery Plan (DRP) – это комплексная стратегия и набор технических решений для восстановления IT-инфраструктуры и данных после катастрофы, аварии или кибератаки. DRP позволяет минимизировать время простоя бизнеса, сократить финансовые потери и обеспечить бесперебойную работу критически важных систем

С момента как общество шагнуло из постиндустриальной в информационную эру, видоизменилось все сферы жизни общества – в том числе и экономика. Новые экономические условия заставили бизнес подстраиваться под запросы времени. Порог входа на рынок в индустриальном обществе был достаточно высоким – необходимо было иметь базовые средства на открытие своего магазина, рекламу, производство, материалы и сопутствующие расходы

С появлением онлайн торговли стоимость выхода на рынок снизилась, появилась возможность создать свое маленькое онлайн-пространство в виде сайта и получить прибыль и гордый статус предпринимателя. Увеличивающаяся востребованность интернета заставила бизнес взглянуть в сторону онлайн-торговли. При этом высокая доступность выхода на рынок повысила конкуренцию среди продавцов и увеличила количество предложений для покупателей. Чтобы привлечь внимание покупателя, бизнес был вынужден придумывать все новые формы рекламы, повышать доступность своих сервисов, делать процесс покупок все более привлекательным и комфортным

Сейчас покупатель находится в самом привилегированном положении за всю историю – все сервисы: магазины, банки, сайты, приложения, доставки, такси, любой контент доступны 24 часа в сутки 7 дней в неделю. Бизнес получил до этого невообразимую возможность продавать вне рамок районов, городов, регионов и государств. География, объемы и интенсивность продаж выросла в разы

Бизнес разных уровней расцвел в онлайн-пространстве, но как мы знаем, с великой силой приходит великая ответственность. Ведь теперь, когда час недоступности может стоить миллионы, груз ответственности становится в миллион раз тяжелее

Здесь в игру вступает проактивный подход. Отказ – это просто вопрос времени. Любая система, даже (особенно) если она очень дорогая и кажется вам невероятно надежной, рано или поздно упадет. Чем больше компонентов, чем сложнее ваша система – тем выше риск отказа одной или даже нескольких ее частей.
Если отказ неизбежен, то возникает резонный вопрос: что можно сделать, чтобы снизить его эффект? Один из вариантов решения этой проблемы – это Disaster Recovery Plan (DRP)

Главной целью DRP является минимизация простоя бизнеса в случае краха системы при форс-мажоре. Для бизнеса отказ системы или ее компонентов, который влияет на функциональность сервиса – это всегда потерянная прибыль. DRP – это про готовность и умение работать с рисками

DRP помогает нам обеспечить бесперебойность работы критически важных компонентов и сократить финансовые потери из-за даунтайма

Второй целью создания DRP является сохранность данных. В современных реалиях мало успеть быстро подняться, нужно сохранить информацию при аварии или быстро восстановить актуальные данные. В противном случае мы рискуем продолжить терять деньги и авторитет в глазах пользователей

К сожалению, информационное пространство не отличается безопасностью. В интернете полно причин бояться за здоровье своей системы начиная от кибератак и заканчивая вирусами. Наличие DRP помогает спать чуть более крепко, зная, что в случае нападения какой-либо жути, у нас есть план Б

Основные принципы DRP

  • Минимизация времени простоя – оперативное восстановление систем

  • Приоритет критических сервисов – сначала восстанавливаются ключевые системы

  • Гибкость – адаптация плана к разным типам угроз

  • Автоматизация – использование скриптов и резервных систем

  • Регулярное тестирование – постоянная проверка работоспособности плана

  • Соответствие нормативным требованиям – выполнение требований законодательства

Существует несколько типов Disaster Recovery Plan'ов, которые различаются по техническим характеристикам, архитектурным решениям и уровню автоматизации.


Иметь план Б — это необходимая база, но при выборе типа DRP мы всегда должны находить баланс между стоимостью решения и стоимостью отказа. Нет смысла создавать дорогого монстра безотказности, когда стоимость его обслуживания будет стоить 20 дней работы сервиса. Подбор решения всегда индивидуален и должен актуализироваться с ростом бизнеса

Какие бывают DRP?

Горячее резервирование (Hot Site DRP)

полноценная дублирующая площадка, которая принимает нагрузку в случае сбоя

Плюсы



Минимальное время простоя

Высокая доступность

Возможность переключения на резерв в случае небольшой аварии (например неудачного деплоя)

Возможность принимать часть трафика и работа в active-active режиме в случае поддержки со стороны приложения

Минусы



Высокая стоимость эксплуатации

Простой вычислительных ресурсов

Холодное резервирование (Cold Site DRP)

площадка на которой есть данные (бекапы БД, кода, настроек и всего необходимого для развертывания) но нет инфраструктуры, ресурсы которой закупаются и разворачиваются при аварии, после чего площадка конфигурится и готова принимать нагрузку

Плюсы



В несколько раз дешевле горячего резервирования

Минусы



Долгое время восстановления, часто требует ручного развёртывания

Гибридные решения (Hybrid DRP)

комбинация горячего и холодного резервирования, когда инфраструктура развернута в минимальном объеме, но для полноценного обслуживания пользовательского трафика требуется масштабирование ресурсов

Плюсы



Стоимость меньше чем у полноценной площадки

Минусы



Требует больше времени на развертывание, чем горячий резерв
Давайте зафиксируем ключевые понятия при аварийном восстановлении, которые пригодятся нам при анализе ситуации:

RTO (Recovery Time Objective) - Максимальное время простоя после аварии

RPO (Recovery Point Objective) - Максимально допустимая потеря данных (например, данные за последние 15 минут, 1 час, 24 часа)

MTTR (Mean Time to Recovery) - Среднее время восстановления после сбоя

MTBF (Mean Time Between Failures) - Среднее время между сбоями

Этапы разработки DRP

1. Анализ бизнес-рисков (Business Impact Analysis, BIA)
  • Определение критически важных систем и данных
  • Оценка возможных угроз (кибератаки, сбои оборудования, стихийные бедствия)
  • Расчет потенциальных потерь от простоев

2. Определение требований к восстановлению
  • Выбор Recovery Time Objective (RTO) – максимального времени восстановления
  • Определение Recovery Point Objective (RPO) – допустимой потери данных
  • Классификация данных по уровням важности

3. Выбор стратегии восстановления
  • Локальные, облачные или гибридные решения
  • Автоматизированные или ручные процедуры
  • Организация резервных площадок (hot/cold sites)

4. Финансовые аспекты DRP
  • Оценка стоимости простоя бизнеса (downtime cost)
  • Оптимизация затрат на резервные системы – баланс между RTO/RPO и ценой решения
  • Страхование рисков – некоторые компании страхуют свои IT-активы

5. Развертывание и разработка планов действий
  • Развертывание DRP
  • Пошаговое руководство по восстановлению систем
  • Назначение ответственных лиц
  • Создание инструкций для персонала

6. Тестирование и оптимизация
  • Тестовое восстановление
  • Имитация аварийных ситуаций
  • Оценка скорости восстановления
  • Внесение корректировок в планы

7. Обучение персонала
  • Проведение тренингов
  • Ознакомление сотрудников с планом действий
  • Регулярные проверки готовности

8. Мониторинг и обновление DRP
  • Обновление плана при изменении IT-инфраструктуры
  • Улучшение стратегии на основе тестов
  • Поддержание актуальности контактов и инструкций
  • Важно хранить версии плана и фиксировать изменения

9. Автоматизация DRP
  • Мониторинг с автоматическим уведомлением об аварии
  • Скрипты для автоматического развертывания резервных серверов
  • Использование автофейловера (автоматического переключения на резервные мощности)

10. Работа с человеческим фактором
  • Четкое распределение ролей – кто отвечает за что при аварии
  • Обучение сотрудников – не только технарей, но и бизнес-команды
  • Документирование решений – фиксация всех шагов для анализа после инцидента

самые распространенные причины отказов

Причины аварий бывают очень разнообразными и не всегда очевидными. Для разработки DRP важно знать про самые распространенные причины отказов. Перечислим некоторые из них:

  • Стихийные бедствия: пожары, наводнения, землетрясения

  • Человеческий фактор: ошибки при проведении работ, ошибки в коде, забытые зависимости

  • Кибератаки: шифрование, ransomware, диверсии

  • Отключение электроэнергии: проблемы с питанием, отказы ДЦ

  • Сбои техники: сбои железа, сетевые сбои, потеря связности
Быстрые выводы

DRP это баланс между надеждами на лучшее и подготовке к худшему. Важно выдержать баланс между стоимостью и рисками. Представьте, что будет если ДЦ в котором живет ваша площадка внезапно больше нет, его съела Годзилла. Все сервера, данные и бекапы в нем больше не существуют
Что важно

Есть ли у Вас внешний бекап с которого вы можете восстановиться?
Сколько данных будет потеряно навсегда и сколько времени понадобится на восстановление функциональности?

Если ответы на эти вопросы неутешительные, самое время подумать над тем, чтобы разработать Disaster Recovery Plan для вашей компании. Если нужна консультация - вы всегда можете написать нам!
"Идеальному коду место в музее: там ценят всякие древности"
Питер Нортон
старожила ппрограммистов, "великий учитель" персональных компьютеров
Идеальным статьям самое место тут,
здесь ценят всякое знание:
Технические вызовы и проблемы на разных стадиях развития ИТ-компаний
Возвращаемся к обсуждению стадий жизненного цикла IT-компаний, но через призму технических вызовов
Четыре золотых сигнала
Узнаем какие четыре ключевые метрики мониторинга помогают оценивать производительность и доступность систем
Chaos Engineering
Кому и как хаос-инжиниринг помогает найти слабые места и помогает ли? Что может дать Хаос инжиниринг для ИТ-команд и бизнеса? Какие есть минусы применения хаос-инжиниринга для этих акторов?
Кодфриз
Узнаем что такое кодфриз, когда и для чего его объявлять, а так же выделим его плюсы и минусы