Chaos Engineering

Chaos Engineering

Кому и как хаос-инжиниринг помогает найти слабые места и помогает ли?
Что может дать Хаос инжиниринг для ИТ-команд и бизнеса?
Какие есть минусы применения хаос-инжиниринга для этих акторов?

История

Хаос-инжиниринг (Chaos Engineering) зародился в Netflix в начале 2010-х годов, когда компания столкнулась с необходимостью поддерживать надёжность своей сложной распределённой инфраструктуры в условиях перехода от традиционных серверов к облачным. Переход к облачным серверам потребовал более гибких методов тестирования отказоустойчивости

В ответ на этот вызов компания Netflix создала инструмент Chaos Monkey — первый в своем роде инструмент для хаотического тестирования, который случайным образом «выключал» сервисы и помогал команде отработать сценарии аварийного восстановления. Успех этого подхода в Netflix положил начало развитию практик хаос-инжиниринга, и со временем методики распространились на множество других компаний

Главный принцип хаос-инжиниринга:

проверка устойчивости системы к сбоям через преднамеренное внесение отказов и нарушение нормальных условий работы, чтобы увидеть, как система реагирует на сбои в реальных условиях, и заранее выявить скрытые уязвимости

Чем хаос-инжиниринг помогает компаниям

Обеспечивать высокую надёжность сервисов. Тесты выявляют слабые места, позволяя разработчикам предотвращать сбои до того, как они затронут пользователей
Улучшить системы автоматического восстановления. Компании могут проверить, насколько быстро и эффективно срабатывают инструменты автоматического восстановления после отказов
Повысить подготовленность команды к инцидентам. Разработчики и операционные специалисты могут регулярно отрабатывать аварийные сценарии, что уменьшает время реагирования в случае реальных проблем. Когда инженеры привыкают к искусственным отказам, то при реальных инцидентах они становятся спокойнее, т.к. сбои и тесты в проде для них становятся обычным делом
Снижать бизнес-риски. За счёт повышенной отказоустойчивости компания уменьшает вероятность потери дохода и репутационных издержек в случае критических отказов.

Основные методики

Проверки отказов на уровне компонентов. Например, отключение микросервисов или снижение скорости работы базы данных для проверки реакции системы на выход отдельных компонентов из строя
Тестирование на уровне инфраструктуры. Включение случайных сбоев в сети, отказов серверов или ограничения пропускной способности сети
Тестирование в реальном времени. Метод “testing in production” позволяет тестировать систему в реальной среде под боевой нагрузкой, что особенно полезно для масштабируемых сервисов
Использование инструментов автоматизации. Инструменты типа Chaos Monkey, Gremlin и Chaos Toolkit позволяют создавать автоматизированные сценарии отказов и управлять ими.

Потенциальные проблемы и риски

Сложность реализации. Построение сценариев хаос-тестирования требует значительных знаний о системе и архитектуре. Внедрение таких тестов может занять много времени, привести к высокой стоимости внедрения. В некоторых случаях хаос инженерию как раз используют, чтобы тестировать слишком сложные системы, где человек инженеры не могут сами держать всё в голове, а для написания тестов (не хаос) понадобится еще больше времени и денег. Такие системы Кейси Розенталь называет "нелинейными" в книге Хаос-инжинириг: Революция в разработке устойчивых систем
Риск реальных сбоев в системе. Если тестирование проводится в продакшн-среде, всегда есть вероятность, что сбои окажут негативное влияние на пользователей
Финансовые и временные затраты. Разработка сценариев и внедрение хаос-тестов требует инвестиций в инструменты и квалифицированные кадры
Стресс для команды. Хаос-тесты могут оказывать негативное влияние на разработчиков, так как требуют высокой концентрации и готовности к частым сбоям.

Как выстроить баланс при работе с хаос-инжинирингом?

Чтобы хаос-инжиниринг приносил пользу и не превращался в головную боль, важно придерживаться нескольких принципов:

1) Начинать с малого и постепенно увеличивать сложность. Внедрение хаос-тестов стоит начинать с простых сценариев на ограниченных сегментах системы, чтобы минимизировать риски

2) Соблюдать баланс между тестами и перерывами. Хаос-тестирование должно быть регулярным, но не чрезмерно частым, чтобы команда могла сосредоточиться на других задачах

3) Применять тесты в изолированных средах, если это возможно. Изоляция снижает риски для пользователей, а тесты можно проводить вне рабочей нагрузки

4) Инвестировать в обучение и автоматизацию. Чем больше команда подготовлена и чем более автоматизированы процессы тестирования, тем проще управлять хаос-инжинирингом

5) Вести детальную документацию и анализ каждого теста. Анализировать и фиксировать результаты тестов, чтобы накапливать знания и улучшать процессы

"Комментарии в коде должны быть похожими на кружевные трусики: маленькими, прозрачными, и оставляющими достаточно места для воображения"

Марк Цукерберг

Гений, миллиардер, плейбой (ну почти), филантроп

Хорошее образование тоже похоже на красивое нижнее белье, его не видно, но уверенности придает:

Жизненный цикл IT-компаний

Посмотрим через какие стадии проходят все компании, выделим проблемы каждой стадии и предложим возможные решения

Технические вызовы и проблемы на разных стадиях развития ИТ-компаний

Возвращаемся к обсуждению стадий жизненного цикла IT-компаний, но через призму технических вызовов

Как создать культуру взаимодействия между DevOps и SRE-инженерами для повышения скорости разработки и надежности систем

В теории DevOps и SRE команды зачастую описываются как слаженный организм, который призван работать на благо компании, но на практике оказывается, что коммуникация между командами далеко не всегда является слаженной и эффективной

Кодфриз

Узнаем что такое кодфриз, когда и для чего его объявлять, а так же выделим его плюсы и минусы

Почему мониторинг и алертинг — это основа надежной системы

“Мониторинг и алертинг являются ключевыми элементами обеспечения надежности IT-систем!” Такой яркий заголовок часто можно встретить в начале любой статьи. Но почему это действительно так важно для любой системы и любого бизнеса?