Хаос-инжиниринг (Chaos Engineering) зародился в Netflix в начале 2010-х годов, когда компания столкнулась с необходимостью поддерживать надёжность своей сложной распределённой инфраструктуры в условиях перехода от традиционных серверов к облачным. Переход к облачным серверам потребовал более гибких методов тестирования отказоустойчивости
В ответ на этот вызов компания Netflix создала инструмент Chaos Monkey — первый в своем роде инструмент для хаотического тестирования, который случайным образом «выключал» сервисы и помогал команде отработать сценарии аварийного восстановления. Успех этого подхода в Netflix положил начало развитию практик хаос-инжиниринга, и со временем методики распространились на множество других компаний
Главный принцип хаос-инжиниринга:
проверка устойчивости системы к сбоям через преднамеренное внесение отказов и нарушение нормальных условий работы, чтобы увидеть, как система реагирует на сбои в реальных условиях, и заранее выявить скрытые уязвимости
Чем хаос-инжиниринг помогает компаниям
Основные методики
Потенциальные проблемы и риски
Как выстроить баланс при работе с хаос-инжинирингом?