Мелкий сбой в программе вывел из строя ЦОД Amazon

Ошибка в программном приложении по сбору данных для системы Amazon Elastic Block Storage (EBS) привела к выходу из строя множества служб, выполняемых на Amazon Web Services (AWS). Об этом компания официально сообщила в соответствующем отчёте на сайте. По словам Amazon, цепочка событий  началась с аппаратной поломки отдельного сервера, управляющего сбором данных.

После замены сервера, записи DNS были обновлены для интеграции нового оборудования, однако обновление DNS не прошло корректно. В результате некоторые модули на системах хранения данных не получили обновленный адрес и продолжали обращаться к выключенному серверу. Через некоторое время это привело к тому, что все большее число EBS-томов не смогло обрабатывать дальнейшие запросы  ввода/вывода.

Функция мониторинга AWS не смогла правильно определить проблему до тех пор, пока на все более растущем числе серверов не закончилась память. Далее проблема перетекла на другие облачные сервисы Amazon, включая вычислительное облако EC2, службу реляционных СУБД (RDS) и службу балансировки нагрузки Elastic Load Balancing (ELB).

Чтобы решить проблему, Amazon внедрил режим «плавного регулирования», ограничив доступ к своим API для защиты системы.

«Режим «плавного регулирования» является очень мощным средством для управления работоспособностью наших сервисов и мы регулярно используем его, при этом стараясь не ограничивать возможности наших заказчиков», ― сообщается на сайте Amazon.

Хотя эта процедура не коснулась пользователей, запускающих высокодоступные приложения с корректно выполняемой функцией устойчивости к сбою во время нарушения работы Availability Zone, оно привело к нескольким часам недоступности API для многих заказчиков. Впрочем, Amazon пообещал компенсировать возможный ущерб для заказчиков, чей доступ к EC2, EBS и ELB был полностью блокирован в течение трех часов.