Недавний сбой в работе облачных сервисов Amazon был вызван опечаткой сотрудника компании

Крупный сбой в работе облачных сервисов Amazon, из-за которого 28 февраля 2017 года появились проблемы в работе Slack, Trello, Coursera и многих других сайтов, произошёл из-за опечатки одного из сотрудников компании. Об этом вчера сообщила Amazon.

28 февраля 2017 года команда Amazon S3 занималась отладкой своей биллинговой системы. В ходе работ ей понадобилось перевести несколько серверов в автономный режим, но при вводе команды была допущена ошибка:

К сожалению, команда была введена неправильно и под отключение попало больше серверов, чем предполагалось. Среди них были серверы, которые поддерживали работу подсистем S3.

В частности, была отключена подсистема, управляющая метаданными и информацией о расположении всех серверов S3 в регионе. От неё зависела работа многих сервисов для поиска и хранения данных, в том числе и Amazon Elastic Compute Cloud (EC2), который используется для доступа к вычислительным мощностям.

Представители компании пояснили, что для восстановления работоспособности сервисов нужно было перезапустить некоторые системы и провести их проверку, что заняло довольно много времени. По их словам, S3 способен работать при отключении нескольких серверов, но массовая перезагрузка стала проблемой.

Сейчас Amazon уже внесла в S3 изменения, которые позволят ускорить процесс восстановления систем. Кроме того, инженеры не смогут отключать серверы, которые задействованы в системах «определённого уровня». Также компания пообещала исправить работу информационной панели AWS Service Health Dashboard, которая не показывала информацию о сбоях, так как сама зависела от упавшего сервиса S3.

Источник: Amazon