Fastly раскрыла причину «падения» Reddit, GitHub, Stackoverflow и множества других ресурсов накануне

И объявила о планах на будущее в связи со случившимся.

Вчера, 8 июня, в районе 13 часов по московскому времени произошёл крупный сбой. В результате этого множество крупных сайтов стали недоступны.

Очень быстро продакт-менеджер Financial Times Мэтт Тэйлор опубликовал твит, в котором причиной произошедшего назвал аварию на стороне CDN-провайдера Fastly. Сегодня же вице-президент компании Ник Роквелл подтвердил это, рассказав что именно произошло накануне.

Оказалось, что на стороне провайдера и вправду произошёл крупный сбой. Связан он был с необнаруженным ранее багом, который «закрался» с обновлением ПО систем Fastly. Сам апдейт прошёл ещё в середине мая, но о ставшей роковой ошибке стало известно лишь вчера.

Хронология событий

12:47 Начало сбоя.

12:48 Fastly обнаружил факт сбоя.

12:58 Опубликован Status Post.

13:27 Fastly определила конфигурацию клиента, который и стал причиной сбоя.

13:36 Сервисы, задетые в результате ошибки, начали восстанавливаться.

14:00 Большинство сервисов восстановились.

15:35 Инцидент смягчен.

15:44 Status Post закончился с «кодом» Resolved.

20:25 Началось развертывание исправления ошибки.

Что будет дальше?

  • Компания продолжит развёртывать исправление ошибки в своей сети ещё быстрее и безопаснее.
  • Будет проведён разбор того, какие процессы и практики применялись во время инцидента.
  • Также в Fastly пообещали выяснить, почему компания не обнаружила ошибку во время проверки качества и тестирования ПО.
  • Провайдер попытается сократить время восстановления.

Источник: Блог Fastly