Cloudflare частично обвинила Verizon в масштабном сбое из-за некорректной маршрутизации

Днём 24 июня, примерно с 13:30 до 16:30 по Москве, у пользователей по всему миру не работало множество сайтов и сервисов из-за сбоя в маршрутизации трафика. Это коснулось Cloudflare, Facebook, Apple, AWS, Akamai, Linode и многих других ресурсов. Из-за утечки маршрутов трафик к ним шёл через небольшого пенсильванского провайдера.

Спустя некоторое время команда Cloudflare опубликовала отчёт о происшествии. Значительную долю ответственности специалисты возложили на Verizon — у крупного транзитного провайдера не оказалось простых инструментов, способных предотвратить последствия утечки.

Как это произошло?

Пенсильванский интернет-провайдер DQE Communications использовал BGP Optimizer — инструмент, который разбивает блоки IP-адресов на мелкие части и таким образом конкретизирует маршрутизацию внутри сети. Если проводить аналогию с географией, вместо области или штата он указывает на конкретный город в области или штате. Более «конкретные» маршруты всегда приоритетнее «общих».

DQE начал передавать эти маршруты своему клиенту, Allegheny Technologies. У того, оказалось, также было настроено подключение к транзитному провайдеру Verizon. «Приоритетные» маршруты перетекли к нему, а он стал транслировать их на весь интернет.

В результате большое количество трафика пошло через Verizon к DQE, и они просто не справились с такой нагрузкой на свои сети.

Когда начались сбои, специалисты из Cloudflare попытались связаться с Verizon или DQE. В США было раннее утро, так что связаться получилось не сразу. Verizon так и не ответил, зато эксперты из DQE после небольшой задержки помогли перекрыть утечку.

Source: блог Cloudflare

Не смешно? А здесь смешно: @ithumor