Cloudflare объяснила причину вчерашнего масштабного сбоя. Как оказалось, разработчики выкатывали новый набор правил для Web Application Firewall. Они касались защиты от атак с использованием встроенного JS-кода.
Одно из правил содержало регулярное выражение, при развёртывании на всю сеть оно спровоцировало всплеск нагрузки на процессоры в серверах Cloudflare по всему миру.
В результате пользователи сервисов видели ошибку 502 — «Bad Gateway».
Команда Cloudflare отметила, что не сталкивалась с подобными проблемами прежде, поэтому исправление ситуации заняло много времени. Через полчаса после начала неполадок разработчики нашли их причину и отключили весь набор правил. Работа сайтов восстановилась.
После этого разработчики перепроверили правила, исправили ошибку, протестировали и снова развернули, уже успешно. Это произошло через сорок минут после отката.
Source: блог Cloudflare