Сервис для хранения кода GitLab стал недоступен для пользователей вечером 31 января после того, как системный администратор компании случайно удалил около 300 ГБ из базы данных компании.
Из-за ошибки работника оказалась стёрта база, в которой содержались запросы на изменение документации и кода проектов пользователей — сами репозитории остались нетронутыми. Вскоре после инцидента представители сервиса начали публиковать всю информацию о восстановлении базы в Google Doc и Twitter.
Сисадмин из Нидерландов, из-за которого возникла проблема, занимался копированием базы с одного сервера на другой и по ошибке запустил удаление данных с основного сервера. К моменту отмены команды удаления осталось лишь 4,5 ГБ данных.
В GitLab отметили, что в этом случае не помогла ни одна из пяти существующих в компании систем для хранения бэкапов: например, в одном из случаев процедура сохранения данных срабатывала с ошибкой, из-за чего бэкап не создавался. Представители сервиса заметили, что у них не было системы оповещения об ошибках при создании бэкапов.
В распоряжении GitLab оказался один из бэкапов, созданный вручную примерно за шесть часов до инцидента, и теперь компания восстанавливает данные с его помощью.
Причём наблюдать за процессом восстановления можно в прямом эфире:
Как сообщают представители GitLab, «кто-то просто совершил ошибку, и не будет уволен».
Источник: TechCrunch