17 месяцев, 7 человек и бесплатный мониторинг: как собрали систему управления IT-инфраструктурой с нуля
«Гравитон» за 17 месяцев сделал систему мониторинга без агентов. Она работает через обычные сетевые протоколы, шлёт уведомления в Telegram и показывает всё в реальном времени.
, отредактировано
⭐ Участник Продуктовой Премии Tproger 2025 — проголосовать за кейс можно по ссылке
Когда в компании несколько сотен серверов, виртуальных машин и рабочих станций, мониторинг превращается в жуткую боль и беготню между разными системами. Обычно на каждое устройство ставят своего агента, настраивают подключения, обновляют клиенты — и всё это одновременно на сотнях машин. Мы используем агентов только для ПК, ноутбуков и моноблоков.
«Гравитон» за 17 месяцев сделал систему мониторинга без агентов. Она работает через обычные сетевые протоколы, шлёт уведомления в Telegram и показывает всё в реальном времени. Команда из 7 человек написала всё с нуля и выпустила бесплатно.
Задача: мониторить всю инфраструктуру без установки агентов на каждый сервер
Бизнес хочет, чтобы вся инфраструктура работала без сбоев — серверы, виртуальные машины, рабочие станции. Администраторы должны знать, что происходит: сколько загружен процессор, какая температура, не заканчивается ли место на дисках, все ли сервисы работают.
Техническая часть — сделать систему, которая подключается к устройствам без установки дополнительного софта. Использовать те протоколы, которые уже есть в оборудовании. Показывать проблемы сразу, а не через пять минут. Дать возможность не только смотреть, но и управлять удалённо.
Параметры проекта
- Срок разработки: март 2024 — август 2025 (17 месяцев)
- Команда: 7 человек
- Статус: продукт на рынке 5 месяцев, предоставляется бесплатно на первый год использования
- Первый проект: мониторинг нескольких сотен моноблоков
- Интерес рынка: несколько десятков запросов на тестирование с момента запуска
Поддерживаемое оборудование: виртуальные машины, серверы, системы хранения данных, клиентские устройства (персональные компьютеры, моноблоки, многофункциональные устройства «Гравитон»).
Архитектура: микросервисы и протоколы без агентов
Систему собрали из микросервисов — каждый отвечает за свою часть:
Устройства в сети
→ Подключение через WebSocket, Redfish, IPMI, SNMP, Prometheus
→ Сервисы, которые собирают и обрабатывают данные
→ SQL для настроек, Prometheus для метрик по времени
→ PromQL для правил уведомлений
→ Веб-интерфейс с графиками
→ Уведомления в Telegram
Главное — для серверов и сетевого оборудования система не ставит агентов. Подключается к тому, что уже есть в устройствах. Агенты используются только для пользовательских устройств — ПК, ноутбуков и моноблоков.
Пять главных фишек
1. Всё в реальном времени через WebSocket
WebSocket — это двусторонняя связь. Устройство может само отправить сигнал, когда что-то меняется. Температура выросла, диск заканчивается — администратор видит это мгновенно в интерфейсе. При сканировании сети результаты появляются сразу, не нужно ждать и обновлять страницу.
Чем быстрее узнал о проблеме — тем быстрее починил.
2. Всё написано с нуля
Команда не взяла готовые библиотеки для важных частей. Авторизация, управление пользователями, уведомления — всё своё. Это дало полный контроль и возможность подстроить под российский рынок без зависимости от чужого кода.
3. Никаких агентов
Система использует протоколы, которые уже есть в оборудовании. Redfish для современных серверов, IPMI для управления на аппаратном уровне, SNMP для сетевых устройств, Prometheus для Linux-серверов. Не нужно ничего устанавливать, настраивать, обновлять на каждой машине.
4. Интеграция с Telegram для уведомлений
Вместо email-рассылок или SMS, которые легко пропустить, система отправляет уведомления о проблемах прямо в Telegram. Администратор получает сообщение на телефон: «Температура процессора сервера srv-db-01 достигла 85°C» или «Диск /dev/sda на сервере srv-web-03 заполнен на 95%». Можно настроить отдельные каналы для разных типов событий или разных команд.
5. PromQL для гибких условий мониторинга
Для составления выражений, которые запускают уведомления, используется PromQL — язык запросов Prometheus. Администратор может создавать сложные условия: «уведомить, если загрузка процессора выше 80% в течение 5 минут» или «предупредить, если свободное место на диске меньше 10% и скорость его уменьшения больше 1 ГБ в час». Это не просто пороговые значения, а гибкие правила с учётом трендов и контекста.
Главная трудность: CORS и удалённое управление KVM
🔴 Проблема: запуск KVM через браузер
KVM (клавиатура, видео, мышь) — технология удалённого управления сервером на уровне «железа», как будто вы сидите перед монитором с клавиатурой. Запуск инструмента KVM из веб-интерфейса системы мониторинга столкнулся со сложностями из-за ограничений CORS (Cross-Origin Resource Sharing) — механизма безопасности браузеров, который блокирует запросы между разными доменами.
✅ Решение: корректная авторизация, поддерживаемая сервером
Команда реализовала метод авторизации, который поддерживается сервером управления и корректно обрабатывается браузером с учётом политик CORS. Это позволило безопасно запускать KVM-сессии прямо из веб-интерфейса системы мониторинга без установки дополнительных приложений на компьютер администратора. Теперь можно подключиться к серверу и управлять им через браузер, даже если операционная система на сервере не загружается.
Результаты и конкуренция на рынке
Первый проект — мониторинг нескольких сотен моноблоков в коммерческой эксплуатации. Система показала стабильность работы и справилась с нагрузкой. С момента запуска пришло несколько десятков запросов на тестирование продукта от компаний с разной инфраструктурой.
Продукт на рынке 5 месяцев, в то время как конкуренты работают более 5 лет и имеют устоявшуюся клиентскую базу. По отзывам клиентов собран перечень функционала, который необходимо реализовать для успешной конкуренции: расширение набора метрик, поддержка большего числа типов оборудования, специфические интеграции с корпоративными системами.
Стратегия выхода на рынок — дать базовый функционал бесплатно, чтобы компании могли попробовать продукт без барьеров. В течение 2026 года появится дополнительный платный функционал для крупных инсталляций и специфических задач.
Планы развития: от мониторинга к предсказанию проблем
Команда «Гравитон» развивает продукт по семи направлениям.
- Больше метрик и функций управления — новые показатели, управление питанием, настройка устройств удалённо.
- Поддержка большего числа устройств — работа с оборудованием от разных производителей.
- Платные функции — расширенная аналитика, интеграция с корпоративными системами, отчёты для проверок.
- Предсказание поломок — анализ данных по времени, чтобы понять, когда диск или блок питания выйдет из строя. Замена до того, как сломалось.
- Автоматизация — система сама делает что-то при проблемах. Процессор перегружен — перезапустить сервис. Диск заполнен — почистить логи.
- Настройка интерфейса — каждый видит свои дашборды. Администратор — технические метрики, руководитель — сводки, топ-менеджмент — общую доступность.
- Карта серверной — схема, где какой сервер стоит в стойках, с привязкой к состоянию. Видно, где проблемный сервер и что рядом с ним.