Реклама
Премия ТП
Премия ТП
Премия ТП

17 месяцев, 7 человек и бесплатный мониторинг: как собрали систему управления IT-инфраструктурой с нуля

«Гравитон» за 17 месяцев сделал систему мониторинга без агентов. Она работает через обычные сетевые протоколы, шлёт уведомления в Telegram и показывает всё в реальном времени.

Обложка: 17 месяцев, 7 человек и бесплатный мониторинг: как собрали систему управления IT-инфраструктурой с нуля
⭐ Участник Продуктовой Премии Tproger 2025 — проголосовать за кейс можно по ссылке

Когда в компании несколько сотен серверов, виртуальных машин и рабочих станций, мониторинг превращается в жуткую боль и беготню между разными системами. Обычно на каждое устройство ставят своего агента, настраивают подключения, обновляют клиенты — и всё это одновременно на сотнях машин. Мы используем агентов только для ПК, ноутбуков и моноблоков.

«Гравитон» за 17 месяцев сделал систему мониторинга без агентов. Она работает через обычные сетевые протоколы, шлёт уведомления в Telegram и показывает всё в реальном времени. Команда из 7 человек написала всё с нуля и выпустила бесплатно.

Задача: мониторить всю инфраструктуру без установки агентов на каждый сервер

Бизнес хочет, чтобы вся инфраструктура работала без сбоев — серверы, виртуальные машины, рабочие станции. Администраторы должны знать, что происходит: сколько загружен процессор, какая температура, не заканчивается ли место на дисках, все ли сервисы работают.

Техническая часть — сделать систему, которая подключается к устройствам без установки дополнительного софта. Использовать те протоколы, которые уже есть в оборудовании. Показывать проблемы сразу, а не через пять минут. Дать возможность не только смотреть, но и управлять удалённо.

Параметры проекта

  • Срок разработки: март 2024 — август 2025 (17 месяцев)
  • Команда: 7 человек
  • Статус: продукт на рынке 5 месяцев, предоставляется бесплатно на первый год использования
  • Первый проект: мониторинг нескольких сотен моноблоков
  • Интерес рынка: несколько десятков запросов на тестирование с момента запуска

Поддерживаемое оборудование: виртуальные машины, серверы, системы хранения данных, клиентские устройства (персональные компьютеры, моноблоки, многофункциональные устройства «Гравитон»).

Архитектура: микросервисы и протоколы без агентов

Систему собрали из микросервисов — каждый отвечает за свою часть:

Устройства в сети

→ Подключение через WebSocket, Redfish, IPMI, SNMP, Prometheus

→ Сервисы, которые собирают и обрабатывают данные

→ SQL для настроек, Prometheus для метрик по времени

→ PromQL для правил уведомлений

→ Веб-интерфейс с графиками

→ Уведомления в Telegram

Главное — для серверов и сетевого оборудования система не ставит агентов. Подключается к тому, что уже есть в устройствах. Агенты используются только для пользовательских устройств — ПК, ноутбуков и моноблоков.

Пять главных фишек

1. Всё в реальном времени через WebSocket

WebSocket — это двусторонняя связь. Устройство может само отправить сигнал, когда что-то меняется. Температура выросла, диск заканчивается — администратор видит это мгновенно в интерфейсе. При сканировании сети результаты появляются сразу, не нужно ждать и обновлять страницу.

Чем быстрее узнал о проблеме — тем быстрее починил.

2. Всё написано с нуля

Команда не взяла готовые библиотеки для важных частей. Авторизация, управление пользователями, уведомления — всё своё. Это дало полный контроль и возможность подстроить под российский рынок без зависимости от чужого кода.

3. Никаких агентов

Система использует протоколы, которые уже есть в оборудовании. Redfish для современных серверов, IPMI для управления на аппаратном уровне, SNMP для сетевых устройств, Prometheus для Linux-серверов. Не нужно ничего устанавливать, настраивать, обновлять на каждой машине.

4. Интеграция с Telegram для уведомлений

Вместо email-рассылок или SMS, которые легко пропустить, система отправляет уведомления о проблемах прямо в Telegram. Администратор получает сообщение на телефон: «Температура процессора сервера srv-db-01 достигла 85°C» или «Диск /dev/sda на сервере srv-web-03 заполнен на 95%». Можно настроить отдельные каналы для разных типов событий или разных команд.

5. PromQL для гибких условий мониторинга

Для составления выражений, которые запускают уведомления, используется PromQL — язык запросов Prometheus. Администратор может создавать сложные условия: «уведомить, если загрузка процессора выше 80% в течение 5 минут» или «предупредить, если свободное место на диске меньше 10% и скорость его уменьшения больше 1 ГБ в час». Это не просто пороговые значения, а гибкие правила с учётом трендов и контекста.

Главная трудность: CORS и удалённое управление KVM

🔴 Проблема: запуск KVM через браузер

KVM (клавиатура, видео, мышь) — технология удалённого управления сервером на уровне «железа», как будто вы сидите перед монитором с клавиатурой. Запуск инструмента KVM из веб-интерфейса системы мониторинга столкнулся со сложностями из-за ограничений CORS (Cross-Origin Resource Sharing) — механизма безопасности браузеров, который блокирует запросы между разными доменами.

✅ Решение: корректная авторизация, поддерживаемая сервером

Команда реализовала метод авторизации, который поддерживается сервером управления и корректно обрабатывается браузером с учётом политик CORS. Это позволило безопасно запускать KVM-сессии прямо из веб-интерфейса системы мониторинга без установки дополнительных приложений на компьютер администратора. Теперь можно подключиться к серверу и управлять им через браузер, даже если операционная система на сервере не загружается.

Результаты и конкуренция на рынке

Первый проект — мониторинг нескольких сотен моноблоков в коммерческой эксплуатации. Система показала стабильность работы и справилась с нагрузкой. С момента запуска пришло несколько десятков запросов на тестирование продукта от компаний с разной инфраструктурой.

Продукт на рынке 5 месяцев, в то время как конкуренты работают более 5 лет и имеют устоявшуюся клиентскую базу. По отзывам клиентов собран перечень функционала, который необходимо реализовать для успешной конкуренции: расширение набора метрик, поддержка большего числа типов оборудования, специфические интеграции с корпоративными системами.

Стратегия выхода на рынок — дать базовый функционал бесплатно, чтобы компании могли попробовать продукт без барьеров. В течение 2026 года появится дополнительный платный функционал для крупных инсталляций и специфических задач.

Планы развития: от мониторинга к предсказанию проблем

Команда «Гравитон» развивает продукт по семи направлениям.

  1. Больше метрик и функций управления — новые показатели, управление питанием, настройка устройств удалённо.
  2. Поддержка большего числа устройств — работа с оборудованием от разных производителей.
  3. Платные функции — расширенная аналитика, интеграция с корпоративными системами, отчёты для проверок.
  4. Предсказание поломок — анализ данных по времени, чтобы понять, когда диск или блок питания выйдет из строя. Замена до того, как сломалось.
  5. Автоматизация — система сама делает что-то при проблемах. Процессор перегружен — перезапустить сервис. Диск заполнен — почистить логи.
  6. Настройка интерфейса — каждый видит свои дашборды. Администратор — технические метрики, руководитель — сводки, топ-менеджмент — общую доступность.
  7. Карта серверной — схема, где какой сервер стоит в стойках, с привязкой к состоянию. Видно, где проблемный сервер и что рядом с ним.
Рекомендуем