LLM в облаке: от идеи до релиза за 2 месяца с командой из 5 человек

Команда разработки Рунити запустила ИИ-ассистент, который работает как в публичном облаке, так и в частном контуре клиента — с соблюдением 152-ФЗ и требований к защите персональных данных. Развертывание занимает 5 минут, все данные остаются внутри корпоративной инфраструктуры, а работать с ним может не только разработчик, но и обычный менеджер.

Обложка: LLM в облаке: от идеи до релиза за 2 месяца с командой из 5 человек
🌟 Участник Продуктовой Премии Tproger 2025 — проголосовать за кейс можно по ссылке

Большинство компаний боятся использовать ChatGPT и аналоги, потому что корпоративные данные уходят на сторонние серверы. Для IT-разработчиков и DevOps-инженеров такие проекты сейчас актуальны — можно не просто использовать AI, а понимать и создавать его ядро в безопасном контуре с учётом требований бизнеса к конфиденциальности.

Рунити — российский технологический бренд, объединяющий Руцентр, Рег.ру, Рег.облако, SpaceWeb и ряд других IT-компаний. Команда разработки группы запустила ИИ-ассистент, который работает как в публичном облаке, так и в частном контуре клиента — с соблюдением 152-ФЗ и требований к защите персональных данных. Развертывание занимает 5 минут, все данные остаются внутри корпоративной инфраструктуры, а работать с ним может не только разработчик, но и обычный менеджер.

За 2 месяца команда из 5 человек создала продукт, который стал точкой входа для AI-решений в экосистеме группы компаний, обслуживающей две трети пользователей Рунета.

Задача: дать доступ к LLM без потери контроля над данными

Бизнес-задача — создать облачное решение для работы с большими языковыми моделями, которое не требует технической экспертизы для запуска и обеспечивает полную конфиденциальность корпоративных данных. На российском рынке большинство AI-сервисов ориентированы на IT-разработчиков или требуют передачи информации третьим лицам.

Техническая задача — разработать готовый образ облачного сервера с веб-интерфейсом, поддержкой популярных LLM (Gemma 3, DeepSeek, Grok, LLaMA), возможностью загрузки собственных моделей и интеграцией через API в корпоративные системы. Развертывание должно занимать не больше 5 минут.

Параметры проекта

Срок разработки: 2 месяца от идеи до релиза

Команда: 5 человек (backend- и frontend-разработчики, инженер по инфраструктуре, продакт-менеджер и тестировщик).

Время развертывания: 5 минут — сразу готов к работе

Архитектура: от облачного образа до корпоративных систем

Продукт построен на базе Open WebUI с интеграцией через API. Технологический стек работает по следующей схеме:

Облачный образ сервера (готовая инфраструктура)

→ Open WebUI (веб-интерфейс в формате чата)

→ Ollama + HuggingFace (поддержка моделей)

→ Система плагинов (Web Search, Image Gen, Email Tools, Transcribe)

→ API для интеграции в CRM, helpdesk, внутренние порталы

Данные хранятся локально внутри корпоративного контура, модели разворачиваются на выбранных конфигурациях CPU/GPU в зависимости от нагрузки.

Пять ключевых возможностей ассистента

1. Локальное хранение и полная приватность

Развертывание LLM происходит внутри корпоративного контура. Все данные — промпты, документы, результаты обработки — остаются на серверах компании. Никакой доступ третьих лиц невозможен, бизнес получает полный контроль над инфраструктурой.

2. RAG-сценарии с корпоративными документами

Технология «поиск + генерация» позволяет загружать корпоративные знания из различных источников, включая локальные компьютеры. Ассистент не просто генерирует ответы на основе общих данных, а работает с внутренней документацией компании — регламентами, базами знаний, отчётами.

3. Мультимодальные функции

Платформа поддерживает распознавание изображений и встроенный speech-to-text для аудиофайлов. Сотрудники могут загружать скриншоты, фотографии, голосовые сообщения — ассистент обработает любой формат.

4. Расширение через плагины и API

Базовый функционал дополняется плагинами: Web Search для поиска информации в интернете, Image Gen для генерации изображений, Email Tools для работы с почтой, Transcribe для транскрибации. API позволяет встроить ассистента в существующие пайплайны — CRM-системы, helpdesk, внутренние порталы.

5. Безопасная среда для экспериментов

Сотрудники могут тестировать разные модели, промпты и сценарии перед внедрением в рабочие процессы. Многопользовательский доступ обеспечивает одновременную работу команды с одним ИИ-ассистентом.

Главная трудность: оптимизация LLM в облаке

🔴 Требовалось обеспечить стабильную производительность больших языковых моделей при высокой нагрузке в облачной среде. LLM требовательны к ресурсам, и без правильной настройки могут тормозить или падать под нагрузкой.

✅ Решение: Внедрили гибкое масштабирование и возможность выбора аппаратных конфигураций CPU/GPU под разные задачи. Клиенты сами решают, какая мощность нужна: для лёгких запросов хватит CPU, для сложных генераций и обработки больших объёмов — GPU. Полный контроль над ресурсами остаётся у пользователя.

Результаты и влияние на бизнес

Продукт стал точкой входа для новых AI-решений в экосистеме Рег.облако и всей группы компаний Рунити — на его базе уже тестируются специализированные ассистенты для маркетинга, аналитики и поддержки как клиентов, так и сотрудников.

Так, команда Рег.облака создали для себя ИИ-ассистента на базе внутренней документации с использованием RAG-подхода в доверенной инфраструктуре. ИИ-ассистент требовался для решения нескольких прикладных задач: написание кода, транскрибации и помощи техподдержке в обработке запросов. После внедрения провайдером ИИ-ассистента время на решение атомарных задач сократилось от нескольких дней, до нескольких часов. Транскрибация аудио и поиск нужной информацией по текстам сократилось на 99% и теперь составляет всего одну минуту. А обработка первичного запроса клиента техподдержкой занимает до десяти минут, вместо одного часа.

Ключевые преимущества для корпоративного использования

Полный контроль над данными без риска утечек, возможность работы как с готовыми моделями (Gemma, DeepSeek, Grok, LLaMA), так и с собственными, интеграция в существующие бизнес-процессы через API, многопользовательский режим для командной работы.

Планы развития: от внутреннего инструмента к решению для миллионов

Проект изначально вырос из внутренних запросов команд группы Рунити — разработчикам и аналитикам нужен был безопасный способ работы с LLM без утечки корпоративных данных. После успешного внедрения внутри компании продукт вышел на внешний рынок.

Технология будет масштабироваться по всей группе компаний Рунити, обслуживающей две трети пользователей Рунета. Это значит, что ИИ-ассистент в ближайшее время станет доступен для миллионов пользователей и тысяч компаний — от малого бизнеса до крупных корпораций с требованиями к соответствию 152-ФЗ и стандартам ФСТЭК России.

В ближайших релизах запланированы

  • Образ n8n для построения автоматизаций и сценариев с LLM через визуальный конструктор;
  • Развитие AI HaaS — возможность развертывания ассистента и моделей на оборудовании заказчика или в выделенном сегменте дата-центров с полной изоляцией контура;
  • Выпуск специализированных образов для задач аналитики, генерации контента и рендеринга;
  • Полноценный production-ready инференс-образ на основе vLLM с интеграцией по API для высоконагруженных сценариев и масштабирования под enterprise-нагрузки.

Рег.облако берёт на себя техническую поддержку инфраструктуры с широким ассортиментом предустанавливаемых open-source моделей, а донастройку и интеграцию решения под конкретные бизнес-задачи компании могут выполнять самостоятельно или с привлечением партнёров-интеграторов.

Реклама. АО «РСИЦ», ИНН 7733573894, erid: 2W5zFJVKUqf

Рекомендуем