Исследовательница изучила 900 open source ИИ-проектов. Вот какие выводы она сделала
Новости
Разработчица изучила 900 open source ИИ-проектов и выявила ключевые тренды: оптимизация инференса, сжатие моделей и рост ИИ-агентов
7К открытий20К показов

Исследовательница Чип Хуен провела масштабный анализ open source-экосистемы ИИ, изучив почти 900 репозиториев на GitHub.
В своём исследовании она сосредоточилась на проектах, связанных с фундаментальными моделями (foundation models), и выявила ключевые тренды в развитии инфраструктуры, инструментов для обучения моделей и ИИ-приложений.
Как изучали репозитории
Для анализа Хуен отфильтровала репозитории по ключевым словам: «GPT», «LLM», «generative AI». Затем она выбрала те из них, у которых не менее 500 звёзд.
В результате было найдено 896 проектов, из которых 845 – это полноценные инструменты, а 51 – обучающие материалы и списки полезных ресурсов.
Отдельно она отметила колоссальную активность сообщества, высокую степень коллаборации разработчиков и значительное расхождение между западной и китайской open source-экосистемами.
Как выглядит стек технологий в ИИ с открытым кодом
Хуен разделила проекты на три ключевых слоя:
- Инфраструктура – включает инструменты для развёртывания моделей (vLLM, NVIDIA Triton), управления вычислениями (SkyPilot), работы с векторными БД (Faiss, Milvus, Qdrant).
- Разработка моделей – объединяет фреймворки для обучения и оптимизации (Transformers, PyTorch, DeepSpeed, GGML), инструменты для тонкой настройки (fine-tuning) и оценки моделей.
- Разработка приложений – самый динамично развивающийся слой, охватывающий prompt engineering, поиск информации (RAG), интерфейсы ИИ-приложений и различные агенты.
Помимо этого, отдельно выделены репозитории самих моделей (например, OpenAI Whisper, Meta LLaMA) и готовые ИИ-приложения (чат-боты, автоматизация процессов, инструменты для кодинга).
Как развивалась open source-экосистема ИИ
В 2023 году больше всего выросло число приложений и инструментов для разработки ИИ-продуктов. Развитие инфраструктуры было менее заметным, поскольку многие крупные решения не публикуются в open source.
Наиболее популярные open source-приложения:
- Кодинг – инструменты для автоматизированной генерации кода.
- Боты – голосовые, текстовые помощники (например, для WhatsApp и Slack).
- Агрегаторы информации – системы, анализирующие и обобщающие данные из разных источников.
В ИИ-инжиниринге доминируют фреймворки для работы с промтами, ИИ-интерфейсы (плагины, веб-приложения) и агенты, использующие внешние инструменты для выполнения сложных задач.
Открытая разработка: кто создаёт ИИ-инструменты
Из 845 изученных репозиториев 594 принадлежат различным разработчикам и организациям. При этом 20 самых активных аккаунтов контролируют 195 репозиториев (23% от общего числа).
Крупнейшие open source-разработчики ИИ:
- Google — google-research, tensorflow.
- *Meta (признана в России экстремистской организацией) — facebookresearch, fair.
- Phil Wang (lucidrains) – один из ведущих индивидуальных разработчиков, быстро реализующий SOTA-модели.
- Georgi Gerganov (ggerganov) – автор оптимизационных решений для работы с моделями.
Хуен отмечает, что ИИ-приложения чаще создают отдельные разработчики, тогда как инфраструктурные проекты требуют серьёзных ресурсов и принадлежат компаниям.
Заключение
Хуен прогнозирует, что ажиотаж вокруг open source-ИИ постепенно утихает, но многие инструменты остаются актуальными. Наиболее перспективные направления:
- Оптимизация инференса – ускорение вывода моделей (FlexGen, Llama.cpp).
- Новые методы сжатия – 2-битные квантизации.
- Развитие агентов и интеграций – более продвинутые ИИ-помощники.
7К открытий20К показов