Перетяжка, Дом карьеры
Перетяжка, Дом карьеры
Перетяжка, Дом карьеры

Исследовательница изучила 900 open source ИИ-проектов. Вот какие выводы она сделала

Новости

Разработчица изучила 900 open source ИИ-проектов и выявила ключевые тренды: оптимизация инференса, сжатие моделей и рост ИИ-агентов

7К открытий20К показов
Исследовательница изучила 900 open source ИИ-проектов. Вот какие выводы она сделала

Исследовательница Чип Хуен провела масштабный анализ open source-экосистемы ИИ, изучив почти 900 репозиториев на GitHub.

В своём исследовании она сосредоточилась на проектах, связанных с фундаментальными моделями (foundation models), и выявила ключевые тренды в развитии инфраструктуры, инструментов для обучения моделей и ИИ-приложений.

Как изучали репозитории

Для анализа Хуен отфильтровала репозитории по ключевым словам: «GPT», «LLM», «generative AI». Затем она выбрала те из них, у которых не менее 500 звёзд.

В результате было найдено 896 проектов, из которых 845 – это полноценные инструменты, а 51 – обучающие материалы и списки полезных ресурсов.

Отдельно она отметила колоссальную активность сообщества, высокую степень коллаборации разработчиков и значительное расхождение между западной и китайской open source-экосистемами.

Как выглядит стек технологий в ИИ с открытым кодом

Хуен разделила проекты на три ключевых слоя:

  • Инфраструктура – включает инструменты для развёртывания моделей (vLLM, NVIDIA Triton), управления вычислениями (SkyPilot), работы с векторными БД (Faiss, Milvus, Qdrant).
  • Разработка моделей – объединяет фреймворки для обучения и оптимизации (Transformers, PyTorch, DeepSpeed, GGML), инструменты для тонкой настройки (fine-tuning) и оценки моделей.
  • Разработка приложений – самый динамично развивающийся слой, охватывающий prompt engineering, поиск информации (RAG), интерфейсы ИИ-приложений и различные агенты.

Помимо этого, отдельно выделены репозитории самих моделей (например, OpenAI Whisper, Meta LLaMA) и готовые ИИ-приложения (чат-боты, автоматизация процессов, инструменты для кодинга).

Как развивалась open source-экосистема ИИ

В 2023 году больше всего выросло число приложений и инструментов для разработки ИИ-продуктов. Развитие инфраструктуры было менее заметным, поскольку многие крупные решения не публикуются в open source.

Наиболее популярные open source-приложения:

  • Кодинг – инструменты для автоматизированной генерации кода.
  • Боты – голосовые, текстовые помощники (например, для WhatsApp и Slack).
  • Агрегаторы информации – системы, анализирующие и обобщающие данные из разных источников.

В ИИ-инжиниринге доминируют фреймворки для работы с промтами, ИИ-интерфейсы (плагины, веб-приложения) и агенты, использующие внешние инструменты для выполнения сложных задач.

Открытая разработка: кто создаёт ИИ-инструменты

Из 845 изученных репозиториев 594 принадлежат различным разработчикам и организациям. При этом 20 самых активных аккаунтов контролируют 195 репозиториев (23% от общего числа).

Крупнейшие open source-разработчики ИИ:

  • Google — google-research, tensorflow.
  • *Meta (признана в России экстремистской организацией) — facebookresearch, fair.
  • Phil Wang (lucidrains) – один из ведущих индивидуальных разработчиков, быстро реализующий SOTA-модели.
  • Georgi Gerganov (ggerganov) – автор оптимизационных решений для работы с моделями.

Хуен отмечает, что ИИ-приложения чаще создают отдельные разработчики, тогда как инфраструктурные проекты требуют серьёзных ресурсов и принадлежат компаниям.

Заключение

Хуен прогнозирует, что ажиотаж вокруг open source-ИИ постепенно утихает, но многие инструменты остаются актуальными. Наиболее перспективные направления:

  • Оптимизация инференса – ускорение вывода моделей (FlexGen, Llama.cpp).
  • Новые методы сжатия – 2-битные квантизации.
  • Развитие агентов и интеграций – более продвинутые ИИ-помощники.
Следите за новыми постами
Следите за новыми постами по любимым темам
7К открытий20К показов