Топ трендов HuggingFace за январь 2026: что нового в нейросетях
Главные релизы нейросетей на HuggingFace за январь 2026: LLM, генерация видео и изображений, голосовые модели, агенты для кодинга. С требованиями к железу и результатами.
Январь 2026 на HuggingFace запомнился массовым выходом корейских компаний в open-source, прорывом китайских разработчиков и новыми возможностями для запуска моделей на консьюмерском железе.
Если вам интересно развитие нейросетей, подпишитесь на Нейроканал — там мы регулярно пишем про искусственный интеллект, машинное обучение и свежие модели, которые меняют индустрию.
Мы распределили модели по направлениям и указали ключевые характеристики: требования к железу, языковую поддержку, результаты на бенчмарках. Все данные взяты из официальных описаний релизов на HuggingFace.
Языковые модели (LLM)
GLM-4.7 от Z ai — флагман на 358B параметров с unified reasoning, кодингом и агентными возможностями. Одна из самых крутых открытых моделей на данный момент, но требует серьёзного железа.
GLM-4.7-Flash — компактная 30B MoE-версия для кодинга, которая запускается на RTX 4090. На SWE-bench Verified показывает 59,2% — обгоняет Qwen3-Coder 480B. Подробнее писали в этом посте.
MiniMax-M2.1 — остаётся в топе весь месяц. Заточена под агентный кодинг с Interleaved Thinking.
K-EXAONE-236B от LG AI Research — новая MoE-модель с 236B параметров (23B активных). Контекст 256K с гибридным вниманием, Multi-Token Prediction даёт прирост скорости инференса в 1,5 раза. Результаты: 92,8% на AIME 2025, 80,7% на LiveCodeBench v6, 49,4% на SWE-bench Verified. Требует 4×H200 для деплоя с полным контекстом. Поддерживает 6 языков: корейский, английский, испанский, немецкий, японский, вьетнамский.
Solar-Open-100B от Upstage — 102B MoE с 12B активных параметров, обучена с нуля на 19,7 триллионах токенов. Контекст 128K, минимум 4×A100 по 80GB.
HyperCLOVAX-SEED-Think-32B от Naver — 32B VLM с reasoning mode. Unified vision-language архитектура: текст и изображения в общем пространстве эмбеддингов. Контекст 128K, поддержка изображений и видео. Специализация на корейском: KoBalt, CLIcK, корейский CSAT (ЕГЭ). Рекомендуют 4хA100 80GB для инференса, минимально ~68GB VRAM должно хватить.
A.X-K1 от SKT — крупнейшая open-source модель для корейского языка.
Llama-3.3-8B-Instruct — извлечённая версия Llama 3.3 8B, которая ранее существовала только в Llama API от Meta. Забавная история, которую подписчики Нейроканала сочли скучной. Видимо сама модель мало кому нужна, но топ есть топ, сообществу на HF зашло.
WeDLM-8B-Instruct от Tencent — диффузионная LM с параллельным декодированием. В 3-6 раз быстрее Qwen3-8B на математике, при этом превосходит базовую модель на большинстве бенчмарков. Работает с KV cache и FlashAttention.
MiroThinker-v1.5-235B и 30B — агентные модели с интегрированным web-поиском. 30B версия показывает производительность триллионных моделей при стоимости inference в 20 раз ниже. Результаты: 69,8% на HLE-Text, 80,8% на BrowseComp. 30B требует 4×A100 80GB.
Falcon-H1R-7B от TII — компактная reasoning-модель с гибридной Transformer + Mamba2 архитектурой. Контекст 256K, 73,96% на математике, обгоняет модели в 2-7 раз крупнее. Запустится на одной A100 80GB.
LFM2.5-1.2B-Instruct от LiquidAI — для edge-устройств, обучена на 28 триллионах токенов. Результаты: 38,89 на GPQA, 44,35 на MMLU Pro. Запустится даже на смартфоне.
Кодинг и агенты
IQuest-Coder-V1-40B — 76,2% на SWE-bench Verified, 81,1% на LiveCodeBench v6. Обучена по code-flow парадигме на истории коммитов. Для запуска хватит A100 80GB или две по 40GB. Есть Loop-версия с рекуррентным механизмом для экономии памяти.
AgentCPM-Explore от OpenBMB — 4B agent-модель с возможностью 100+ раундов взаимодействия с инструментами. На GAIA показывает 63,9% — конкурирует с моделями в 8-10 раз крупнее. Полностью открытая, запустится на 1×A100 40GB.
AgentCPM-Report — 8B модель для автоматического написания исследовательских отчётов. Полностью локальная альтернатива закрытым системам типа Deep Research.
Sweep Next-Edit-1.5B — предсказывает следующее редактирование кода по контексту изменений. Не просто автокомплит, а понимает контекст недавних изменений и предлагает следующий шаг. Обгоняет Qwen2.5-Coder-7B, работает за <500ms.
Мультимодальные модели
Qwen3-VL-Embedding-8B и 2B — embedding-модели для мультимодального поиска. Картинки, видео, тексты транслируются в единое пространство — искать можно по любым форматам. 8B достигла 77,8 на MMEB-V2 (первое место), 2B на пятом месте. Поддерживает 30+ языков.
LFM2.5-VL-1.6B от LiquidAI — vision-language для edge-устройств, 2B параметров, 8 языков (русский не в списке).
Step3-VL-10B от StepFun — 10B VLM, которая конкурирует с моделями в 10-20 раз крупнее. Запустится на одной A100.
MedGemma 1.5 от Google — медицинская VLM с поддержкой CT-сканов, рентгенов и лабораторных отчётов. 4B параметров, запустится на консьюмерской карточке.
Генерация изображений
GLM-Image от Z ai — первая топовая модель, обученная полностью на китайских чипах. Text-to-image и image-to-image в одной модели, топовая генерация текстов. Google пошёл в нишевые задачи: TranslateGemma переводит на 55 языков, MedGemma читает CT и рентгены. FLUX.2 klein от Black Forest Labs теперь запускается на RTX 4070. Pocket-TTS от Kyutai — 100M параметров TTS на CPU, звучит как модели в 7 раз больше. AgentCPM-Explore — 4B agent, который тягается с моделями в 8-10 раз крупнее.
Qwen-Image-2512 — новогоднее обновление от Alibaba с улучшенным реализмом людей и рендерингом текста. Есть GGUF.
FLUX.2-dev-Turbo от fal — ускоренная версия FLUX.2-dev.
FLUX.2 [klein] от Black Forest Labs — компактные модели 4B/9B для быстрой генерации. 4B версия работает на консьюмерских карточках и разрешает коммерческое использование.
Z-Image-Turbo от Alibaba — держится в топе с ноября. 6B модель, генерация за 8-9 шагов с отличным рендерингом текста.
AnyPose — модель для управления позами персонажей. Подробнее про неё писали в Нейроканале.
TwinFlow-Z-Image-Turbo от InclusionAI — оптимизированная версия Z-Image-Turbo.
Qwen-Image-Edit-2511-Multiple-Angles-LoRA — точный контроль камеры: 96 поз (4×8×3). Обучена на 3000+ парах для 3D-консистентности.
Генерация видео
LTX-2 от Lightricks — абсолютный лидер января с загрузками более 2,3 миллионов. Первая полностью открытая модель, которая генерирует видео и звук одновременно в едином проходе. Звук включает не только речь с синхронизацией губ, но и шаги, движения, атмосферные звуки, которые автоматически подстраиваются под происходящее на экране. На RTX 4090 генерация 10-секундного 4K клипа занимает 9-12 минут, для базового 768×512 — всего 11 секунд. Запускается на 24GB VRAM.
Аудио и голос
HY-MT1.5-1.8B от Tencent — топ-1 в трендах. Компактная модель перевода на 33 языка + 5 диалектов, включая русский. Победитель WMT25, работает на edge-устройствах после квантизации — прямо на телефонах можно запускать. Подробнее про неё писали в Нейроканале.
NVIDIA PersonaPlex-7B — full-duplex speech-to-speech: слушает и говорит одновременно, поддерживает прерывания и персонализацию голоса.
Microsoft VibeVoice-ASR — 9B ASR, до 60 минут аудио за один проход с диаризацией и таймстемпами. Больше про модель найдёте здесь.
Qwen3-TTS серия — Alibaba открыла сразу серию TTS моделей: CustomVoice (9 премиум-тембров с контролем стиля через инструкции), Base (клонирование голоса за 3 секунды референса), VoiceDesign (создание голоса по текстовому описанию). WER 1,24 на test-en — SOTA, обгоняет CosyVoice 3 и Seed-TTS. Задержка <120ms для стриминга. Русский язык тоже поддерживается.
Chroma-4B — первый open-source real-time speech-to-speech с клонированием. TTFT 147ms, генерация в 2 раза быстрее воспроизведения. Только английский.
Pocket-TTS от Kyutai — TTS на 100M параметров, работает на CPU без GPU. Конкурирует по качеству с моделями в 7 раз крупнее, MIT лицензия. Только английский.
Soprano-80M — компактная TTS модель на 80M параметров, только английский.
Supertonic-2 от Supertone — быстрая мультиязычная TTS на 5 языков (без русского) с voice cloning.
LFM2.5-Audio-1.5B от LiquidAI — audio-to-audio для edge-устройств: распознаёт голос и сразу отвечает голосом, запустится на 4-8GB VRAM. Только английский.
nemotron-speech-streaming-en-0.6b от NVIDIA — streaming ASR с 600M параметров, только английский. WER 7,2-7,8%, медианная задержка 24ms.
HeartMuLa-oss-3B — генерация музыки с текстом. Принимает лирику + стили для частей песни, мультиязычная.
Специализированные решения
TranslateGemma от Google — открытые модели для перевода между 55 языками: 4B/12B/27B на базе Gemma 3. Все три модели держатся в топе весь месяц, потому что они реально очень хорошо переводят для своего размера (проверяли в Нейроканале, бенчмарки подтверждают).
HY-Motion-1.0 от Tencent — первая text-to-motion модель на 1B параметров, генерирует 3D-анимацию персонажей из текста. Минимум 24GB VRAM для лайт-версии или 26GB для полной.
Alpamayo-R1-10B от NVIDIA — модель для автономного вождения, генерирует траектории на 6,4 секунды вперед, обучена на 80 тысячах часов записей вождения.
LightOnOCR-2-1B — end-to-end OCR без пайплайнов. SOTA на OlmOCR-Bench, при этом в 9 раз меньше и значительно быстрее Chandra-9B. Мультиязычный, оптимизирован под сканы, французские документы и научные PDF.
Что видим из трендов
Однозначно массовый выход корейских компаний в open-source (LG, Naver, Upstage, SKT), расширение Tencent в нишевых задачах (перевод, 3D, diffusion LM) и появление целого класса моделей для edge-устройств от Liquid AI.
Google сделал ставку на специализированные решения (перевод, медицина), а NVIDIA укрепила позиции в робототехнике и низколатентном ASR. Ждём, что будет в феврале!