OpenAI запустила Parameter Golf — $1M на обучение LLM в 16 МБ за 10 минут
Задача — обучить языковую модель с нуля, уложившись в 16 МБ параметров и 10 минут на одном GPU. Лидерборд обновляется в реальном времени.
Новости Tproger, отредактировано
OpenAI запустила Parameter Golf — соревнование, где нужно обучить лучшую языковую модель, которая помещается в 16 МБ и обучается за 10 минут на 8×H100. Призовой фонд — $1 000 000 в compute-кредитах через Runpod.
Ключевые выводы
— Цель: обучить лучшую LM в артефакте ≤16 МБ за ≤10 минут на 8×H100
— Метрика: bits per byte на FineWeb validation set (чем ниже, тем лучше)
— $1 000 000 compute-кредитов от OpenAI через Runpod
— Лидерборд: лучший результат 1,1194 bpb (LeakyReLU² + TTT + Parallel Muon)
— Срок: 18 марта — 30 апреля 2026
— OpenAI ищет исследователей через этот конкурс
Правила и метрика
Задача: обучить языковую модель, которая укладывается в три ограничения:
- Размер артефакта ≤16 МБ — всё, включая веса, токенизатор, код
- Время обучения ≤10 минут на 8×H100 (SXM)
- Метрика — bits per byte (bpb) на FineWeb validation set. Оценка не зависит от токенизатора — считается сжатие в байтах
Если neural scaling laws описывают зависимость качества от размера модели, то Parameter Golf — экстремальная точка этой кривой: минимальный loss при жёстко фиксированном числе параметров.
Что пробуют участники
За первые две недели участники нашли несколько подходов, которые серьёзно двигают лидерборд:
- Агрессивная квантизация. Int6, int5, ternary (1/0/−1) и даже 1-bit квантизация. Один участник квантизировал 73,7M параметров в тернарные веса и уместил в 16 МБ
- Test-time training (TTT). Адаптация модели к валидационным данным перед оценкой через LoRA-адаптеры — легальный по правилам конкурса способ улучшить метрику
- Нестандартные архитектуры. Depth recurrence (повторное использование слоёв), cross-sequence attention на последних слоях для улучшения контекста, кастомные токенизаторы
- Sliding window eval. Оценка на длинных контекстах через скользящее окно вместо фиксированного
Лидерборд
Топ-3 на 23 марта 2026:
- 1,1194 bpb — abaybektursun: LeakyReLU² + Legal Score-First TTT + Parallel Muon
- 1,1228 bpb — signalrush: GPTQ-lite clip search + EMA + warmdown3500 + QAT@0.15
- 1,1248 bpb — jfprincz: Partial RoPE (16/64) + layerwise LN scale
Baseline (наивная модель) — 1,2244 bpb. За 5 дней участники улучшили результат на 8,6%.
Как участвовать
Репозиторий на GitHub содержит готовый baseline-код на PyTorch и MLX (для Mac с Apple Silicon):
Для работы на GPU OpenAI рекомендует Runpod. 1×H100 стоит ~$2–3/час, 8×H100 — ~$20/час. Для заявки на compute-кредиты — форма в репозитории.
Зачем это OpenAI
OpenAI прямо пишет: конкурс создан по духу олимпиадных соревнований. Компания планирует в июне нанять небольшую когорту early-career исследователей — выпускников и студентов, включая олимпиадных медалистов. Для сильных участников Parameter Golf может стать способом попасть на радар рекрутёров OpenAI.
Частые вопросы
Можно ли участвовать без H100?
Да. Baseline можно обучить на Mac с Apple Silicon через MLX-скрипт. Для финальных сабмитов нужны 8×H100, но для экспериментов достаточно любого GPU. OpenAI выдаёт compute-кредиты по заявке.
Что такое bits per byte?
Метрика сжатия, не зависящая от токенизатора. Показывает, сколько бит нужно модели для кодирования одного байта текста. Чем ниже — тем лучше модель предсказывает текст.
Можно ли использовать предобученные веса?
Нет. Модель должна быть обучена с нуля за 10 минут на 8×H100. Весь артефакт — веса, токенизатор, код — должен уместиться в 16 МБ.
Выводы
Parameter Golf — редкий конкурс, где побеждает не тот, у кого больше GPU, а тот, кто умнее сжимает. Ternary квантизация, test-time training, нестандартные архитектуры — участники уже демонстрируют подходы, которые могут оказаться полезными далеко за пределами соревнования. Дедлайн — 30 апреля 2026.