OpenAI запустила Parameter Golf — $1M на обучение LLM в 16 МБ за 10 минут

Задача — обучить языковую модель с нуля, уложившись в 16 МБ параметров и 10 минут на одном GPU. Лидерборд обновляется в реальном времени.

Обложка: OpenAI запустила Parameter Golf — $1M на обучение LLM в 16 МБ за 10 минут

OpenAI запустила Parameter Golf — соревнование, где нужно обучить лучшую языковую модель, которая помещается в 16 МБ и обучается за 10 минут на 8×H100. Призовой фонд — $1 000 000 в compute-кредитах через Runpod.

Ключевые выводы

— Цель: обучить лучшую LM в артефакте ≤16 МБ за ≤10 минут на 8×H100

— Метрика: bits per byte на FineWeb validation set (чем ниже, тем лучше)

— $1 000 000 compute-кредитов от OpenAI через Runpod

— Лидерборд: лучший результат 1,1194 bpb (LeakyReLU² + TTT + Parallel Muon)

— Срок: 18 марта — 30 апреля 2026

— OpenAI ищет исследователей через этот конкурс

Правила и метрика

Задача: обучить языковую модель, которая укладывается в три ограничения:

  • Размер артефакта ≤16 МБ — всё, включая веса, токенизатор, код
  • Время обучения ≤10 минут на 8×H100 (SXM)
  • Метрика — bits per byte (bpb) на FineWeb validation set. Оценка не зависит от токенизатора — считается сжатие в байтах

Если neural scaling laws описывают зависимость качества от размера модели, то Parameter Golf — экстремальная точка этой кривой: минимальный loss при жёстко фиксированном числе параметров.

Что пробуют участники

За первые две недели участники нашли несколько подходов, которые серьёзно двигают лидерборд:

  • Агрессивная квантизация. Int6, int5, ternary (1/0/−1) и даже 1-bit квантизация. Один участник квантизировал 73,7M параметров в тернарные веса и уместил в 16 МБ
  • Test-time training (TTT). Адаптация модели к валидационным данным перед оценкой через LoRA-адаптеры — легальный по правилам конкурса способ улучшить метрику
  • Нестандартные архитектуры. Depth recurrence (повторное использование слоёв), cross-sequence attention на последних слоях для улучшения контекста, кастомные токенизаторы
  • Sliding window eval. Оценка на длинных контекстах через скользящее окно вместо фиксированного

Лидерборд

Топ-3 на 23 марта 2026:

  • 1,1194 bpb — abaybektursun: LeakyReLU² + Legal Score-First TTT + Parallel Muon
  • 1,1228 bpb — signalrush: GPTQ-lite clip search + EMA + warmdown3500 + QAT@0.15
  • 1,1248 bpb — jfprincz: Partial RoPE (16/64) + layerwise LN scale

Baseline (наивная модель) — 1,2244 bpb. За 5 дней участники улучшили результат на 8,6%.

Как участвовать

Репозиторий на GitHub содержит готовый baseline-код на PyTorch и MLX (для Mac с Apple Silicon):

			git clone https://github.com/openai/parameter-golf.git
cd parameter-golf
python3 -m venv .venv && source .venv/bin/activate
pip install -r requirements.txt

# Скачать данные FineWeb
python3 data/cached_challenge_fineweb.py --variant sp1024

# Запустить обучение (MLX, Apple Silicon)
RUN_ID=smoke ITERATIONS=200 python3 train_gpt_mlx.py
		

Для работы на GPU OpenAI рекомендует Runpod. 1×H100 стоит ~$2–3/час, 8×H100 — ~$20/час. Для заявки на compute-кредиты — форма в репозитории.

Зачем это OpenAI

OpenAI прямо пишет: конкурс создан по духу олимпиадных соревнований. Компания планирует в июне нанять небольшую когорту early-career исследователей — выпускников и студентов, включая олимпиадных медалистов. Для сильных участников Parameter Golf может стать способом попасть на радар рекрутёров OpenAI.

Частые вопросы
1
Можно ли участвовать без H100?

Да. Baseline можно обучить на Mac с Apple Silicon через MLX-скрипт. Для финальных сабмитов нужны 8×H100, но для экспериментов достаточно любого GPU. OpenAI выдаёт compute-кредиты по заявке.

2
Что такое bits per byte?

Метрика сжатия, не зависящая от токенизатора. Показывает, сколько бит нужно модели для кодирования одного байта текста. Чем ниже — тем лучше модель предсказывает текст.

3
Можно ли использовать предобученные веса?

Нет. Модель должна быть обучена с нуля за 10 минут на 8×H100. Весь артефакт — веса, токенизатор, код — должен уместиться в 16 МБ.

Выводы

Parameter Golf — редкий конкурс, где побеждает не тот, у кого больше GPU, а тот, кто умнее сжимает. Ternary квантизация, test-time training, нестандартные архитектуры — участники уже демонстрируют подходы, которые могут оказаться полезными далеко за пределами соревнования. Дедлайн — 30 апреля 2026.