AI задыхается от junk data, а не от нехватки железа

Колонка в Fortune от Jason Corso (Voxel51, UMich) и David Cowan (Bessemer Venture Partners): мы упёрлись не в железо и не в объём данных, а в их качество. Разбираем тезис, кейс закрытия OpenAI Sora и что делать ML-инженерам.

Обложка: AI задыхается от junk data, а не от нехватки железа

Главное узкое место AI-моделей нового поколения — не вычислительные мощности и не доступ к данным как к таковым, а качество данных. Колонка в Fortune от соавторов из венчурной индустрии и инженерного сообщества: гонка за «гигабайты любой ценой» закончилась, junk data (данные, которые формально валидны, но не двигают модель вперёд) тормозит развитие, а индустрия физических AI и world models не взлетит, пока с этим не разберутся.

Аргумент изложили Jason Corso — сооснователь и Chief Science Officer Voxel51, профессор AI в Мичиганском университете — и David Cowan, управляющий партнёр Bessemer Venture Partners (в портфеле фонда Anthropic, Waymo и сам Voxel51). Текст вышел в Fortune 3 мая 2026 года.

Стержневой тезис простой: «scaling hypothesis» (больше данных — умнее модели) отлично сработала, пока исследователи могли «пылесосить» интернет под обучение языковых моделей. Дальше начинается следующий уровень — физический AI (системы, которые действуют в реальном мире через сенсоры и актуаторы — роботы, автономный транспорт) и world models (внутренние модели мира, которые предсказывают последствия действий). Им предстоит работать с физикой, которую нельзя просто скачать: вождение, складывание белья, помощь в хирургических операциях.

Главное
Ключевые выводы
О чём предупреждают Jason Corso и David Cowan
  • Авторы Fortune-колонки утверждают: «junk data» становится главным узким местом следующего поколения AI — физических систем и world models.
  • Junk data — это не просто плохие данные, а данные, которые не двигают модель вперёд: их легче собрать, их продают AI-data-стартапы вроде Scale AI, Surge AI, Mercor, но качество страдает.
  • Для физических AI нужны мультимодальные и многомерные данные с симуляциями реального мира — собирать их в разы дольше и сложнее.
  • Кейс OpenAI Sora приводят как наглядный пример: модель отправили в архив, а команду — на другие проекты, потому что world model не понимала физику.
  • Авторы призывают переходить с гонки за объёмом на инвестиции в инструменты анализа, чистки, нормализации и коррекции обучающих данных.

Что авторы называют «junk data»

В тексте «junk data» — это не «мусорный спам в датасете» в обычном смысле слова, а более узкое определение: данные, которые не двигают модель вперёд по её задаче и при этом активно ухудшают её. Бывают вполне валидные и аккуратно собранные сэмплы, но если они дублируют то, что модель уже понимает, не покрывают редкие сценарии или приходят из плохо настроенной симуляции — для обучения они мусор. Авторы напрямую пишут, что junk data ухудшает метрики, удлиняет time-to-market и приводит к непредсказуемым результатам.

Сама гонка объёмов спровоцировала рост AI-data-индустрии: Scale AI, Surge AI, Mercor и десятки похожих стартапов с многомиллиардными оценками. Авторы прямо пишут: эти сервисы поставляют огромные объёмы данных, но в основном — «bounty of junk data», который не двигает модели вперёд.

Почему world models страдают сильнее всего

Языковая модель училась на тексте, который человечество уже накопило в интернете. World model должна понимать физику (как падают предметы, как ведут себя жидкости, как отражается свет), социальные сценарии (как ребёнок может выбежать на дорогу), и редкие, но критичные ситуации — то, что в тексте описано вскользь и без точного сенсорного сигнала.

Откуда брать такие данные? Снимать каждую возможную сценку — нереально, поэтому ML-инженеры используют симуляции: десятки часов виртуальных проигрываний реальных ситуаций для одной модели. На этом пути и копится junk data: симуляция дёшево даёт объём, но если она не покрывает крайних случаев — обучение получает количество без качества.

Конкретный пример авторы приводят сами: OpenAI Sora. Приложение Sora было закрыто 26 апреля 2026 года, а команду перевели на другие проекты. По мнению Corso и Cowan, корень проблемы — junk data: обучающий корпус не дал модели достаточного понимания физики, чтобы делать правдоподобные предсказания.

Что авторы предлагают делать

Тезис Corso и Cowan: индустрия должна перенести инвестиции с «купить ещё больше данных» на работу с уже имеющимися. Конкретно — вкладываться в технологии и процессы, которые:

  • Анализируют датасет: какие сэмплы реально полезны для конкретной модели, какие — дубль или мусор.
  • Чистят: убирают артефакты разметки, ошибки симуляции, повторы.
  • Нормализуют: приводят данные из разных источников в единый формат.
  • Корректируют: исправляют ошибки в разметке, добавляют покрытие крайних случаев, балансируют классы.
Гипотеза, что больше данных производит более умные системы, оказалась верной — пока не перестала быть верной. Сейчас узкое место — качество данных. Те компании и лаборатории, которые осознают это первыми, и построят AI-системы, которые реально работают в мире.
Jason Corso, David Cowanколонка в Fortune, 3 мая 2026

Авторы заинтересованы в выводе: Voxel51 как раз делает инструменты управления визуальными датасетами, а Bessemer инвестирует и в Voxel51, и в Anthropic с Waymo. Так что аргумент прозвучит и в коммерческом интересе тоже — но сама гипотеза «качество данных стало узким местом» от этого не становится менее обоснованной.

Частые вопросы
1
Чем junk data отличается от просто плохих данных?

По авторам, плохие данные — это явные ошибки и шум. Junk data шире: формально корректные сэмплы, которые не учат модель ничему новому (дубли, простые случаи, выборки без редких сценариев). Их легко собрать в количестве, но они не двигают качество предсказаний.

2
Это касается только физических AI?

Авторы делают ставку именно на физические AI и world models — у языковых моделей был уникальный ресурс в виде открытого интернета. Но проблема качества всплывает и в LLM. Известный сценарий — model collapse: когда генеративную модель начинают обучать на её же синтетических выходах, в очередном поколении она деградирует, и индустрия это уже видит.

3
Что такое world model простыми словами?

Это семейство AI-моделей, которые держат внутреннее представление о том, как мир устроен и как реагирует на действия. Сюда входят и видеогенеративные (Sora от OpenAI, Genie от DeepMind), и предиктивные для робототехники и RL (Dreamer, JEPA Янна Лекуна). Полезны автономным автомобилям, роботам и видеогенерации: модель предсказывает, что будет, если повернуть руль или толкнуть стол. Без понимания физики предсказания получаются галлюцинаторными — что и привело, по мнению авторов, к закрытию приложения Sora.

4
Почему AI-data-стартапы виноваты?

Авторы их прямо не «обвиняют», но указывают: бизнес-модель Scale AI, Surge AI, Mercor и подобных — продавать объём. Чем больше разметки в час — тем выше выручка. Это естественно создаёт стимулы к лёгкой junk-data, а не к редким сложным сэмплам, которые двигают модель вперёд.

5
Что делать ML-инженерам прямо сейчас?

По колонке: считать вклад каждого сэмпла в финальное качество модели и не наращивать объём ради объёма. Из практичного — инструменты управления визуальными датасетами вроде FiftyOne (продукт Voxel51) и проверки разметки вроде Cleanlab; они умеют находить дубли, противоречивые метки и недопредставленные классы. Дальше — приоритезировать редкие и сложные сценарии, и не складывать в датасет то, что не двигает модель вперёд.

Выводы

Колонка — авторская позиция двух человек, у которых есть прямой коммерческий интерес в обсуждаемом тренде. Это не отчёт от большой исследовательской группы и не позиция «индустрии». Но сам тезис рифмуется с тем, что говорят и в DeepMind, и в Tesla AI, и у разработчиков small open-source-моделей: на следующем уровне сложности количество данных без работы над их качеством перестаёт масштабироваться.

Для практика — простое следствие: при настройке нового пайплайна стоит начинать с инструментов оценки качества датасета и пометки редких/сложных сэмплов, а не с накачки объёма любой ценой.

Полный текст колонки — на Fortune.com. Авторы: Jason Corso (Voxel51, Мичиганский университет) и David Cowan (Bessemer Venture Partners).