AI задыхается от junk data, а не от нехватки железа
Колонка в Fortune от Jason Corso (Voxel51, UMich) и David Cowan (Bessemer Venture Partners): мы упёрлись не в железо и не в объём данных, а в их качество. Разбираем тезис, кейс закрытия OpenAI Sora и что делать ML-инженерам.
Новости TprogerГлавное узкое место AI-моделей нового поколения — не вычислительные мощности и не доступ к данным как к таковым, а качество данных. Колонка в Fortune от соавторов из венчурной индустрии и инженерного сообщества: гонка за «гигабайты любой ценой» закончилась, junk data (данные, которые формально валидны, но не двигают модель вперёд) тормозит развитие, а индустрия физических AI и world models не взлетит, пока с этим не разберутся.
Аргумент изложили Jason Corso — сооснователь и Chief Science Officer Voxel51, профессор AI в Мичиганском университете — и David Cowan, управляющий партнёр Bessemer Venture Partners (в портфеле фонда Anthropic, Waymo и сам Voxel51). Текст вышел в Fortune 3 мая 2026 года.
Стержневой тезис простой: «scaling hypothesis» (больше данных — умнее модели) отлично сработала, пока исследователи могли «пылесосить» интернет под обучение языковых моделей. Дальше начинается следующий уровень — физический AI (системы, которые действуют в реальном мире через сенсоры и актуаторы — роботы, автономный транспорт) и world models (внутренние модели мира, которые предсказывают последствия действий). Им предстоит работать с физикой, которую нельзя просто скачать: вождение, складывание белья, помощь в хирургических операциях.
Главное
Ключевые выводы
О чём предупреждают Jason Corso и David Cowan
- Авторы Fortune-колонки утверждают: «junk data» становится главным узким местом следующего поколения AI — физических систем и world models.
- Junk data — это не просто плохие данные, а данные, которые не двигают модель вперёд: их легче собрать, их продают AI-data-стартапы вроде Scale AI, Surge AI, Mercor, но качество страдает.
- Для физических AI нужны мультимодальные и многомерные данные с симуляциями реального мира — собирать их в разы дольше и сложнее.
- Кейс OpenAI Sora приводят как наглядный пример: модель отправили в архив, а команду — на другие проекты, потому что world model не понимала физику.
- Авторы призывают переходить с гонки за объёмом на инвестиции в инструменты анализа, чистки, нормализации и коррекции обучающих данных.
Что авторы называют «junk data»
В тексте «junk data» — это не «мусорный спам в датасете» в обычном смысле слова, а более узкое определение: данные, которые не двигают модель вперёд по её задаче и при этом активно ухудшают её. Бывают вполне валидные и аккуратно собранные сэмплы, но если они дублируют то, что модель уже понимает, не покрывают редкие сценарии или приходят из плохо настроенной симуляции — для обучения они мусор. Авторы напрямую пишут, что junk data ухудшает метрики, удлиняет time-to-market и приводит к непредсказуемым результатам.
Сама гонка объёмов спровоцировала рост AI-data-индустрии: Scale AI, Surge AI, Mercor и десятки похожих стартапов с многомиллиардными оценками. Авторы прямо пишут: эти сервисы поставляют огромные объёмы данных, но в основном — «bounty of junk data», который не двигает модели вперёд.
Почему world models страдают сильнее всего
Языковая модель училась на тексте, который человечество уже накопило в интернете. World model должна понимать физику (как падают предметы, как ведут себя жидкости, как отражается свет), социальные сценарии (как ребёнок может выбежать на дорогу), и редкие, но критичные ситуации — то, что в тексте описано вскользь и без точного сенсорного сигнала.
Откуда брать такие данные? Снимать каждую возможную сценку — нереально, поэтому ML-инженеры используют симуляции: десятки часов виртуальных проигрываний реальных ситуаций для одной модели. На этом пути и копится junk data: симуляция дёшево даёт объём, но если она не покрывает крайних случаев — обучение получает количество без качества.
Конкретный пример авторы приводят сами: OpenAI Sora. Приложение Sora было закрыто 26 апреля 2026 года, а команду перевели на другие проекты. По мнению Corso и Cowan, корень проблемы — junk data: обучающий корпус не дал модели достаточного понимания физики, чтобы делать правдоподобные предсказания.
Что авторы предлагают делать
Тезис Corso и Cowan: индустрия должна перенести инвестиции с «купить ещё больше данных» на работу с уже имеющимися. Конкретно — вкладываться в технологии и процессы, которые:
- Анализируют датасет: какие сэмплы реально полезны для конкретной модели, какие — дубль или мусор.
- Чистят: убирают артефакты разметки, ошибки симуляции, повторы.
- Нормализуют: приводят данные из разных источников в единый формат.
- Корректируют: исправляют ошибки в разметке, добавляют покрытие крайних случаев, балансируют классы.
Гипотеза, что больше данных производит более умные системы, оказалась верной — пока не перестала быть верной. Сейчас узкое место — качество данных. Те компании и лаборатории, которые осознают это первыми, и построят AI-системы, которые реально работают в мире.
Авторы заинтересованы в выводе: Voxel51 как раз делает инструменты управления визуальными датасетами, а Bessemer инвестирует и в Voxel51, и в Anthropic с Waymo. Так что аргумент прозвучит и в коммерческом интересе тоже — но сама гипотеза «качество данных стало узким местом» от этого не становится менее обоснованной.
Частые вопросы
Чем junk data отличается от просто плохих данных?
По авторам, плохие данные — это явные ошибки и шум. Junk data шире: формально корректные сэмплы, которые не учат модель ничему новому (дубли, простые случаи, выборки без редких сценариев). Их легко собрать в количестве, но они не двигают качество предсказаний.
Это касается только физических AI?
Авторы делают ставку именно на физические AI и world models — у языковых моделей был уникальный ресурс в виде открытого интернета. Но проблема качества всплывает и в LLM. Известный сценарий — model collapse: когда генеративную модель начинают обучать на её же синтетических выходах, в очередном поколении она деградирует, и индустрия это уже видит.
Что такое world model простыми словами?
Это семейство AI-моделей, которые держат внутреннее представление о том, как мир устроен и как реагирует на действия. Сюда входят и видеогенеративные (Sora от OpenAI, Genie от DeepMind), и предиктивные для робототехники и RL (Dreamer, JEPA Янна Лекуна). Полезны автономным автомобилям, роботам и видеогенерации: модель предсказывает, что будет, если повернуть руль или толкнуть стол. Без понимания физики предсказания получаются галлюцинаторными — что и привело, по мнению авторов, к закрытию приложения Sora.
Почему AI-data-стартапы виноваты?
Авторы их прямо не «обвиняют», но указывают: бизнес-модель Scale AI, Surge AI, Mercor и подобных — продавать объём. Чем больше разметки в час — тем выше выручка. Это естественно создаёт стимулы к лёгкой junk-data, а не к редким сложным сэмплам, которые двигают модель вперёд.
Что делать ML-инженерам прямо сейчас?
По колонке: считать вклад каждого сэмпла в финальное качество модели и не наращивать объём ради объёма. Из практичного — инструменты управления визуальными датасетами вроде FiftyOne (продукт Voxel51) и проверки разметки вроде Cleanlab; они умеют находить дубли, противоречивые метки и недопредставленные классы. Дальше — приоритезировать редкие и сложные сценарии, и не складывать в датасет то, что не двигает модель вперёд.
Выводы
Колонка — авторская позиция двух человек, у которых есть прямой коммерческий интерес в обсуждаемом тренде. Это не отчёт от большой исследовательской группы и не позиция «индустрии». Но сам тезис рифмуется с тем, что говорят и в DeepMind, и в Tesla AI, и у разработчиков small open-source-моделей: на следующем уровне сложности количество данных без работы над их качеством перестаёт масштабироваться.
Для практика — простое следствие: при настройке нового пайплайна стоит начинать с инструментов оценки качества датасета и пометки редких/сложных сэмплов, а не с накачки объёма любой ценой.
Полный текст колонки — на Fortune.com. Авторы: Jason Corso (Voxel51, Мичиганский университет) и David Cowan (Bessemer Venture Partners).