ROCm идёт за CUDA «шаг за шагом»: AMD рассказала, как закрывает отставание в ИИ-софте
AMD за два с половиной года перестроила ROCm: единый стек для всех ускорителей, Triton как универсальный язык GPU-ядер, поддержка ноутбуков из коробки. Разбираем, что изменилось и стоит ли пробовать.
Новости TprogerЕсли вы пишете GPU-код или выбираете железо под инференс LLM, у вас теперь меньше причин завязываться на CUDA. AMD за последние два с половиной года перестроила ROCm в полноценный ИИ-стек: единый OneROCm для всех ускорителей, ставка на Triton как «великий уравнитель GPU-программирования», поддержка ноутбуков на Strix Halo из коробки и обещанный переход на шестинедельный релизный цикл. В эксклюзивном интервью EE Times вице-президент AMD по ИИ-софту Ануш Элангован объяснил, как именно ROCm догоняет CUDA — и почему конвертировать CUDA-ядра в HIP больше никто не просит. Разрыв в обучении и в зрелости сторонних библиотек у Nvidia пока остаётся, но в инференсе AMD догнала по сценарию использования.
Ключевые выводы
- Конвертация CUDA → HIP перестала быть востребованной — большинство LLM-инференс-команд работает через vLLM или SGLang с нативной поддержкой ROCm.
- Triton стал универсальным языком GPU-программирования: один и тот же код GPU-ядра запускается на AMD и Nvidia.
- ROCm — на 100% открытый исходный код (кроме прошивок); часть фиксов в стек приходит от коммьюнити, а не только от AMD.
- ROCm работает на ноутбуках со Strix Halo с теми же релизами, что и на дата-центровых Instinct.
- AMD обработала все 1000+ жалоб из прошлогоднего GitHub-опроса (часть — силами AMD, часть — силами коммьюнити) и обещает шестинедельный релизный цикл по образцу Chrome.
Почему это важно сейчас
Доля Nvidia в дата-центровых GPU держится во многом за счёт CUDA — её зрелого тулчейна, документации, библиотек и почти двух десятилетий кода в открытых репозиториях. Это и есть тот «ров», за который Nvidia стала самой дорогой компанией в мире. Чтобы откусить от этого пирога, AMD нужно не догнать CUDA по фичам, а сделать ROCm платформой, на которую разработчик вообще не обращает внимания. «Вы пользуетесь Chrome и не знаете, какая у вас версия — потому что это просто работает», — описывает цель Элангован в интервью EE Times.
Два с половиной года назад, когда AMD купила стартап Nod.ai Элангована (30 человек, пять-шесть лет работы над компиляторами для ИИ, ключевые контрибьюторы в Shark, Torch.MLIR и IREE), ROCm был, по словам самого Элангована, «набором кусков»: «Это росло из ASIC-прошивок: вот один кусок прошивки, вот другой — давайте свяжем». Сегодня команда релизит как софтверная компания, а не как производитель чипов.
OneROCm: единый стек для всех ускорителей AMD
Главное архитектурное изменение — унификация. Раньше AMD стремилась свести AI-стеки под разными типами железа — CPU, GPU и FPGA — в одну архитектуру. Внутренний проект OneROCm унифицировал стек: часть низкоуровневых компонентов остаётся железо-специфичной, но любое ускорение теперь проходит через ROCm. Это даёт переносимость между типами AMD-железа: код, написанный под Instinct в дата-центре, должен идти и на интегрированной графике ноутбука.
Переносимость между AMD и Nvidia два года назад была проблемой, а сегодня — почти нет. Разработчики ушли вверх по стеку, и место «общего знаменателя» занял Triton — открытый Python-DSL для GPU-ядер, который активно развивает OpenAI.
Triton — великий уравнитель
Когда-то речь шла о конвертации CUDA-ядер в HIP. Но всё больше людей переходили на Triton, который стал великим уравнителем GPU-программирования. Этот уравнитель позволяет написать Triton-ядро и запустить его на AMD или Nvidia. Мы серьёзно вложились в Triton.
Один из ключевых инженеров бывшей Nod возглавляет работу над Triton внутри AMD и тесно работает с OpenAI. Параллельно AMD вкладывается в MLIR — компиляторную инфраструктуру для ускорителей — и продолжает поддерживать Torch.MLIR, через который PyTorch-код можно перетаргетить на разное железо.
Запросы «сконвертируйте CUDA-кернел в HIP» Элангован называет редкостью среди клиентов AMD: «Большинство клиентов на инференсе используют vLLM или SGLang, гоняют одну из нескольких LLM и хотят максимум токенов в секунду. У нас есть Triton-ядра, и если появляется новый attention-алгоритм, который мы не предусмотрели, Triton — это catch-all. За пару дней мы делаем оптимизированную версию для скорости. Когда мы показываем, что развёртывание идентично, клиент делает pip install vLLM — и всё внутри».
Для HPC-сценариев HIPify по-прежнему доступен и решает свою задачу — конвертацию CUDA-исходников в HIP. Для написания и валидации новых ядер Элангован полагается на ИИ-инструменты вроде Claude: «Claude лучше HIPify — у него встроен веб-поиск».
Полностью открытый код и коммьюнити
ROCm — на 100% открытый исходный код, всё, кроме прошивок. Это держит стек под прицелом разработчиков, но даёт и преимущество: коммьюнити двигается быстрее, чем смогла бы любая компания.
Каждый может зацепиться в той точке, в которой ему интересно — в компиляторе, в рантайме, где угодно. И ограничен только своими навыками, а не тем, как быстро AMD сможет подключить его к работе.
Важная стратегическая ставка — ноутбуки на AMD Strix Halo. ROCm на них работает «из коробки», а Windows-релизы выходят в тот же день, что и версия для дата-центрового Instinct. Логика очевидна — массовый разработчик не покупает MI300X на пробу, а ноутбук на Strix Halo — рабочий вариант, чтобы потрогать стек руками.
В прошлом году AMD провела на GitHub опрос про претензии к ROCm и собрала больше 1000 ответов. Многие касались поддержки старого железа — её закрыли либо силами AMD, либо коммьюнити. По словам Элангована, на сегодняшний день все 1000+ жалоб обработаны — часть силами AMD, часть силами коммьюнити. Сам он мониторит ключевые слова в X (включая «ROCm sucks» и «AMD software not working») и отвечает лично — называет это «одной из своих side jobs».
Что дальше: MI450 и шестинедельный цикл
Следующий большой релиз — MI450, который AMD планирует на вторую половину 2026 года. Параллельно команда ROCm ищет фичи, которые отличали бы стек от CUDA, а не просто закрывали отставание. Цель — релизный цикл в шесть недель и «невидимость» по образцу Chrome: версия не важна, потому что всё работает.
Параллельно AMD поглядывает в сторону ИИ-ассистированной разработки: сами инженеры ROCm используют LLM для генерации и валидации новых ядер. Это меняет экономику работы над стеком — то, на что раньше уходили месяцы, можно делать за дни, особенно для редких алгоритмических вариантов.
Часто задаваемые вопросы
Что такое ROCm простыми словами?
ROCm (Radeon Open Compute) — это открытый программный стек AMD для GPU-вычислений: драйверы, рантайм, компиляторы, библиотеки линейной алгебры и интеграции с фреймворками вроде PyTorch. Аналог CUDA от Nvidia, только полностью с открытым исходным кодом.
Можно ли запустить CUDA-код на AMD GPU?
Да, через инструмент HIPify, который автоматически переводит CUDA-исходники в HIP — портативный язык AMD. Но в 2026 году это уже редкий сценарий: большинство задач инференса LLM решается через vLLM или SGLang, которые поддерживают ROCm нативно. Для написания новых GPU-ядер всё чаще используют Triton — он работает на обеих платформах без переписывания.
Что такое Triton и почему он важен?
Triton — открытый Python-DSL для GPU-ядер, который активно развивает OpenAI. Один и тот же код компилируется и под Nvidia, и под AMD (а в перспективе под другие ускорители). Это снимает главный барьер миграции: разработчику больше не нужно выбирать между производительностью под одну платформу и переносимостью.
На каком AMD-железе работает ROCm?
На дата-центровых ускорителях Instinct (MI200/MI300, в перспективе MI450), на поддерживаемых десктопных Radeon и на ноутбуках на базе Ryzen AI, включая Strix Halo. Актуальный список совместимого железа — в документации ROCm.
Стоит ли разработчику инвестировать время в ROCm в 2026 году?
Если вы пишете прикладной код через PyTorch, vLLM или SGLang — переход почти бесплатный. Если работаете с низкоуровневыми ядрами — лучше изучать Triton, чем привязываться к CUDA-специфике. Главный риск — экосистемная зрелость: документация и третьесторонние библиотеки под CUDA пока шире, но разрыв сокращается.
Итог
ROCm перестал быть «набором кусков» и превратился в стек, который AMD позиционирует как платформу на 10 лет вперёд. Главная ставка — не в том, чтобы конкурировать с CUDA по фичам, а в том, чтобы стать невидимым: разработчик не должен думать, на каком ускорителе он работает. На сегодняшний день этот сценарий хорошо работает на инференсе LLM; обучение, экосистема третьесторонних библиотек и инструментов профилирования у Nvidia всё ещё богаче — это и есть основной разрыв, который AMD предстоит закрывать.
Что делать сейчас: если вы выбираете железо под новый ИИ-проект, попробуйте развернуть vLLM на ROCm (AMD публикует готовые Docker-образы и инструкцию по установке) и сравнить токены в секунду. Если вы пишете GPU-ядра — посмотрите Triton: переписать ядро под него один раз дешевле, чем поддерживать две версии под CUDA и HIP.
Источник: EE Times — Taking on CUDA With ROCm: «One Step After Another» (эксклюзивное интервью с Анушем Элангованом, AMD).