5 новых ИИ-инструментов в 2025 году: обзор

Искусственный интеллект продолжает становиться все «интеллектуальнее», а новые инструменты удивляют своей мощью. Рассказываем о пяти решениях, которые уже переворачивают рынок.

191 открытий486 показов
5 новых ИИ-инструментов в 2025 году: обзор

Если несколько лет назад ChatGPT казался нам чем-то невозможным, то сейчас появляются еще более совершенные технологии, которые удивляют не меньше. Многие модели позволяют сгенерировать практически все — от простого текста до голоса и кода.

Недавно крупные компании и небольшие проекты представили свои инструменты. Мы собрали пять решений, которые уже меняют представление об искусственном интеллекте.

Google Titans

В 2017 году Google представила архитектуру Transformer, на базе которой сейчас строятся все ИИ-инструменты, в том числе ChatGPT от OpenAI. А в этом году компания предложила еще более прорывное решение — Titans, или эволюционировавший Трансформер, способное мыслить как человек.

Главная проблема архитектуры Transformer в том, что у нее нет долговременной памяти, поэтому она не может хранить и использовать информацию в течение долгого времени, что и отличало ее от нашей памяти. В Titans этот вопрос закрыт: в ней есть три типа памяти — долгосрочная, краткосрочная и постоянная. Модель умеет запоминать все, но при этом осознанно оставлять только важную информацию.

Основа Трансформеров — механизм внимания (attention). Он работает так, что сравнивает один токен с другим и выбирает наиболее релевантный. Благодаря этому подходу нейронки выявляют связи между словами и на их основе предсказывают следующий токен, выдавая на выходе осмысленный ответ.

При этом механизм внимания — в том числе и слабость старой модели: чем больше данных, тем сложнее искусственному интеллекту сравнивать токены, поэтому он начинает забывать ответы и галлюцинировать.

В Titans эта проблема решается за счет долгосрочной памяти. То есть подобно ChatGPT модель может также обрабатывать ограниченное количество информации, но с долгосрочной памятью она может погрузиться в огромный чертог «разума» и выудить оттуда то, что нужно. Можно сравнить с профессором, который готовится к лекции: у него есть определенный набор знаний в голове, но чтобы освежить их, он смотрит в свои конспекты условно двадцатилетней давности.

5 новых ИИ-инструментов в 2025 году: обзор 1
Здесь хорошо показана стабильность модели относительно других

С таким подходом, который сочетает использование одновременно краткосрочной и долгосрочной памяти, Титан обходит одни из главных ограничений современных моделей: короткое контекстное окно и фиксированный набор информации, который модель может обработать за раз. В общем, если сейчас ChatGPT вмещает примерно 4 тысячи токенов, то в Titans речь идет о 2 миллионах, считайте, как за один присест прочитать всю «Войну и мир» четыре раза.

Другая плюшка долгосрочной памяти — адаптивное обучение. Она подстраивается под новые данные и самостоятельно обрабатывает их. Следовательно, скорость обучения в разы быстрее.

В общем, Google сделал очередной прорыв. Становится даже страшно — если все так, как заявляет компания, то модель действительно может мыслить как человек. А с ее возможностями анализа огромного количества данных можно будет предсказывать курсы валют или другие события.

Transformer Squared от Sakana AI

В январе Sakana AI представила новую модель Трансформера — Transformer Squared, которая умеет самостоятельно адаптироваться под запросы пользователя и обновлять свои значения исходя из запроса. Сам проект можно посмотреть на GitHub.

Как это работает на двух уровнях:

  • Первый этап: здесь модель анализирует запрос пользователя и определяет тип запроса, например, задачка по математике, код для бэкенда или написание эссе. В общем, своего рода диспетчер, который внимательно вас выслушает и перенаправит вас на другого ответственного сотрудника.
  • Второй этап: теперь модель выборочно обновляет свои данные, используя специальные векторы — уже обученные модули — под конкретные задачи и, следовательно, адаптируясь под ваш запрос.

Главная фишка этого похода в точном обучении модели по сингулярным значениям (SVF, Singular Value Finetuning), а помогает ему в этом RL (Reinforcement Learning), которое настраивает «усилители» и «подавители» весовых матриц. Каждую задачу описывает уникальный z-вектор, который регулирует вклад отдельных компонент в работу модели. Например, для задачи по языковому анализу: z-вектор [0.1, 0.3, 1, 0.7, 0.5] подчеркивает важность компонента C. Так, SVF позволяет модели адаптироваться к новым задачам с минимальными изменениями параметров, добавляя лишь компактные z-векторы.

Sakana AI тщательно протестировали модель на задачах по математике (GSM8K, MATH), программированию (MBPP-Pro, HumanEval), логике (ARC-Easy, ARC-Challenge) и визуальному вопрос-ответу (TextVQA, OKVQA). Вот основные результаты:

  • SVF vs. LoRA. SVF превосходит LoRA на текстовых задачах, особенно на GSM8K.
  • Широкий спектр задач. SVF показал высокую точность на текстовых и визуальных задачах (например, pass@1 для MBPP-Pro).
  • Новые задачи. На задачах MATH, HumanEval и ARC-Challenge показывает высокую производительность даже при усложнении методов адаптации.  Few-shot адаптация комбинирует z-векторы разных типов, что делает результаты точнее.
  • Передача знаний. z-векторы, обученные на Llama, улучшили производительность Mistral. Это подтверждает, что передача навыков между моделями со схожей архитектурой вполне возможна.
5 новых ИИ-инструментов в 2025 году: обзор 2
Таблица с результатами

Transformer Squared — действительно большой прорыв в области ИИ, поскольку такое поведение модели при запросах пользователя в скором времени может стать стандартом.

Hailuo AI от MiniMax

Модель T2A-01-HD в Hailuo AI от китайской компании MiniMax научилась (конечно, ее научили) генерить любой голос всего за 10 секунд. Это огромное достижение в области синтеза голоса, поскольку она умеет не только быстро клонировать голоса, но и менять их параметры практически как угодно. Так, вы можете настроить тембр, акцент, пол, возраст спикера, громкость и даже добавить эхо на фон — сейчас в библиотеке доступны более 300 голосов. И все это на 17 языках — в том числе и на русском. В общем, убийца ElevenLabs — еще одного генератора аудио.

Другая главная фича — распознавание эмоциональной окраски. Модель обладает эмоциональным интеллектом и может воспроизводить эмоции в голосе. Пользователи могут как поставить автоматическое определение по отрывку, по которому нужно сгенерить голос, или задать параметры самостоятельно. Кажется, мы скоро будем смотреть стендап от нейросети.

5 новых ИИ-инструментов в 2025 году: обзор 3
Интерфейс Hailuo AI

Протестировать модель можно на сайте — пока бесплатно и без ограничений. И без цензуры.

Cisco AI Defense

В январе Cisco представила AI Defense — инструмент, который должен спасти человечество (по крайней мере, компании) от «поглощения» искусственным интеллектом. Разработчики Cisco уверены, что чем сильнее организации внедряют ИИ, тем больше угроз безопасности появляется, а новый тулз как раз поможет им разрабатывать, развертывать и защищать приложения на базе ИИ.

Вот что под капотом у AI Defense:

  • Прозрачность. Компании получают полную информацию о всех приложениях и агентах ИИ, в том числе о том, санкционированы они или нет. Инструмент умеет отслеживать взаимодействие с пользователями и категоризировать приложения по API и шлюзам.
  • Детальная проверка. Она возможна благодаря методам red teaming (когда программа пытается намеренно взломать вас) и дереву атак с прунингом (обрезка нейросети без потери производительности). В общем, AI Defense проверяет, что ИИ-инструменты работают как надо и без рисков, например, утечки данных.

Безопасность в реальном времени. В инструменте постоянно работают системные блоки, которые не дают ИИ выйти за пределы политики безопасности компании, причем во всех средах — и в облаках, и в Интернете вещей. Если что-то пойдет не так, AI Defense узнает об этом первым и скажет вам.

5 новых ИИ-инструментов в 2025 году: обзор 4

В отличие от встроенных систем безопасности для отдельных моделей, AI Defense предлагает единый подход для работы с разными ИИ. Для этого тулз использует технологии машинного обучения Cisco и данные о киберугрозах от Cisco Talos, чтобы выявлять новые угрозы. AI Defense легко интегрируется с текущими потоками данных и защищает системы на уровне сети.

Генератор кода OpenHands

Сейчас этот тулз просто взрывает GitHub — у проекта уже 44 000 звезд. По словам разработчиков генератора, OpenHands умеет делать все то же самое, что и человек:

  • Создавать с нуля целые программы по одному запросу 
  • Фиксить код и запускать команды 
  • Просматривать веб-страницы
  • Вызывать API
  • И даже копировать сниппеты кода со StackOverflow

Быстрее и проще всего тулзу развернуть в Docker: здесь можно найти системные требования и руководства по запуску. Ее также можно подключить к своей локальной файловой системе, запускать в автономном режиме, плюс можно взаимодействовать с программой через командную строку.

У OpenHands очень простой и дружелюбный интерфейс, а главное — она полностью бесплатная.

Искусственный интеллект действительно не стоит на месте, а новые решения от крупных компаний и опенсорс-проекты не перестают удивлять. Из этих инструментов уже можно попробовать нейронку с синтезом голоса и генератор кода. Делитесь в комментариях, что у вас получилось.
Следите за новыми постами
Следите за новыми постами по любимым темам
191 открытий486 показов