5 новых ИИ-инструментов в 2025 году: обзор
Искусственный интеллект продолжает становиться все «интеллектуальнее», а новые инструменты удивляют своей мощью. Рассказываем о пяти решениях, которые уже переворачивают рынок.
191 открытий486 показов
Если несколько лет назад ChatGPT казался нам чем-то невозможным, то сейчас появляются еще более совершенные технологии, которые удивляют не меньше. Многие модели позволяют сгенерировать практически все — от простого текста до голоса и кода.
Недавно крупные компании и небольшие проекты представили свои инструменты. Мы собрали пять решений, которые уже меняют представление об искусственном интеллекте.
Google Titans
В 2017 году Google представила архитектуру Transformer, на базе которой сейчас строятся все ИИ-инструменты, в том числе ChatGPT от OpenAI. А в этом году компания предложила еще более прорывное решение — Titans, или эволюционировавший Трансформер, способное мыслить как человек.
Главная проблема архитектуры Transformer в том, что у нее нет долговременной памяти, поэтому она не может хранить и использовать информацию в течение долгого времени, что и отличало ее от нашей памяти. В Titans этот вопрос закрыт: в ней есть три типа памяти — долгосрочная, краткосрочная и постоянная. Модель умеет запоминать все, но при этом осознанно оставлять только важную информацию.
Основа Трансформеров — механизм внимания (attention). Он работает так, что сравнивает один токен с другим и выбирает наиболее релевантный. Благодаря этому подходу нейронки выявляют связи между словами и на их основе предсказывают следующий токен, выдавая на выходе осмысленный ответ.
При этом механизм внимания — в том числе и слабость старой модели: чем больше данных, тем сложнее искусственному интеллекту сравнивать токены, поэтому он начинает забывать ответы и галлюцинировать.
В Titans эта проблема решается за счет долгосрочной памяти. То есть подобно ChatGPT модель может также обрабатывать ограниченное количество информации, но с долгосрочной памятью она может погрузиться в огромный чертог «разума» и выудить оттуда то, что нужно. Можно сравнить с профессором, который готовится к лекции: у него есть определенный набор знаний в голове, но чтобы освежить их, он смотрит в свои конспекты условно двадцатилетней давности.
С таким подходом, который сочетает использование одновременно краткосрочной и долгосрочной памяти, Титан обходит одни из главных ограничений современных моделей: короткое контекстное окно и фиксированный набор информации, который модель может обработать за раз. В общем, если сейчас ChatGPT вмещает примерно 4 тысячи токенов, то в Titans речь идет о 2 миллионах, считайте, как за один присест прочитать всю «Войну и мир» четыре раза.
Другая плюшка долгосрочной памяти — адаптивное обучение. Она подстраивается под новые данные и самостоятельно обрабатывает их. Следовательно, скорость обучения в разы быстрее.
В общем, Google сделал очередной прорыв. Становится даже страшно — если все так, как заявляет компания, то модель действительно может мыслить как человек. А с ее возможностями анализа огромного количества данных можно будет предсказывать курсы валют или другие события.
Transformer Squared от Sakana AI
В январе Sakana AI представила новую модель Трансформера — Transformer Squared, которая умеет самостоятельно адаптироваться под запросы пользователя и обновлять свои значения исходя из запроса. Сам проект можно посмотреть на GitHub.
Как это работает на двух уровнях:
- Первый этап: здесь модель анализирует запрос пользователя и определяет тип запроса, например, задачка по математике, код для бэкенда или написание эссе. В общем, своего рода диспетчер, который внимательно вас выслушает и перенаправит вас на другого ответственного сотрудника.
- Второй этап: теперь модель выборочно обновляет свои данные, используя специальные векторы — уже обученные модули — под конкретные задачи и, следовательно, адаптируясь под ваш запрос.
Главная фишка этого похода в точном обучении модели по сингулярным значениям (SVF, Singular Value Finetuning), а помогает ему в этом RL (Reinforcement Learning), которое настраивает «усилители» и «подавители» весовых матриц. Каждую задачу описывает уникальный z-вектор, который регулирует вклад отдельных компонент в работу модели. Например, для задачи по языковому анализу: z-вектор [0.1, 0.3, 1, 0.7, 0.5] подчеркивает важность компонента C. Так, SVF позволяет модели адаптироваться к новым задачам с минимальными изменениями параметров, добавляя лишь компактные z-векторы.
Sakana AI тщательно протестировали модель на задачах по математике (GSM8K, MATH), программированию (MBPP-Pro, HumanEval), логике (ARC-Easy, ARC-Challenge) и визуальному вопрос-ответу (TextVQA, OKVQA). Вот основные результаты:
- SVF vs. LoRA. SVF превосходит LoRA на текстовых задачах, особенно на GSM8K.
- Широкий спектр задач. SVF показал высокую точность на текстовых и визуальных задачах (например, pass@1 для MBPP-Pro).
- Новые задачи. На задачах MATH, HumanEval и ARC-Challenge показывает высокую производительность даже при усложнении методов адаптации. Few-shot адаптация комбинирует z-векторы разных типов, что делает результаты точнее.
- Передача знаний. z-векторы, обученные на Llama, улучшили производительность Mistral. Это подтверждает, что передача навыков между моделями со схожей архитектурой вполне возможна.
Transformer Squared — действительно большой прорыв в области ИИ, поскольку такое поведение модели при запросах пользователя в скором времени может стать стандартом.
Hailuo AI от MiniMax
Модель T2A-01-HD в Hailuo AI от китайской компании MiniMax научилась (конечно, ее научили) генерить любой голос всего за 10 секунд. Это огромное достижение в области синтеза голоса, поскольку она умеет не только быстро клонировать голоса, но и менять их параметры практически как угодно. Так, вы можете настроить тембр, акцент, пол, возраст спикера, громкость и даже добавить эхо на фон — сейчас в библиотеке доступны более 300 голосов. И все это на 17 языках — в том числе и на русском. В общем, убийца ElevenLabs — еще одного генератора аудио.
Другая главная фича — распознавание эмоциональной окраски. Модель обладает эмоциональным интеллектом и может воспроизводить эмоции в голосе. Пользователи могут как поставить автоматическое определение по отрывку, по которому нужно сгенерить голос, или задать параметры самостоятельно. Кажется, мы скоро будем смотреть стендап от нейросети.
Протестировать модель можно на сайте — пока бесплатно и без ограничений. И без цензуры.
Cisco AI Defense
В январе Cisco представила AI Defense — инструмент, который должен спасти человечество (по крайней мере, компании) от «поглощения» искусственным интеллектом. Разработчики Cisco уверены, что чем сильнее организации внедряют ИИ, тем больше угроз безопасности появляется, а новый тулз как раз поможет им разрабатывать, развертывать и защищать приложения на базе ИИ.
Вот что под капотом у AI Defense:
- Прозрачность. Компании получают полную информацию о всех приложениях и агентах ИИ, в том числе о том, санкционированы они или нет. Инструмент умеет отслеживать взаимодействие с пользователями и категоризировать приложения по API и шлюзам.
- Детальная проверка. Она возможна благодаря методам red teaming (когда программа пытается намеренно взломать вас) и дереву атак с прунингом (обрезка нейросети без потери производительности). В общем, AI Defense проверяет, что ИИ-инструменты работают как надо и без рисков, например, утечки данных.
Безопасность в реальном времени. В инструменте постоянно работают системные блоки, которые не дают ИИ выйти за пределы политики безопасности компании, причем во всех средах — и в облаках, и в Интернете вещей. Если что-то пойдет не так, AI Defense узнает об этом первым и скажет вам.
В отличие от встроенных систем безопасности для отдельных моделей, AI Defense предлагает единый подход для работы с разными ИИ. Для этого тулз использует технологии машинного обучения Cisco и данные о киберугрозах от Cisco Talos, чтобы выявлять новые угрозы. AI Defense легко интегрируется с текущими потоками данных и защищает системы на уровне сети.
Генератор кода OpenHands
Сейчас этот тулз просто взрывает GitHub — у проекта уже 44 000 звезд. По словам разработчиков генератора, OpenHands умеет делать все то же самое, что и человек:
- Создавать с нуля целые программы по одному запросу
- Фиксить код и запускать команды
- Просматривать веб-страницы
- Вызывать API
- И даже копировать сниппеты кода со StackOverflow
Быстрее и проще всего тулзу развернуть в Docker: здесь можно найти системные требования и руководства по запуску. Ее также можно подключить к своей локальной файловой системе, запускать в автономном режиме, плюс можно взаимодействовать с программой через командную строку.
У OpenHands очень простой и дружелюбный интерфейс, а главное — она полностью бесплатная.
Искусственный интеллект действительно не стоит на месте, а новые решения от крупных компаний и опенсорс-проекты не перестают удивлять. Из этих инструментов уже можно попробовать нейронку с синтезом голоса и генератор кода. Делитесь в комментариях, что у вас получилось.
191 открытий486 показов