Лого МТС
0
Обложка: Новости из мира Data Science — дайджест от МТС

Новости из мира Data Science — дайджест от МТС

Михаил Степнов
Михаил Степнов
Руководитель центра R&D центра Big Data МТС

Публикуем свежие новости об искусственном интеллекте и машинном обучении — с комментариями эксперта из МТС!

CoCa от Google: новый краш

arxiv.org/pdf/2205.01917v1.pdf

Модель Contrastive Captioners — наследница CLIP и SimVLM. Она способна работать и с графической, и с текстовой информацией, и решает большой набор задач: от генерации подписей к изображениям до ответов на вопросы по видео. Новый подход к предобученным мультимодальным моделям позволил разработчикам Google добиться 91% top-1 точности в задаче классификации изображений на датасете ImageNet.

Комментарий Михаила

Элегантное решение на основе привычных подходов, соединяет в себе две парадигмы: contrastive learning и encoder-decoder подход. Кажется, скоро ImageNet превратится в учебный датасет вроде MNIST, и нужно будет искать что-то посерьёзнее.

Пролетая над гнездом Flamingo

www.deepmind.com/blog/tackling-multiple-tasks-with-a-single-visual-language-model

Новая мультимодальная SotA-модель от DeepMind, решает сложные визуально-текстовые задачи с помощью пары специфичных примеров. И без дополнительного обучения.

Помимо традиционных применений — вроде классификации — Flamingo может даже поддержать небольшой диалог о содержании изображения. И уточнять свои ответы, если вы укажете ей на ошибки.

Комментарий Михаила

Модели, подобные Flamingo, могут принести вполне практическую пользу обществу. Мультимодальные решения необходимы для таких применений ИИ, как помощь слабовидящим людям в решении повседневных проблем или усовершенствование алгоритмов поиска опасного контента в интернете.

Как приручить трансформер

github.com/google-research/big_vision

Google Research открыл доступ к своей базе кода для обучения крупномасштабных моделей машинного зрения на виртуальных машинах Cloud TPU. Теперь заинтересованные пользователи смогут увидеть исходный код ViT, LiT, MLP-Mixer и прочих крупный AI проектов. Это позволит проводить новые исследования в области CV на надёжном фундаменте, запуская обучение практически на любом объёме оборудования: от 1 GPU до 2048 TPU.

Комментарий Михаила

Важная новость про большие модели в open source. Благодаря Big Vision у сообщества появляются новые возможности для экспериментов и поиска чего-то принципиально нового за счёт экономии времени на подготовке пайплайна обучения.

Разве может робот написать симфонию?

arxiv.org/pdf/2205.05448.pdf

Ученые из Департамента ИИ Центральной консерватории Китая представили модель SymphonyNet, предназначенную для генерации симфонической музыки. В основе подхода лежат традиционные для генерации текстов решения, адаптированные под особенности задачи. В частности, разработчики предлагают использовать линейный трансформер для обработки сверхдлинных последовательностей и модифицированных алгоритм Byte Pair Encoding.

Комментарий Михаила

Помимо генерации музыки подобные модели могут быть использованы и в более приземлённых задачах. Например, для анализа и предсказания временных рядов. В конце концов, чем поток показателей с сотни датчиков не симфония?