Как ML алгоритмы рулят онлайн-рекламой: про маркетинг и большие данные
Как рекламные алгоритмы понимают, что вы захотите купить, еще до того, как вы об этом подумали
335 открытий2К показов

Иван Ремень
руководитель направления рекламных технологий AI VK
У вас бывает ощущение, что ваш телефон подслушивает разговоры? Вы только что обсудили с коллегой планы покататься на сноубордах, а через 10 минут вам попадается реклама билетов на горнолыжки, подборка шлемов с маркетплейсов и что-то про лечение печени после бурного отпуска — одно за другим, в разных сервисах. Расстрою конспирологов, но это не прослушка, а заслуга алгоритмов. На подобной точно таргетированной рекламе Google в 2023 году заработал 77% своей выручки.
Реклама заставляет мир вращаться
Диджитал-гиганты могут позволить себе огромные штаты разработчиков и инженеров, экспериментальные отделы, создание и развитие новых сервисов и продуктов во многом именно благодаря доходам от рекламы. Поэтому задача современных технологий сделать так, чтобы реклама нравилась и показывала пользователям релевантные и этичные объявления.
Между участниками рынка существует негласный баланс интересов: платформам нужны рекламодатели, рекламодателям — конверсии, пользователям — релевантные и этичные объявления.
Рекламная индустрия из «битвы бюджетов» превратилась в «битву алгоритмов», где идеальный баланс помогает находить ML.
За этими алгоритмами стоят целые команды — например, в VK около 220 человек. Над чем они работают и как устроена реклама сегодня? Чтобы понять, нужно вернуться к началу.
До и после ML: от глухого дирижера к технологичному синоптику
До алгоритмов машинного обучения реклама была ручной: таргетологи сами задавали аудиторию по определенным критериям, выбирали площадки и следили за эффективностью. Конечно, анализ результатов существовал, но у комбинации человеческого мозга и эксель-таблиц есть свои лимиты — уследить за всем было невозможно, протестировать все тоже. Маркетологи были дирижерами огромного оркестра, но зачастую у них даже не было уверенности, что оркестр играет нужную мелодию. По сравнению с нынешним состоянием индустрии, это было неэффективно, дорого и довольно плохо масштабировалось.
С появлением ML ручная настройка ушла в прошлое. Теперь алгоритмы обрабатывают огромные массивы исторических данных и умеют предсказывать, какое объявление сработает лучше, кому его показать и по какой цене — это буквально самообучающаяся система предсказаний, построенная на распознавании закономерностей. Продолжая сравнения, дирижер превратился в синоптика, который с помощью моделей и данных довольно точно определяет, где и кому завтра будет светить солнце.
Аукцион и ML-компоненты: как устроена реклама
Основная технология современной рекламы — это аукцион, где встречаются интересы рекламодателей, площадок и обычных пользователей. Эта система обрабатывает десятки миллиардов объявлений в режиме реального времени и подбирает, кому именно, когда и на какой площадке эти объявления показать. Аукцион должен быть отказоустойчивым, предельно быстрым и масштабированным: например, в VK эта система сейчас способна обрабатывать около 2 миллионов запросов в секунду.
У использования ML в рекламе могут быть очень разные цели — объясню на примерах. Внутри направления рекламы AI VK у нас сейчас есть две ключевые команды, которые отвечают за алгоритмы машинного обучения: Команда Product ML и Команда Anti-fraud ML.
Запускаете или размещаете рекламу? ML считает бюджеты и прибыль за всех
Команда Product ML отвечает за качество перформанса рекламы и оптимизацию целевых действий, таких как продажи товаров, регистрации на сайте и клики по приложению, при этом количество комбинаций целей и рекламных офферов тут очень велико. Product ML анализирует эти данные и прогнозирует, как лучше распределить бюджет, какой креатив выбрать и кому показывать рекламу, чтобы достичь максимального эффекта.
Внутри этого направления есть целый набор инструментов для разных целей. Например, у нас есть инструмент «Прогнозатор» — он позволяет приблизительно понять, какой бюджет стоит выделить и какого результата ожидать. Рекламодатель вводит информацию о своем оффере и его цели, а ML рассчитывает оптимальные вложения. Это превращает рекламную кампанию в понятный контракт — рекламодатель знает, на что рассчитывать.
Реклама без ботов и накруток — это тоже ML
Команда Anti-fraud ML отвечает за защиту системы от мошенничества. Алгоритмы анализируют поведение пользователей, выявляют подозрительные активности и помогают предотвращать накрутки. В социальных сетях фрод бывает особенно разнообразным: есть простые автокликеры и боты, но есть и те, кого мы называем «киборги», — это реальные люди, которые используют ряд автоматизированных технологий, чтобы искусственно увеличивать просмотры, лайки или клики ради выгоды. Anti-fraud ML выявляет эти действия через сравнение закономерностей поеведения таких пользователей с известными алгоритмам примерами мошенничества.
Для этого используются модели вроде BERT, которые умеют понимать контекст и последовательности действий пользователей, а также LLM, обученные на данных лид-форм и пользовательских активностей. Они помогают находить закономерности и аномалии в больших объемах данных, выявляя тех, кто пытается манипулировать системой.
Данные, векторы и модальности: на чем строятся ML-модели в рекламе
Что такое векторы и как они обеспечивают эффективный таргетинг? Приведем простой пример: Надежда Кадышева и зумеры.
Долгие годы музыка Кадышевой была популярна среди старшего поколения. Вдруг ее треки начинают интересовать молодежь. Умная бездушная машина мгновенно фиксирует рост интереса, оценивает «близость» интересов новой аудитории к содержанию и моментально начинает показывать ее музыку зумерам. Ни один таргетолог не успел бы заметить этот сдвиг настолько быстро.
Как это происходит?
Все просто и одновременно очень сложно: каждый отдельный пользователь-зумер и его интересы, музыка Кадышевой, и весь контент, которых находится между ними, ML-модели понимают и обрабатывают в цифровой форме.
Для этого используется концепция векторов, по сути наборов чисел, которые описывают объект. Один пользователь, одно объявление или креатив представляются как точка в многомерном пространстве. Числа могут отражать привычки человека, характеристики товара или особенности креатива, и математика позволяет находить закономерности и сравнивать объекты между собой.
ML-модели обучаются на данных о пользователях, контенте, товарах и контексте, но они не оперируют напрямую «именами и возрастами».
Всё превращается в векторные представления — многомерное числовое отражение смысла. Благодаря этому система понимает, что «спортзал», «кроссовки» и «протеин» — близкие по контексту вещи, даже если пользователь ни разу не упомянул эти слова напрямую.
Векторное пространство может объединять разные модальности: текст, изображения, видео и поведение пользователей. Например, текст описания товара, его фото и даже аудиофрагмент можно «перевести» в одно общее числовое представление. Чем ближе вектор предложения к вектору интересов пользователя, тем выше вероятность, что реклама будет релевантной именно этому человеку.
Глубины ML: сквозные системы и потоковая инфраструктура
Все инновации в индустрии по большому счету служат одной главной цели: сделать рекламу как можно более прибыльной для рекламодателей и максимально полезной для пользователей. В том числе поэтому ключевое направление, в котором сейчас движется вся индустрия, — выстраивание полностью сквозных систем. По сути это идеальная экосистема, в которой реклама, рекомендации, и поиск работают не как отдельные продукты, а как части единого механизма. Данные, собранные в одном месте, усиливают другие места, а модели легко переиспользуются между командами. Внутри VK все машинное обучение завязано на Discovery платформе.
Discovery — это инфраструктурный слой, объединяющий данные и модели для всех направлений и продуктов компании. Если раньше каждая команда строила свою инфраструктуру и пайплайны, то теперь все работает в едином пространстве. Разработчику не нужно договариваться с десятком коллег и собирать данные вручную — достаточно запросить доступ, получить готовые вектора пользователей и контента и сразу подключаться к ML-процессу.
По сути, Discovery платформа стала единым слоем знаний для ML VK. Она объединяет данные, модели и инфраструктуру, позволяя использовать одни и те же алгоритмы в разных задачах: рекомендации и реклама опираются на неё для персонализации и ранжирования, антифрод — для анализа последовательностей действий с помощью трансформеров. Такой подход делает разработку значительно быстрее и дешевле.
Как работает и из чего состоит Discovery? В ее основе — четыре больших компонента.
Stream Flow: сбор данных из общего потока
Этот компонент создан для потоковой обработки данных в продуктах VK. Он не просто регистрирует каждое действие, он помогает рассчитывать счетчики для ранжирования рекламы и создавать контентную базу рекомендаций в реальном времени.
Миллионы пользовательских взаимодействий с продуктами VK проходят через Stream Flow, благодаря которому агрегируются и становятся пригодными для более глубокого анализа.
Profile Stream: создание профилей
Анализом занимается Profile Stream — потоковая инфраструктура, которая объединяет просмотры, клики, лайки, покупки и другие события в ML-профили. Эти профили описывают интересы и поведение каждого человека и используются одновременно в рекомендациях, поиске и рекламе.
Ранее мы говорили о векторах и о том, как они описывают пользователей и контент в числовой форме — вот именно так они и упаковываются. Платформа фиксирует не только стандартные признаки вроде пола, возраста или города, но и выявляет целый набор латентных признаков — скрытых связей между интересами, контентом и поведением пользователей. Часто их невозможно выразить словами, но алгоритмы легко находят их в векторном пространстве и используют для персонализации, прогнозирования и оптимизации рекламных решений.
Cloud Training: автоматическое обучение моделей
Как неотъемлемая часть этого процесса работает Cloud Training — система, которая позволяет обучать модели без необходимости ручной настройки инфраструктуры. Все, что нужно разработчику, — подключился и запустил нужное обучение.
Ranking and Relevance Engine: ранжирование рекламы
Финальный компонент — RARE (Ranking and Relevance Engine), система, которая отвечает за финальное ранжирование контента и рекламы для пользователей.
RARE получает обученные в Cloud Training модели и использует их, чтобы в реальном времени определять, какие объявления и какие посты покажутся конкретному человеку первыми. То есть буквально решает, какую рекламу увидит условный Василий из Тольятти, а какую — не менее условная Ольга из Новосибирска.
Будущее ML в рекламе: куда всё это идет?
Реклама постепенно движется в сторону умных, самообучающихся систем, где ML подбирает аудиторию, креативы и форматы. Скоро системы начнут делать это самостоятельно — в замкнутом ML-контуре.
Внутри рекламного кабинета VK уже сейчас можно сгенерировать изображение, видео или текст для креатива: это не идеальное искусство, но рабочие инструменты, которые помогают быстрее запускать кампании и тестировать гипотезы. Все это будет совершенствоваться и со временем мы придем к тому, что рекламодателю вообще ничего не нужно будет придумывать и выбирать, а качество креативов вырастет в разы. Первые шаги в эту сторону уже делаются. Так в VK Рекламе доступен запуск смарт-кампаний. Этот тип кампании позволяет запускать рекламу сообществ ВКонтакте в несколько кликов и автоматизировать настройку таргетингов при помощи умных инструментов.
Параллельно реклама будет эволюционировать в сторону инвестиционной модели.
В недалеком будущем, если вы будете запускать рекламу, вам не нужно будет думать о том, на какие форматы выделять ресурсы — только о результате. ML-система сама будет распределять бюджет и оптимизировать кампании под рост выручки.
Для рекламодателя это превратится в, по сути, управляемый инвестиционный фонд: вкладываешь в платформу, получаешь рост GMV.
Но, честно говоря, от будущего можно ожидать чего угодно. Еще несколько лет назад мы не могли представить, что появятся ChatGPT, DeepSeek и их аналоги — когда мне впервые показали такие системы, я думал, что это просто игрушка, а на деле они уже умели писать продакшн-код. Так что в точности угадать, что будет в будущем, сейчас почти невозможно. Но точно можно сказать, что без ML и AI в целом дело не обойдется.
335 открытий2К показов










