Перетяжка, Премия ТПрогер, 13.11
Перетяжка, Премия ТПрогер, 13.11
Перетяжка, Премия ТПрогер, 13.11

От ручной модерации — к инфраструктуре: что учесть при построении ML-платформы для социальных сетей

Аватар Илья Волков
Отредактировано

Почему ручная модерация больше не справляется и как универсальные ML-платформы помогают соцсетям масштабировать контроль контента, рекламу и антифрод.

1К открытий3К показов
От ручной модерации — к инфраструктуре: что учесть при построении ML-платформы для социальных сетей

Как улучшить модерацию миллионов ежедневных загрузок

Как говорили классики Marvel, с большой силой приходит большая ответственность. С ростом аудитории продукта приходит не только ответственность, но и пул новых задач, которые нельзя игнорировать.

Возьмем для примера проблематику социальных сетей. Когда пользовательская база платформы вырастает до десятков миллионов пользователей, ручная модерация перестает справляться. Это проявляется в обилии жалоб от юзеров, засилии запрещенного контента, а еще и регуляторы требуют реакции на свои запросы в считанные часы. В такой ситуации фильтры или отдельные нейросети проблему не решат — нужна полноценная ML-платформа, которая возьмет на себя основную нагрузку и будет масштабироваться вместе с трафиком.

Почему именно платформа, а не точечное решение

Даже самые быстрые модераторы, работающие 24/7, физически не могут справиться с потоком контента, счёт которого идёт на десятки миллионов единиц в день. Да и отдавать на откуп людям такие объёмы для компаний означало бы подвергать себя сильным юридическим и репутационным рискам. Увеличивать штат бесконечно тоже нереально — нужно искать технологический выход.

В эпоху неспешной разработки можно было бы просто фильтровать картинки по определённым признакам. Но отдел развития бизнеса за такую медлительность не похвалит. Да и социальные сети в наше время — больше чем просто место, куда мы публикуем селфи с котом или где ставим лайк поздравительной открытке от бабушки. Если посмотреть на соцсеть комплексно, то очень быстро станет понятно, что продвинутая логика модерации нужна не только в контенте, но и в рекламе, рекомендациях, антифроде.

Если городить отдельные пайплайны, получится целый зоопарк. И весь этот зоопарк нужно будет поддерживать, особенно когда из компании уже уйдут те, кто его создавал. Поэтому для крупных соцсетей больше подойдет другой путь.

Речь о создании универсальной ML-платформы, стоящей на трех «китах»: разметка, обучение, инференс. В этом случае система получается модульной и подходит для десятков сценариев сразу.

Разметка данных: «проблема одного процента»

Если выдавать задания аннотаторам — людям, которые вручную размечают контент для обучения моделей, — без какого-либо контроля, они быстро понимают: почти весь контент чистый. Достаточно всегда отвечать «чисто» — и в 99 случаях из 100 это будет совпадать с реальностью. В итоге датасеты становятся бесполезными.

Поэтому важно быть хитрым: например, встроить «ловушки» — заранее размеченные контрольные задания с известным ответом — и оценивать надежность каждого аннотатора через алгоритм TrueSkill. Так получится автоматически отсекать шум и собирать чистые обучающие выборки в промышленных масштабах.

Упомянутый алгоритм TrueSkill изначально разрабатывался в Microsoft для матчмейкинга в Xbox Live, но на массиве данных гигантских соцсетей он становится удобным инструментом для оценки качества работы аннотаторов.

Обучение и инференс: как выжать максимум из ресурсов

Следующий узкий момент — обучение моделей. Одни задачи могут занимать много времени на GPU, другие отлично идут на CPU. Если не организовать оркестрацию, дорогие ресурсы будут простаивать.

Решением может стать собственный планировщик с чекпоинтингом и системой failover: если сервер падает, обучение продолжается с последнего состояния, а не начинается заново.

На пути к работающей системе придется преодолеть и барьер инференса. Чтобы задержка не становилась критичной для пользователей, миллионы изображений и видео должны обрабатываться с минимальной латентностью. При этом инфраструктура обычно смешанная — часть серверов с GPU, часть только на CPU.

Выходом может быть асинхронное выполнение: что-то из операций уходит на CPU, что-то на GPU. Такой подход позволяет лучше утилизировать ресурсы и увеличивать пропускную способность без постоянной закупки нового «железа».

Как из проблемы сделать SaaS-продукт

Если все сделать корректно, автоматическая система начнет закрывать подавляющее большинство задач модерации: рассматривать вживую останется лишь единичные сложные кейсы.

Но поскольку мы помним, что решая проблему с модерацией контента мы заодно разбираемся с модерацией рекламы, корректностью рекомендаций, верификацией документов и антифродом, почему бы не оформить свои находки в отдельный продукт? Такое SaaS-решение может предлагать компаниям готовые API для модерации фото, видео и текстов, основанные на тех же подходах, что используются внутри социальных сетей.

Это теоретическое упражнение показывает, что главное в ML-системах — не отдельные модели, а инфраструктура. Стоит вложиться в платформу, и она окупится десятками сценариев.

Следите за новыми постами
Следите за новыми постами по любимым темам
1К открытий3К показов