От ручной модерации — к инфраструктуре: что учесть при построении ML-платформы для социальных сетей
Почему ручная модерация больше не справляется и как универсальные ML-платформы помогают соцсетям масштабировать контроль контента, рекламу и антифрод.
1К открытий3К показов
Как улучшить модерацию миллионов ежедневных загрузок
Как говорили классики Marvel, с большой силой приходит большая ответственность. С ростом аудитории продукта приходит не только ответственность, но и пул новых задач, которые нельзя игнорировать.
Возьмем для примера проблематику социальных сетей. Когда пользовательская база платформы вырастает до десятков миллионов пользователей, ручная модерация перестает справляться. Это проявляется в обилии жалоб от юзеров, засилии запрещенного контента, а еще и регуляторы требуют реакции на свои запросы в считанные часы. В такой ситуации фильтры или отдельные нейросети проблему не решат — нужна полноценная ML-платформа, которая возьмет на себя основную нагрузку и будет масштабироваться вместе с трафиком.
Почему именно платформа, а не точечное решение
Даже самые быстрые модераторы, работающие 24/7, физически не могут справиться с потоком контента, счёт которого идёт на десятки миллионов единиц в день. Да и отдавать на откуп людям такие объёмы для компаний означало бы подвергать себя сильным юридическим и репутационным рискам. Увеличивать штат бесконечно тоже нереально — нужно искать технологический выход.
В эпоху неспешной разработки можно было бы просто фильтровать картинки по определённым признакам. Но отдел развития бизнеса за такую медлительность не похвалит. Да и социальные сети в наше время — больше чем просто место, куда мы публикуем селфи с котом или где ставим лайк поздравительной открытке от бабушки. Если посмотреть на соцсеть комплексно, то очень быстро станет понятно, что продвинутая логика модерации нужна не только в контенте, но и в рекламе, рекомендациях, антифроде.
Если городить отдельные пайплайны, получится целый зоопарк. И весь этот зоопарк нужно будет поддерживать, особенно когда из компании уже уйдут те, кто его создавал. Поэтому для крупных соцсетей больше подойдет другой путь.
Речь о создании универсальной ML-платформы, стоящей на трех «китах»: разметка, обучение, инференс. В этом случае система получается модульной и подходит для десятков сценариев сразу.
Разметка данных: «проблема одного процента»
Если выдавать задания аннотаторам — людям, которые вручную размечают контент для обучения моделей, — без какого-либо контроля, они быстро понимают: почти весь контент чистый. Достаточно всегда отвечать «чисто» — и в 99 случаях из 100 это будет совпадать с реальностью. В итоге датасеты становятся бесполезными.
Поэтому важно быть хитрым: например, встроить «ловушки» — заранее размеченные контрольные задания с известным ответом — и оценивать надежность каждого аннотатора через алгоритм TrueSkill. Так получится автоматически отсекать шум и собирать чистые обучающие выборки в промышленных масштабах.
Упомянутый алгоритм TrueSkill изначально разрабатывался в Microsoft для матчмейкинга в Xbox Live, но на массиве данных гигантских соцсетей он становится удобным инструментом для оценки качества работы аннотаторов.
Обучение и инференс: как выжать максимум из ресурсов
Следующий узкий момент — обучение моделей. Одни задачи могут занимать много времени на GPU, другие отлично идут на CPU. Если не организовать оркестрацию, дорогие ресурсы будут простаивать.
Решением может стать собственный планировщик с чекпоинтингом и системой failover: если сервер падает, обучение продолжается с последнего состояния, а не начинается заново.
На пути к работающей системе придется преодолеть и барьер инференса. Чтобы задержка не становилась критичной для пользователей, миллионы изображений и видео должны обрабатываться с минимальной латентностью. При этом инфраструктура обычно смешанная — часть серверов с GPU, часть только на CPU.
Выходом может быть асинхронное выполнение: что-то из операций уходит на CPU, что-то на GPU. Такой подход позволяет лучше утилизировать ресурсы и увеличивать пропускную способность без постоянной закупки нового «железа».
Как из проблемы сделать SaaS-продукт
Если все сделать корректно, автоматическая система начнет закрывать подавляющее большинство задач модерации: рассматривать вживую останется лишь единичные сложные кейсы.
Но поскольку мы помним, что решая проблему с модерацией контента мы заодно разбираемся с модерацией рекламы, корректностью рекомендаций, верификацией документов и антифродом, почему бы не оформить свои находки в отдельный продукт? Такое SaaS-решение может предлагать компаниям готовые API для модерации фото, видео и текстов, основанные на тех же подходах, что используются внутри социальных сетей.
Это теоретическое упражнение показывает, что главное в ML-системах — не отдельные модели, а инфраструктура. Стоит вложиться в платформу, и она окупится десятками сценариев.
1К открытий3К показов



