От ручной модерации — к инфраструктуре: что учесть при построении ML-платформы для социальных сетей

Отредактировано

Почему ручная модерация больше не справляется и как универсальные ML-платформы помогают соцсетям масштабировать контроль контента, рекламу и антифрод.

1К открытий3К показов

Как улучшить модерацию миллионов ежедневных загрузок

Как говорили классики Marvel, с большой силой приходит большая ответственность. С ростом аудитории продукта приходит не только ответственность, но и пул новых задач, которые нельзя игнорировать.

Возьмем для примера проблематику социальных сетей. Когда пользовательская база платформы вырастает до десятков миллионов пользователей, ручная модерация перестает справляться. Это проявляется в обилии жалоб от юзеров, засилии запрещенного контента, а еще и регуляторы требуют реакции на свои запросы в считанные часы. В такой ситуации фильтры или отдельные нейросети проблему не решат — нужна полноценная ML-платформа, которая возьмет на себя основную нагрузку и будет масштабироваться вместе с трафиком.

Почему именно платформа, а не точечное решение

Даже самые быстрые модераторы, работающие 24/7, физически не могут справиться с потоком контента, счёт которого идёт на десятки миллионов единиц в день. Да и отдавать на откуп людям такие объёмы для компаний означало бы подвергать себя сильным юридическим и репутационным рискам. Увеличивать штат бесконечно тоже нереально — нужно искать технологический выход.

В эпоху неспешной разработки можно было бы просто фильтровать картинки по определённым признакам. Но отдел развития бизнеса за такую медлительность не похвалит. Да и социальные сети в наше время — больше чем просто место, куда мы публикуем селфи с котом или где ставим лайк поздравительной открытке от бабушки. Если посмотреть на соцсеть комплексно, то очень быстро станет понятно, что продвинутая логика модерации нужна не только в контенте, но и в рекламе, рекомендациях, антифроде.

Если городить отдельные пайплайны, получится целый зоопарк. И весь этот зоопарк нужно будет поддерживать, особенно когда из компании уже уйдут те, кто его создавал. Поэтому для крупных соцсетей больше подойдет другой путь.

Речь о создании универсальной ML-платформы, стоящей на трех «китах»: разметка, обучение, инференс. В этом случае система получается модульной и подходит для десятков сценариев сразу.

Разметка данных: «проблема одного процента»

Если выдавать задания аннотаторам — людям, которые вручную размечают контент для обучения моделей, — без какого-либо контроля, они быстро понимают: почти весь контент чистый. Достаточно всегда отвечать «чисто» — и в 99 случаях из 100 это будет совпадать с реальностью. В итоге датасеты становятся бесполезными.

Поэтому важно быть хитрым: например, встроить «ловушки» — заранее размеченные контрольные задания с известным ответом — и оценивать надежность каждого аннотатора через алгоритм TrueSkill. Так получится автоматически отсекать шум и собирать чистые обучающие выборки в промышленных масштабах.

Упомянутый алгоритм TrueSkill изначально разрабатывался в Microsoft для матчмейкинга в Xbox Live, но на массиве данных гигантских соцсетей он становится удобным инструментом для оценки качества работы аннотаторов.

Обучение и инференс: как выжать максимум из ресурсов

Следующий узкий момент — обучение моделей. Одни задачи могут занимать много времени на GPU, другие отлично идут на CPU. Если не организовать оркестрацию, дорогие ресурсы будут простаивать.

Решением может стать собственный планировщик с чекпоинтингом и системой failover: если сервер падает, обучение продолжается с последнего состояния, а не начинается заново.

На пути к работающей системе придется преодолеть и барьер инференса. Чтобы задержка не становилась критичной для пользователей, миллионы изображений и видео должны обрабатываться с минимальной латентностью. При этом инфраструктура обычно смешанная — часть серверов с GPU, часть только на CPU.

Выходом может быть асинхронное выполнение: что-то из операций уходит на CPU, что-то на GPU. Такой подход позволяет лучше утилизировать ресурсы и увеличивать пропускную способность без постоянной закупки нового «железа».

Как из проблемы сделать SaaS-продукт

Если все сделать корректно, автоматическая система начнет закрывать подавляющее большинство задач модерации: рассматривать вживую останется лишь единичные сложные кейсы.

Но поскольку мы помним, что решая проблему с модерацией контента мы заодно разбираемся с модерацией рекламы, корректностью рекомендаций, верификацией документов и антифродом, почему бы не оформить свои находки в отдельный продукт? Такое SaaS-решение может предлагать компаниям готовые API для модерации фото, видео и текстов, основанные на тех же подходах, что используются внутри социальных сетей.

Это теоретическое упражнение показывает, что главное в ML-системах — не отдельные модели, а инфраструктура. Стоит вложиться в платформу, и она окупится десятками сценариев.

1К открытий3К показов

Также рекомендуем

Технологии в кино: 5 эпичных косяков, которые могут выбесить любого айтишника

Топ-5 технологий в кино, которые бесят айтишников. Тупые фейлы, хакеры. Tproger

Чем заменить Confluence? Разбираем 4 российские базы знаний

Протестировали 4 российских аналога Confluence. Проанализировали плюсы и минусы, выбрали подходящий сервис для дальнейшей работы в IT-компании.

Как пройти 45 собеседований за 2 месяца и остаться в живых? Опыт аналитика

Аналитик прошёл 45 собеседований за два месяца — рассказываем, как изменился рынок труда в IT, через что проходят кандидаты, как не перегореть, отсеивать токсичные компании и выстроить стратегию поиска, которая действительно работает.

Код власти: как партнерство NVIDIA и OpenAI создаёт новую мировую иерархию

Анализ сделки на 100 млрд долларов и ее последствий. Как контроль над вычислениями определяет будущее сверхинтеллекта и почему регуляторы бездействуют. Прогнозы для IT-индустрии.