Итоги GoTo Hack

Многие эксперты отмечают актуальность анализа данных, особенно выделяя тематику Big Data. Данные технологии могут существенно улучшить бизнес-процессы компаний, помочь лучше понимать аудиторию и решить множество других прикладных и научных задач. Спрос на специалистов в данной области активно растет. Именно поэтому первый хакатон образовательного проекта GoTo был посвящен теме Big Data, а исследователями стали старшеклассники и студенты младших курсов. 

Областью их исследований стало поколение 15-18-летних, то есть их ровесников. На основе открытых данных ВКонтакте они познакомились с актуальными технологиями в области Data Science, выдвинули и проверили свои гипотезы, а затем презентовали результаты исследований перед жюри.

Все гипотезы и проведенные участниками исследования оказались крайне полезными для нового понимания поколения сегодняшних подростков. Участникам удалось выявить круг интересов, взаимосвязи, уровень образования, грамотности и интереса к чтению, отношение к вредным привычкам и многое другое. Какие исследования были проведены и почему на них стоит обратить внимание? Мы спросили экспертов.

Александр Букин

Александр Букин, разработчик компании Яндекс, преподаватель Школы анализа данных Яндекса

Я принял участие в хакатоне в роли куратора проектов, поскольку понимаю, насколько важно для нового поколения знать современные тенденции в IT индустрии и уметь работать с большими объемами данных. Да и к тому же активно занимаюсь анализом данных и преподаванием машинного обучения как дисциплины в университете и ШАД Яндекса.

Актуальность данных направлений обусловлена тем, что мы все чаще и чаще сталкиваемся с необходимостью выявлять внутренние закономерности в постоянно растущих объемах самых разных данных в медицине, маркетинге, финансовых системах, научных исследования и т.д. В научной сфере это то, что обычно называется state of the art («на острие технического прогресса»). Современный анализ данных — это сложная и обширная дисциплина, которая включает как каноническую статистику, так и последние достижения в области Deep Learning и нейронных сетей.

Во время работы над своими проектами участники хакатона познакомились с основами анализа данных, научились работать с мощными инструментами и технологиями, освоили различные библиотеки — такие как Scipy, Pandas, Numpy и Matplotlib. Получили большой опыт работы с большими объемами сырых данных и извлечения их с помощью API соцсетей и следующего за ним парсинга. Также в ходе выполнения своих проектов ребята приобрели навыки работы с СУБД MongoDB. Разобрались с тем, как строить различные гипотезы и проверять их, используя полученные результаты, применять методы статистики и машинного обучения.

Особенно запомнились следующие проекты:

Команда About Blank. Согласно недавно обновленному законодательству люди, профили которых имеют более 3000 подписчиков, приравниваются к СМИ. Тема влияния СМИ на массы очень интересна как с научной точки зрения, так и коммерческой. Ребята взялись за исследование этих пользователей-хабов: обнаружили интересную информацию о профилях, узнали примерное соотношение количества ботов и реальных людей, выделили преобладающие виды контента на их стенах, попытались обозначить признаки, обуславливающие их популярность. Показали, что эти пользователи действительно постят в большинстве случаев фото и аудиозаписи, а также имеют открытые профили и принимают сообщения от всех пользователей.

Развивая эту идею, можно понять, чем интересуется аудитория, подписанная на этих людей, узнать их увлечения, а также повлиять на них. Полученная информация позволит заниматься эффективным продвижением рекламы, рассчитанной на определенные группы пользователей в сети. Стоит выделить этот проект, поскольку ребята одни из немногих, кто взялся за практическую задачу и довел её до стадии работающего прототипа с возможностью будущей монетизации сервиса как аналога Я.Директа и Google.Ads.

Команда Map of connections. В данном проекте ребята взялись за довольно интересное исследование — изучение закономерностей общения между учениками разных школ Москвы. Исследовалась плотность связей между учениками разных школ в зависимости от локации и наличия совпадающего профиля сравниваемых школ. Были построены графы связей между учащимися и получены так называемые компоненты связности, показывающие, как разделены по кругам общения те или иные группы школьников, а также представлена визуализация связей на карте г. Москвы. Такие данные можно использовать для улучшения взаимодействия школ в различных сферах: начиная от олимпиадного движения и заканчивая спортивными и общественными активностями.

Команда 10011001. Команда студентов разработала приложение, которое позволяет искать зависимости данных автоматически и не строить гипотезы вручную. С помощью данного функционала они построили корреляции различных социальных признаков существующей выборки школьников в соцсети ВКонтакте: связи их основных интересов, музыкальных и литературных предпочтений с гендерным различиями, с национальностью, образом жизни и многими другими характеристиками. Главной ценностью их работы является возможность задавать любые входные данные и получать самые значимые корреляции, которые можно использовать для построения среднестатистического отношения выделенной по признакам группы людей к интересующей нас теме.

Александр Семенов

Александр Семенов, научный сотрудник НИУ ВШЭ, специалист по анализу данных компании МТС

Моей задачей в рамках хакатона было представить его участникам примеры исследований, находящихся на пересечении социологии и анализа (больших) данных. В качестве примера я выбрал одно из самых известных и цитируемых исследований в социальных науках за последние годы «Tastes, Ties and Time: A new social network dataset using Facebook.com» в связи с тем, что это одно из первых исследований подобного рода, выполненное (отчасти) на похожем датасете и часть гипотез которого вполне можно проверить да данных, предоставленных участникам, получив, таким образом кросскультурный сравнительный анализ. Ну и главной причиной выбора данного исследования было то, что воспроизведение тех его результатов, которые основывались на анализе данных из онлайн соц. сети, было вполне по силам участникам в отведённое для этого время.

Вынужден признаться, что участники превзошли мои ожидания, представив в своих проектах не менее интересные проекты, чем тот, что удалось реализовать социологам из Гарварда. Например, одна команда построила модель, которая позволяла отличить тех, кто после 9-го класса уйдёт в ПТУ, от тех, кто продолжит своё обучение в старших классах школы. При этом с инструментарием для проведения данного анализа (Python, scikit-learn, pandas и т.д.) участники, по их словам, познакомились только в день хакатона. Другая команда создала с помощью сервиса проверки орфографии Яндекса собственный индекс грамотности, на основе которого создала веб-сервис, позволяющий автоматически определить уровень грамотности любого пользователя Вконтакте на основе публичных записей с его стены.

Однако моим персональным фаворитом была команда, которая решила сравнить географические связи между школами со связями на основе «интересов» и их влияние на дружбу между учащимися этих школ. Действительно, будет ли больше друзей между школами, которые ближе друг к другу географически, или же общие интересы и профиль здесь гораздо важнее расстояния? Исследования подобного рода на данный момент редки даже в наиболее продвинутых университетах и исследовательских центрах, и поэтому, если у ребят получится довести его до конца, они вполне смогут встать в один ряд с учёными мирового уровня.

По итогам успешного хакатона GoTo Hack на весенней школе помимо уже существующих направлений — прикладное программирование и робототехника — запускается направление анализа данных. Участники познакомятся с актуальными темами — SNA, Big Data и Machine Learning — и смогут подготовиться к финалу олимпиады НТИ. Весенняя городская школа образовательного проекта GoTo пройдет с 26 марта по 3 апреля в Москве. К участию приглашаются ученики 8-11 классов. В GoTo организовано два потока: для начинающих и продвинутых. Начинающих ждет серия специальных мастер-классов, которая поможет плавно погрузиться в работу над проектами.  Подробности здесь.