Виммельбух, 3, перетяжка
Виммельбух, 3, перетяжка
Виммельбух, 3, перетяжка

Итоги GoTo Hack

Аватар Лапа
Отредактировано

2К открытий2К показов
Итоги GoTo Hack

Многие эксперты отмечают актуальность анализа данных, особенно выделяя тематику Big Data. Данные технологии могут существенно улучшить бизнес-процессы компаний, помочь лучше понимать аудиторию и решить множество других прикладных и научных задач. Спрос на специалистов в данной области активно растет. Именно поэтому первый хакатон образовательного проекта GoTo был посвящен теме Big Data, а исследователями стали старшеклассники и студенты младших курсов. 

Областью их исследований стало поколение 15-18-летних, то есть их ровесников. На основе открытых данных ВКонтакте они познакомились с актуальными технологиями в области Data Science, выдвинули и проверили свои гипотезы, а затем презентовали результаты исследований перед жюри.

Все гипотезы и проведенные участниками исследования оказались крайне полезными для нового понимания поколения сегодняшних подростков. Участникам удалось выявить круг интересов, взаимосвязи, уровень образования, грамотности и интереса к чтению, отношение к вредным привычкам и многое другое. Какие исследования были проведены и почему на них стоит обратить внимание? Мы спросили экспертов.

Я принял участие в хакатоне в роли куратора проектов, поскольку понимаю, насколько важно для нового поколения знать современные тенденции в IT индустрии и уметь работать с большими объемами данных. Да и к тому же активно занимаюсь анализом данных и преподаванием машинного обучения как дисциплины в университете и ШАД Яндекса.

Актуальность данных направлений обусловлена тем, что мы все чаще и чаще сталкиваемся с необходимостью выявлять внутренние закономерности в постоянно растущих объемах самых разных данных в медицине, маркетинге, финансовых системах, научных исследования и т.д. В научной сфере это то, что обычно называется state of the art («на острие технического прогресса»). Современный анализ данных — это сложная и обширная дисциплина, которая включает как каноническую статистику, так и последние достижения в области Deep Learning и нейронных сетей.

Во время работы над своими проектами участники хакатона познакомились с основами анализа данных, научились работать с мощными инструментами и технологиями, освоили различные библиотеки — такие как Scipy, Pandas, Numpy и Matplotlib. Получили большой опыт работы с большими объемами сырых данных и извлечения их с помощью API соцсетей и следующего за ним парсинга. Также в ходе выполнения своих проектов ребята приобрели навыки работы с СУБД MongoDB. Разобрались с тем, как строить различные гипотезы и проверять их, используя полученные результаты, применять методы статистики и машинного обучения.

Особенно запомнились следующие проекты:

Команда About Blank. Согласно недавно обновленному законодательству люди, профили которых имеют более 3000 подписчиков, приравниваются к СМИ. Тема влияния СМИ на массы очень интересна как с научной точки зрения, так и коммерческой. Ребята взялись за исследование этих пользователей-хабов: обнаружили интересную информацию о профилях, узнали примерное соотношение количества ботов и реальных людей, выделили преобладающие виды контента на их стенах, попытались обозначить признаки, обуславливающие их популярность. Показали, что эти пользователи действительно постят в большинстве случаев фото и аудиозаписи, а также имеют открытые профили и принимают сообщения от всех пользователей.

Развивая эту идею, можно понять, чем интересуется аудитория, подписанная на этих людей, узнать их увлечения, а также повлиять на них. Полученная информация позволит заниматься эффективным продвижением рекламы, рассчитанной на определенные группы пользователей в сети. Стоит выделить этот проект, поскольку ребята одни из немногих, кто взялся за практическую задачу и довел её до стадии работающего прототипа с возможностью будущей монетизации сервиса как аналога Я.Директа и Google.Ads.

Команда Map of connections. В данном проекте ребята взялись за довольно интересное исследование — изучение закономерностей общения между учениками разных школ Москвы. Исследовалась плотность связей между учениками разных школ в зависимости от локации и наличия совпадающего профиля сравниваемых школ. Были построены графы связей между учащимися и получены так называемые компоненты связности, показывающие, как разделены по кругам общения те или иные группы школьников, а также представлена визуализация связей на карте г. Москвы. Такие данные можно использовать для улучшения взаимодействия школ в различных сферах: начиная от олимпиадного движения и заканчивая спортивными и общественными активностями.

Команда 10011001. Команда студентов разработала приложение, которое позволяет искать зависимости данных автоматически и не строить гипотезы вручную. С помощью данного функционала они построили корреляции различных социальных признаков существующей выборки школьников в соцсети ВКонтакте: связи их основных интересов, музыкальных и литературных предпочтений с гендерным различиями, с национальностью, образом жизни и многими другими характеристиками. Главной ценностью их работы является возможность задавать любые входные данные и получать самые значимые корреляции, которые можно использовать для построения среднестатистического отношения выделенной по признакам группы людей к интересующей нас теме.

Моей задачей в рамках хакатона было представить его участникам примеры исследований, находящихся на пересечении социологии и анализа (больших) данных. В качестве примера я выбрал одно из самых известных и цитируемых исследований в социальных науках за последние годы «Tastes, Ties and Time: A new social network dataset using Facebook.com» в связи с тем, что это одно из первых исследований подобного рода, выполненное (отчасти) на похожем датасете и часть гипотез которого вполне можно проверить да данных, предоставленных участникам, получив, таким образом кросскультурный сравнительный анализ. Ну и главной причиной выбора данного исследования было то, что воспроизведение тех его результатов, которые основывались на анализе данных из онлайн соц. сети, было вполне по силам участникам в отведённое для этого время.

Вынужден признаться, что участники превзошли мои ожидания, представив в своих проектах не менее интересные проекты, чем тот, что удалось реализовать социологам из Гарварда. Например, одна команда построила модель, которая позволяла отличить тех, кто после 9-го класса уйдёт в ПТУ, от тех, кто продолжит своё обучение в старших классах школы. При этом с инструментарием для проведения данного анализа (Python, scikit-learn, pandas и т.д.) участники, по их словам, познакомились только в день хакатона. Другая команда создала с помощью сервиса проверки орфографии Яндекса собственный индекс грамотности, на основе которого создала веб-сервис, позволяющий автоматически определить уровень грамотности любого пользователя Вконтакте на основе публичных записей с его стены.

Однако моим персональным фаворитом была команда, которая решила сравнить географические связи между школами со связями на основе «интересов» и их влияние на дружбу между учащимися этих школ. Действительно, будет ли больше друзей между школами, которые ближе друг к другу географически, или же общие интересы и профиль здесь гораздо важнее расстояния? Исследования подобного рода на данный момент редки даже в наиболее продвинутых университетах и исследовательских центрах, и поэтому, если у ребят получится довести его до конца, они вполне смогут встать в один ряд с учёными мирового уровня.

По итогам успешного хакатона GoTo Hack на весенней школе помимо уже существующих направлений — прикладное программирование и робототехника — запускается направление анализа данных. Участники познакомятся с актуальными темами — SNA, Big Data и Machine Learning — и смогут подготовиться к финалу олимпиады НТИ. Весенняя городская школа образовательного проекта GoTo пройдет с 26 марта по 3 апреля в Москве. К участию приглашаются ученики 8-11 классов. В GoTo организовано два потока: для начинающих и продвинутых. Начинающих ждет серия специальных мастер-классов, которая поможет плавно погрузиться в работу над проектами.  Подробности здесь.

2К открытий2К показов