Как команда студентов победила в хакатоне и выиграла 500 000 руб. — интервью с участником
3К открытий3К показов
Алексей Боховкин, студент 1 курса магистратуры МФТИ (ФУПМ) и Сколтеха (Data Science) вместе с командой одержал победу на недавнем нейрохакатоне в научном треке. Мы попросили Алексея рассказать о своём пути к Data Science и о первой большой победе, а также дать несколько советов тем, кто хочет добиться успехов в этой области.
— Расскажи, как ты пришёл к Data Science?
Первые 4 года учился в МФТИ на факультете общей и прикладной физики, занимался наноструктурами, затем решил перейти в Data Science.
Здесь мой путь начался с того, что я, совсем ещё зеленый в анализе данных, решил попробовать связаться с одним из самых успешных и прогрессивных российских учёных в области анализа данных, Евгением Бурнаевым, который стал впоследствии моим научным руководителем.
Он сразу предложил мне заняться научным исследованием и попробовать поработать с упором на production. Так я стал членом научной группы ADASE в Skoltech, и мой интерес к анализу данных вообще и к соревнованиям в частности только рос.
— Как ты попал на нейрохакатон?
После года работы мы с командой решили поучаствовать в хакатоне, который проводился в Сколтехе в коллаборации Сколтеховской лаборатории CoBrain и компании Philips. Мы подумали, что если хакатон проводится в Сколтехе, то это точно знак, что нам пора бы поучаствовать. В соревновании было несколько открытых треков и один научный, в котором мы и участвовали. Нужно было построить алгоритм сегментации рассеянного склероза на снимках МРТ.
Компания Philips заявила, что если нам удастся побить результат их алгоритма для этой задачи, то нами заинтересуются. Нам это удалось, и пока что нам предложили стажироваться в российском отделении Philips.
— Участвовал до этого в хакатонах? Есть ли какие-то отличия от предыдущих?
До этого принимал участие в соревнованиях только в одиночку и из дома. Они всегда были в какой-то степени связаны с компьютерным зрением: либо классификация, либо сегментация. Очное участие, можно сказать, произошло впервые. Несмотря на то, что хакатон был организован в первый раз, он, на удивление, оказался хорошо спланирован и включал много треков.
— Почему решили выбрать именно научный трек?
Задача научного трека показалась нам хорошей возможностью проверить наши знания и навыки, также она являлась более академической по сравнению с задачами открытого трека, что для нас было важно. Задачи же открытого трека предполагали придумать MVP какого-нибудь продукта, но здесь мы были совсем не уверены, что соберём что-то действительно полезное за такие сжатые сроки.
— Как готовились к хакатону?
Фактически, подготовка началась в момент моего прихода в лабораторию AeroNet в Сколтехе, где мы занимаемся сегментацией спутниковых снимков. Это, конечно, не МРТ, но навыки и знания пригодились для хакатона почти полностью.
— В соревновании нужно было построить алгоритм сегментации рассеянного склероза на снимках МРТ. Ваш алгоритм будет использоваться на практике?
Нам было сказано, что с нашей командой будут дальше работать, чтобы улучшить наш алгоритм и использовать его на практике, а там дело дойдёт, возможно, и до публикации. Во всяком случае, и наша команда, и организаторы хакатона заинтересованы продолжить сотрудничество.
— Была ли какая-то цель для участия в хакатоне? Испытать себя, заявить о себе, с коллегами познакомиться?
Да, очень хотелось проверить, насколько полезны могут оказаться навыки, приобретённые в работе и других соревнованиях, для другой области. Тем более, хакатон был организован в нашем институте, так что мы сразу негласно пришли к решению участвовать в соревновании.
— Насколько сложным был вступительный тест по работе с датасетами для участия в хакатоне? Много команд его осилило?
Вступительный тест был, на удивление, очень простым. Необходимо было немного поработать с текстовыми описаниями тех же снимков МРТ и определить уверенность/неуверенность постановки заключения врача. Насколько мне известно, все команды справились с заданием. Можно было придумать, как использовать эти данные в очном этапе, но мы не сочли это полезным для нашего решения.
— Насколько сложной была задача хакатона по сравнению с теми, которые обычно решаете в Сколтехе? Как оценивали свои шансы на победу до хакатона и во время ожидания результатов?
Честно говоря, мы думали, что нам вряд ли удастся пройти в финал соревнования. Мы использовали техники, которые практически всегда применяем в лаборатории, и они оказались крайне успешны, даже удалось улучшить результат самих организаторов хакатона. Когда же объявили, что наша команда в финале, в один момент мы воодушевились до небес и начали быстро готовить презентацию нашего решения и решать дополнительные задачи, чтобы оторваться от преследователей в турнирной таблице.
— Расскажи о технической части алгоритма, использованного на хакатоне и, если можно выделить, что именно помогло победить алгоритм Philips?
Как я уже говорил, это наши модели, которые мы используем для решения сегментационных задач в AeroNet. Естественно, это нейронные сети, предназначенные для сегментации изображений. В отличие от алгоритма Philips, который, как и многие подобные алгоритмы в production, представлял из себя одну-единственную модель сегментации, наша команда подготовила несколько натренированных нейросетей. Как решение мы представляли усреднение предсказаний наших топовых моделей. Ну, и без техник соревнований не обошлось — это и аугментации данных, и различные манипуляции по ходу обучения, и постпроцессинг.
— Долго решали поставленную задачу? Это всё было с ночёвкой на территории Сколтеха?
Мы решили не ночевать в Сколтехе, потому что до дома нам всем было недалеко. А мне даже в один день необходимо было сидеть на парах в другом университете, чтобы не было проблем, и в это же время решать хакатон. Так и помню, как сидя на занятиях военной кафедры, в перерывах открывал ноутбук и запускал обучаться модели.
— Как долго ждали результатов? Какая была реакция после выигрыша?
Результаты нам были объявлены в день финала, после презентации решений. От выигрыша, тем более такого немаленького, мы поначалу были в шоке. Вроде бы просто посидели на выходных над небольшой задачкой, а тут получили такие ценные призы. На следующий день пришли в себя, успокоились и поняли, что это просто один из этапов в нашем развитии и дальнейшая мотивация участвовать в грядущих соревнованиях.
— Мотивирует ли эта победа развиваться? Что вообще помогает двигаться дальше?
Да, очень сильно мотивирует. Больше всего, скорее, даже не призы, а возможность поработать вместе с Philips и CoBrain, написать публикацию. А деньги — это приятный бонус.
— Как и почему пришёл к Data Science после прикладной физики? Помогло ли первое образование?
Data Science начал заниматься, потому что всё-таки понял, что математика, а особенно теория вероятности и прикладная статистика, для меня в разы интереснее физики. А эти области математики являются основой для Data Science. Но не буду принижать физику, за годы изучения в физтехе всех её сортов и видов привилась гибкость ума и способность быстро приобретать навыки практически в любых областях.
— Насколько важно иметь руководителя при изучении? Смог бы осилить обучение сам?
Без руководителя никуда. Помимо самих знаний, навыков и советов, которые даёт руководитель, это, прежде всего, опыт работы в реальных научных задачах, взаимодействие с научным коллективом. В одиночку, как мне кажется, очень легко уйти в попытки собрать свой стартап, и непонятно, насколько удачным он будет. А с руководителем и научным коллективом появляется чутьё на актуальные задачи, навыки научного программирования, опыт общения с другими научными группами и наукоёмкими компаниями.
— Приходится ли от чего-то отказываться ради науки?
Да, конечно, прежде всего от [свободного] времени. Сейчас, когда надо учиться и работать в лаборатории одновременно, приходится посвящать всё своё свободное время только этому. Иначе просто ничего не успеть. Но, как говорится, если нравится, то и проблем никаких с этим нет.
— Есть ли какая-то глобальная цель, к которой идёшь в своей работе?
Пока что глобальной цели изменить мир не ставил. Однако есть большое желание сильно продвинуться в научном мире и, по возможности, закрепиться в нём. Для начала нужно закончить оба института, и очень хочется получить учёную степень.
— Какие навыки, кроме технических, важны для тебя в работе?
Самое главное — ладить с коллегами и уметь быстро налаживать связи с новыми людьми из научного мира. Мне кажется, это самое важное сейчас, как и лично для меня, так и для любого человека, который хочет заняться наукой в России. Нужно как можно больше общаться, участвовать в совместных проектах, проводить как можно больше конференций.
— Какие художественные и технические фильмы и книги по теме любишь?
Любимая книга по области, это, конечно же, сборник Айзека Азимова «Я, робот». Она, фактически, Библия от мира Data Science. Всем известные три закона робототехники как раз пришли из этой книги.
— Где ищешь информацию, когда нужно что-то узнать? Есть какие-то проверенные сайты и книги или с коллегами советуешься?
Это, прежде всего, общение с коллегами в лаборатории, а также есть очень популярный чат для русского комьюнити Data Science в Slack — «Open Data Science». Там собралось очень много российских и не только учёных в области анализа данных, и на любой вопрос можно получить ответ. Да и просто очень полезно читать, чем люди занимаются и что спрашивают. А насчёт книг, это, конечно же, C. Bishop «Pattern Recognition and Machine Learning», а более практические навыки можно получить в многочисленных курсах от Stanford и на Coursera.
— Проходил ли какие-то курсы онлайн или оффлайн кроме основного обучения?
Да, это курс от Stanford CS231n по распознаванию изображений, специализация от МФТИ и Яндекса на Coursera по Машинному обучению.
— Как видишь своё будущее в Data Science?
Сейчас делаю всё, чтобы попасть в хорошую аспирантуру. Пока что не знаю, будет ли это Сколтех, или какая-то заграничная аспирантура, но степень надо получить обязательно.
— Можешь назвать топ-3 самых эффективных техник для обучения?
Топ-1 — это, безусловно, режим и эффективный сон, это крайне необходимое условие успеха, тем более в науке. Далее следует, конечно, техника для сохранения мотивации. Здесь надо просто окунуться в мир Data Science и не забывать, как сильно развился DS за последние 5 лет. Когда видишь беспилотные автомобили в Сколково, в которые можно сесть, как в такси, сразу же хочется заняться подобным. Ну, и лично для меня последняя техника — это правильная атмосфера при работе. Я почти всегда работаю с музыкой, но без слов, чтобы не отвлекала. Тогда можно очень надолго сохранить свою продуктивность.
— Как посоветуешь начинающим осваивать Data Science?
Сейчас существует бесчисленное количество курсов по Data Science и грех ими не пользоваться. Если есть хоть какое-то желание заняться DS, то надо, прежде всего, пробовать курсы — подобрать можно на любой вкус. А дальше необходимо как можно раньше понять, нравится тебе Data Science или всё-таки нет. С таким бурным развитием области необходимо быстро понять своё место в ней.
Смотрите также: План обучения для специалиста по Data Science
3К открытий3К показов