0
Обложка: Как стать дата-сайентистом в МТС и не только

Как стать дата-сайентистом в МТС и не только

В апреле мы запустили практический курс для специалистов, которые хотят освоить популярную профессию Data Scientist. Отвечаю на самые распространенные вопросы о корпоративных курсах: зачем они нужны, кому стоит идти и — главное — помогут ли они устроиться на работу. (Спойлер — помогут, но не всем.)

Евгений Макаров
Евгений Макаров
Руководитель центра Data Science МТС и куратор программы «Школа аналитиков данных» в МТС.Тета
  1. Курс по Data Science заменит вузовское образование?
  2. Зачем нужны такие курсы?
  3. Сложно ли к нам попасть?
  4. Работал маркетологом, хочу переучиться на DS. Подойдёт ли мне курс?
  5. Какой шанс попасть в команду после выпуска?
  6. Какие ещё направления стоит освоить? Что ещё изучить по теме?
  7. Зачем компании делать собственные курсы?
  8. Будет ли ещё набор?

МТС.Тета — центр обучения МТС Digital для IT-специалистов разного стека технологий. В школе преподают действующие разработчики МТС, а образовательные программы основаны на реальных кейсах, сильном комьюнити студентов и поддержке экспертов.

В апреле 2022 года Big Data МТС запустила в Тета Школу аналитиков данных (ШАД) для тех, кто начинает карьеру в Data Science или хочет перейти в эту сферу из смежных профессий. За девять месяцев студенты освоили основы профессии fullstack ML–разработчика: программирование на Python, инструменты работы с Big Data, принципы построения пайплайнов ML и прошли кейсы по машинному обучению.


Курс по Data Science заменит вузовское образование?

В случае с Data Science — однозначно нет. Главное условие освоения курса по Data Science — наличие определённых фундаментальных знаний.

Я, например, закончил физический факультет Воронежского государственного университета. У меня было три семестра матанализа: больше 70 лекций, около 85 семинаров, плюс много «домашки» — в сумме порядка 350 учебных часов. А ещё линейная алгебра, векторный анализ, дифференциальные уравнения и многое другое. Это огромная база, которую курсами не компенсировать. Вся наша школа по анализу данных — это 300 аудиторных часов на все разделы.

Для ШАД нужна университетская база: без математики, теории вероятности, статистики вы просто не сможете работать с задачами анализа данных, будет возникать слишком много базовых вопросов. Плюс нужны базовые навыки программирования хотя бы на Python. Наличие этих знаний — один из критериев отбора на наш курс.

Это касается не только нашей школы, но и любых корпоративных университетов и онлайн–образования. Ни у одной компании не хватит ресурса на полноценную университетскую программу. Допускаю, что онлайн можно научиться «кодить» бизнес-логику при наличии системного аналитика в команде, но если вы хотите в Data Science, сначала освойте «матчасть».

Зачем нужны такие курсы?

Корпоративные курсы — это возможность научиться сугубо прикладным вещам, как раз тому, чему не учат в университете и что будет интересовать будущих работодателей. Компании создают такие курсы на основе реальных задач и способов их решения. Вы узнаете самые свежие и эффективные — а это не всегда одно и то же — инструменты работы, не погружаясь в фундаментальные основы, на которых эти инструменты основаны.

Например, в ШАД студенты изучают кейсы по кредитному скорингу и рекомендательным системам, временным рядам в задачах для продаж, uplift-моделирование, A/B-тестирование. Для того чтобы подготовить ребят к работе, мы преподаём основы DevOps, принципы использования Docker, рассказываем про Airflow и Kubernetes, SQL и хранилища данных, в том числе ClickHouse и Greenplum — они составляют важную часть нашего стека.

По самым грубым подсчётам, если собирать эти данные по разным коммерческим программам, придётся набрать курсов на 300 тысяч рублей, да ещё «смэтчить» всё в стройный образовательный цикл.

Школу ведут лиды направлений, которые непосредственно занимаются задачами анализа данных. Мы учим ровно тому, что каждый день в работе делаем сами. Так что корпкурсы — это возможность познакомиться с прикладными задачами и проверенными решениями. Грубо говоря, в университете вам объяснят, как принято делать, что лежит в основе решений, каковы фундаментальные ограничения. А мы объясним, как это работает на прикладном уровне.

Сложно ли к нам попасть?

Курс бесплатный, желающих много — в этот раз было 28 человек на место. Так что мы проводим вступительные испытания. Минимальные требования: знание теории вероятностей, статистики и математики, базовые навыки программирования на Python и небольшой опыт построения моделей машинного обучения. Мы даём задачки базового уровня, но из нескольких смежных областей, так что знать нужно всего понемногу. Также мы смотрим на активность кандидата: ходил ли он на стажировки, участвовал ли в хакатонах или соревнованиях, в целом горят ли глаза у человека.

ПРИМЕР ЗАДАЧИ

У вас есть 3 мешка с шариками красного, синего и зелёного цветов. В первом мешке 3 красных шарика, 4 синих и 5 зелёных. Во втором мешке 2 красных шарика, 1 зелёный и 1 синий. В третьем мешке 3 красных шарика, 10 зелёных и 5 синих. Вы вслепую берёте по одному шарику из каждого мешка. С какой вероятностью все 3 шарика, которые вы вытащили, окажутся красными?

Сложнее всего даже не попасть на курс, а удержаться там. Из 40 человек до итоговых экзаменов дошло чуть больше половины: курс интенсивный, совмещать его и с работой, и с учёбой может быть сложно.

Работал маркетологом, хочу переучиться на DS. Подойдёт ли мне курс?

Гуманитариям на курсе будет очень сложно — для поступления вам нужно уже знать основы программирования и аналитики. Мы не разбираем теоретические основы, а сразу погружаемся в практические кейсы. Для тех, кто не собирается работать непосредственно в DS, но хочет разобраться, что такое Machine Learning, посоветую курс Making Friends with Machine Learning от Google. Его читает Cassie Kozyrkov — chief data scientist Google и известная популяризатор Data Science. Она простым языком рассказывает, что такое ML и как это работает.

Какой шанс попасть в команду после выпуска?

Мы взяли на стажировку шесть человек с курса, двоих уже оформляем в штат. Несколько студентов устроились в другие крупные IT-first компании.

Наши HR уже с начала курса собирают фидбэк от преподавателей: как люди мыслят, как сдают «домашки», как подходят к задачам, делают ли больше необходимого минимума. Такие моменты очень показательны и сразу дают представление о том, каким человек будет сотрудником. Например, если дедлайн по сдаче задания — среда 00.00, а студент постоянно присылает его во вторник в 23.59, мы сразу понимаем, что он делает «домашку» в последний момент. Я, как лид, хочу исключить ситуации, когда получаю данные от аналитика в 6.00 утра и нахожу там ошибки, а в 10.00 их уже нести на стратсессию компании или клиенту. Слишком большой риск.

Владимир Шилин
Владимир Шилин
Выпускник школы аналитиков данных МТС, ML-разработчик центра Big Data МТС

В ШАД МТС я попал на последнем курсе бакалавриата как раз решил развиваться в направлении Data Science. Меня особенно привлекла возможность трудоустройства: у меня не было релевантного опыта работы, в такой ситуации трудно сразу попасть в крупную компанию. На курсе много действительно полезной и прикладной информации. В начале каждого модуля всегда дают базу, благодаря этому легко разобраться в материале. Через несколько месяцев я окончил университет, и меня позвали на стажировку в центр Data Science. Тут как раз очень пригодились знания, полученные на курсе. В результате я успешно прошёл стажировку и теперь уже полноценно работаю в компании на позиции ML-разработчика.

Какие ещё направления стоит освоить? Что ещё изучить по теме?

Кто-то по мере углубления в профессию яснее понимает, какая ветвь DS ему больше подходит. А кто-то просто follows the money, почему бы и нет. Дам несколько источников, которые помогут прокачать свои знания и усилить полезный эффект от вашего труда.

Обложка книги «Доверительное A/B-тестирование. Сюй Я., Тан Д., Кохави Р.»

Доверительное A/B-тестирование. Сюй Я., Тан Д., Кохави Р.

Учебник для тех, кто хочет разобраться в проведении экспериментов по оценке эффекта. Продуктовые аналитики востребованы в рекламе и маркетинге, разработке любых digital-продуктов — это они отвечают на вопрос, улучшаем мы показатели или нет. Заодно можно почитать статью на Хабре о том, как «запилить» A/B-тесты на основе нашей open source библиотеки, очень удобно.

Обложка книги «Машинное обучение. Паттерны проектирования. Валиаппа (Лак) Лакшманан (Valliappa (Lak) Lakshmanan), Майкл Мунн (Michael Munn), Сара Робинсон (Sara Robinson)»

Машинное обучение. Паттерны проектирования. Валиаппа (Лак) Лакшманан (Valliappa (Lak) Lakshmanan), Майкл Мунн (Michael Munn), Сара Робинсон (Sara Robinson)

Это практическая книга от инженеров компании Google, которые систематизировали и описали свыше 30 паттернов, применяемых для представления данных и задач, обучения моделей, обеспечения воспроизводимости конвейеров машинного обучения. Читать тем, кто интересуется системным дизайном машинного обучения и всем специалистам уровня мидла и выше: собеседование на такую позицию почти всегда включает вопросы про системный дизайн.

Обложка книги «Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow: концепции, инструменты и техники создания интеллектуальных систем. Орельен Жерон»

Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow: концепции, инструменты и техники создания интеллектуальных систем. Орельен Жерон

Автор – прекрасный методист, рассказывает и про классику ML, и про «нейронки». Одна книга закроет оба стека и даст два инструмента: Scikit-Learn и TensorFlow. Очень хороший микс теории и практики. Изложены все основные алгоритмы, много задач, толковые картинки. Помню, именно благодаря ей я разобрался, что такое cross-entropy loss.

Особняком стоит статья про лучшие практики машинного обучения от Мартина Зинкевича, Research Scientist Google. Она уже для синьоров и лидов. В ней вроде бы нет ничего радикально нового, но почему-то в реальной жизни эти практики часто забывают.

Также можно посмотреть курсы от Deepmind, Stanford, CMU — они есть на YouTube, всё можно найти поиском. Это серьёзный уровень, глубокий и фундаментальный, я такое люблю.

А ещё поделюсь лайфхаком: если набрать в поиске на GitHub «awesome <something>» вы наверняка найдёте страничку, на которой кто-то любовно собрал кучу классных материалов по теме. Пользуйтесь.

Зачем компании делать собственные курсы?

Главная задача таких курсов — обучать начинающих специалистов именно тому, что используется на практике в компании. Хороших дата-сайентистов на рынке мало, а потребности компании постоянно растут. У нас в центре Big Data создаются геоаналитические решения, из нас выросли рекламная платформа МТС Маркетолог и платформа кредитных скорингов. Мы используем data-based решения практически во всех бизнес-вертикалях МТС: строим на основе данных сеть связи, открываем и планируем графики работы точек продаж, делаем антиспам-систему, вкладки рекомендаций для онлайн-кинотеатра KION и библиотеки «Строки» — и это далеко не полный список.

Так что курс для компании — возможность обучить и нанять классных специалистов, которые уже знают, как у нас всё устроено. Студенты собственных курсов — отличные кандидаты: мы знаем, что вы умеете, видим вас в деле, понимаем, как вы работаете в команде и сможете ли вписаться в коллектив. И мы сами научили вас тому, что нужно знать для работы в компании. Идеальное комбо! Но даже если вы не попадаете в МТС, после курса вы всё равно становитесь крутым специалистом, и мы считаем, что это наш вклад в рынок. Создание сильного сообщества дата-сайентистов полезно для всех компаний.

Бонус — возможность развивать собственных сотрудников. Преподавание — отличный способ освежить свои знания и прокачать навык выступлений. Эти скилы пригодятся для дальнейшего карьерного и финансового развития. Да и просто многие любят преподавать.

Александр Самойлов
Александр Самойлов
Преподаватель школы аналитиков данных, ML-разработчик центра Big Data МТС

Для меня преподавание — это возможность иначе взглянуть на свои знания в предметной области, на то, как ты понимаешь ту или иную проблему и узнать что-то новое. Это способ разбавить рабочий процесс нетипичной задачей, выйти из зоны комфорта. Это шанс помочь в становлении специалиста: безумно мотивирует, когда видишь, что у твоих студентов что-то начинает получаться лучше. А ещё это возможность присмотреть себе будущих коллег!


Будет ли ещё набор?

Пока сложно сказать, но, конечно, планируем. Обязательно выложим анонс в наш блог.