Обложка: Что работодатели ждут от начинающих специалистов по Data Science

Что работодатели ждут от начинающих специалистов по Data Science

Специалист по Data Science занимает третье место в рейтинге востребованных профессией от LinkedIn. Выше только специалист по искусственному интеллекту и инженер-робототехник. При этом Data Science — одна из немногих сфер в ИТ, где выше всего доля позиций для специалистов с опытом меньше года, по данным Яндекс.Практикума и Хедхантера.

C количеством вакансий растёт число кандидатов и интерес к профессии. Поэтому для успешного трудоустройства нужно прокачивать скиллы и понимать, как выделиться среди других соискателей. Анна Белова, менеджер по трудоустройству программ «Аналитик данных» и «Специалист по Data Science» в Яндекс.Практикуме, рассказывает, что работодатели ждут от начинающих специалистов по Data Science.

Анна Белова

Анна Белова

менеджер по трудоустройству программ «Аналитик данных» и «Специалист по Data Science» в Яндекс.Практикуме

Какие задачи решает специалист по Data Science

Задачи могут отличаться от компании к компании. Если организация большая, возможна работа в нескольких направлениях. Например, в банке специалист по Data Science может решать задачу кредитной оценки и заниматься алгоритмами распознавания речи. В стартапе работа, наоборот, может быть сконцентрирована только на одном узком направлении, например создании системы компьютерного зрения для распознавания символов на изображении.

Какие ещё задачи может решить специалист по Data Science

  • написать программу, которая собирает полезную для машинного обучения информацию из нового источника;
  • настроить обработку данных, чтобы улучшить работу машинного обучения;
  • сделать прототип продукта на основе машинного обучения;
  • определить районы и точки для установки постаматов интернет-магазина, основываясь на адресах покупателей и загруженности существующей сети;
  • создать систему для прогнозирования платёжеспособности клиентов банка;
  • определить контент «18+» на фотографиях, чтобы исключить их из выдачи;
  • построить рекомендательную систему фильмов и сериалов для стримингового сервиса.

Какие нужны опыт и образование

У работодателей разные требования к позиции специалиста по Data Science. Начинающему специалисту может показаться, что он не подходит ни под одно описание и найти работу ему будет очень трудно. Но это не так.

Какие технические навыки ждут работодатели от начинающих датасаентистов

  • базовое знание математической статистики, алгоритмов машинного обучения (линейная регрессия и классификация, решающие деревья и их композиции, градиентный бустинг);
  • навыки подготовки данных к анализу;
  • способность выбрать подходящий алгоритм под задачу и создать модель на его основе;
  • умение защитить эффективность модели;
  • способность успешно внедрить модель в процесс или продукт.

Кроме технических навыков от начинающего специалиста будут ждать базовых soft skills, которые нужны практически на любой должности в сфере ИТ.

Какие soft skills ждут работодатели от начинающих датасаентистов

  • умение работать в команде: выстраивать коммуникацию с коллегами, предупреждать о возможных задержках и форс-мажорах, отвечать за результат;
  • самостоятельность: брать в работу задачи по техническому заданию, уметь декомпозировать их, самостоятельно находить ответы на вопросы, но знать, в какой момент лучше обратиться за советом к старшим коллегам;
  • уместность в представлении результатов: понимать разницу в коммуникации между сотрудниками разных уровней и компетенций (прямые коллеги, сотрудники из других отделов, руководители) и уметь выстроить презентацию полученных результатов с поправкой на эту специфику;
  • формулирование мыслей и своей позиции: уметь структурно изложить свои мысли, интерпретировать результаты своей работы, а не просто представить цифры;
  • критическое мышление: проверить входящую информацию, поставить под вопрос получаемые данные и знать, как их перепроверить.

Диплом сильного вуза и тематические научные работы чаще нужны в ситуации, когда компания ищет эксперта для решения конкретного кейса или консультации на стратегические проекты. Например, когда ИТ-компания планирует развитие продукта и хочет оценить необходимые технологии и ресурсы, или не ИТ-компания хочет использовать машинное обучение, но никакие стандартные приёмы не сработали. Эти ситуации встречаются редко. На практике выбирают специалиста, который способен решать ежедневные задачи компании.

Чек-лист подготовки к техническому собеседованию

Как пройдёт техническое собеседование, полностью зависит от интервьюера. Где-то могут глубже спрашивать Python, при этом в работе он вам на такой глубине не понадобится. Где-то — про архитектуру баз данных, когда работать в основном придётся в Excel. В целом все вопросы можно разделить на несколько категорий.

Python

Основные конструкции и типы данных, библиотеки для анализа данных (Pandas, NumPy), библиотеки для анализа текстов (PyMystem3, nltk), библиотеки для визуализации данных (Seaborn, Matplotlib, Plotly), модули для извлечения данных из HTML-страниц (Requests и BeautifulSoup), умение работать с документацией.

Есть два типа задач по Python на интервью. Первый — абстрактная задача, бесконечно далёкая от реальных. Например, поиск подстроки в строке. Такие задачи проверяют базовые знания языка.

Если знания языка уже доказаны тестовым заданием, появляется второй тип — «как бы ты решил(а) такую-то аналитическую задачу». Тут проверяется умение оперировать различными библиотеками языка. Пример: ваш друг предположил, что все, чьи имена заканчиваются на «А», — умные люди. Оспорьте эту гипотезу с помощью данных.

SQL

Основные операции и функции, извлечение и добавление данных, объединение и присоединение таблиц.

Здесь тоже два типа задач. Их выбор зависит от глубины необходимого погружения в SQL и подходов собеседующих. Первый тип — написать простой запрос и, например, объяснить разницу между left и right join. Второй — вопросы по архитектуре баз данных, например что такое реляционная база данных и в чём особенности PostgreSQL.

Математика

Ключевые концепции репрезентации данных, основы теории вероятностей, распределение вероятности дискретных случайных величин, биномиальное распределение и распределение Пуассона, нормальное распределение, выборочный метод, методы оценки параметров генеральной совокупности, построения доверительных интервалов и проверки гипотез, линейная алгебра, алгоритмы и численные методы.

Отдельно теорию вероятностей спрашивают редко. Но смотрят, как вы её понимаете, основываясь на ваших рассуждениях в задачах по статистике. В Яндексе на интервью в некоторые проекты могут предложить решить задачи из области высшей математики без привязки к данным, вспоминая на ходу формулы.

Анализ данных и понимание бизнеса

Предобработка данных, работа с несовершенными реальными наборами данных, работа с основными методами поиска дубликатов, исследовательский анализ данных (EDA), статистический анализ данных, анализ бизнес-показателей, умение соотносить знание о бизнес-процессах с принятием решений.

Чтобы понять, насколько вы ориентируетесь в бизнес-показателях, могут предложить абстрактные кейсы: «Есть инстаграм, придумайте для него ключевую метрику». Или более конкретные: «Придумайте для сервиса такси модель, которая будет оценивать уровень усталости водителя». И тогда работодатель посмотрит, какие показатели и метрики вы будете использовать. Отдельно могут обратить внимание на интерпретацию результатов: как вы объясняете цифры, что они означают и какую пользу можно из них извлечь.

Машинное обучение

Умение решать задачи классификации и регрессии для данных разного характера, знание нескольких моделей машинного обучения, умение их применять и настраивать их основные гиперпараметры, знание типичных проблем при обучении моделей, умение их решать простыми способами, знание основных метрик машинного обучения, способность объяснить, чем они отличаются и в каких ситуациях применимы, знание библиотек Python для машинного обучения (sklearn, CatBoost, LightGBM, XGBoost, Keras).

Если вы не претендуете на должность с этим профилем, то спросят про машинное обучение в общих чертах: что знаете, что слышали, что читали.

Логические задачи

Одна из самых странных и плохо предсказуемых вещей на интервью. Сами по себе эти вопросы не проверяют какие-то специальные навыки, а типовые задачи можно просто заучить вместе с ответами.

Но некоторые интервьюеры по-прежнему любят давать их на собеседовании, изменяя формулировки. Для большинства логических задач очень важно умение вычленить настоящие вопросы, которые в них поставлены. Задание часто даётся на слух и специально включает много отвлекающих деталей. По факту задача может решаться через булеву алгебру или простым уравнением. Вот несколько ссылок на разные задачи такого типа, с готовыми решениями и без:

Как подготовиться к поиску работы

Добавьте проекты на основе реальных данных. Открытые датасеты можно найти на Kaggle, OpenDataSoft и UCI Machine Learning Repository. В интернете есть подборки данных по конкретным категориям, вот несколько примеров:

Ещё один рабочий вариант ― хакатоны, олимпиады и онлайн-соревнования. Работодатели часто учитывают соревнования на Kaggle и предлагают места в команде первой десятке победителей. Например, у нас в Яндекс.Практикуме в программе трудоустройства есть команда, которая специально готовит студентов к этим соревнованиям.

Составьте несколько вариантов резюме. Их можно разделить по ключевым требованиям к кандидату или по сфере деятельности компании, которая опубликовала вакансию. Подчеркните в каждом резюме то, что нужно конкретно этой группе.

Не игнорируйте сопроводительное письмо. Представьте, что вам нужно подготовить описание в Тиндере, где у тысячи других людей такой же запрос, как и у вас. Свайпают вправо тех, кто больше всех подходит и кто больше всех нравится. Хороший текст поможет поймать мэтч с тем, с кем вы будете максимально совпадать по каким-то явным и не очень критериям.

В сопроводительном письме расскажите, чем вы можете быть полезны компании. Предоставьте решение её задачи в виде собственных услуг — получится аналог коммерческого предложения, в котором вы продаёте себя как специалиста.

Как найти работу, если вы…

… студент или не хотите уходить с основной работы

Попробуйте найти проекты с почасовой оплатой, например на биржах фриланса или рекрутинговых сайтах. Обратите внимание на стажировки с обучением и частичной занятостью. Информацию о стажировках в конкретных компаниях публикуют на сайте компании или в её социальных сетях. Вариант для смелых — писать напрямую HR-менеджерам и интересоваться открытыми вакансиями.

Другой вариант — найти проект в университете или на текущей работе. Данные сейчас есть везде, даже в политологии или социологии. В этих областях, например, много открытых задач по анализу текстов. В вузовских лабораториях всегда не хватает рук, поэтому инициативе с вашей стороны будут только рады.

… опытный специалист в другой сфере

Главное ваше преимущество перед вчерашними выпускниками — soft skills: умение снимать запрос, работать с сопротивлением, соблюдать дедлайны, отвечать за результат. В этом плане вы не классические джуны, которых ещё нужно научить работать, вы уже это умеете. В резюме поделитесь кейсами, которые были связаны с анализом данных: что-то считали в Excel, оптимизировали работу отдела на основе данных, проверяли гипотезы с помощью данных.

Ещё в некоторых компаниях есть программы ротации — переход с одной должности на другую или в другой отдел. Этот путь может быть проще, чем искать релевантную позицию в незнакомой компании.

… давний выпускник ИТ-вуза и слушатель бесплатных курсов

Заходите на актуальные соревнования и не ограничивайтесь только созданием проекта. Налаживайте контакты с работодателями, докажите им, что ваших знаний достаточно, чтобы выполнять задачи, которые перечислены в вакансии. В отсутствие сертификата или другого подтверждения, что вы умеете качественно выполнять эту работу, работодатель будет ориентироваться только на ваши достижения и заинтересованность, поэтому тут нужна проактивность.