Карта дня, май, перетяжка
Карта дня, май, перетяжка
Карта дня, май, перетяжка

Что работодатели ждут от начинающих специалистов по Data Science

Логотип компании Яндекс Практикум
Отредактировано

Разбираемся, какие скиллы нужно прокачивать и как выделиться среди других соискателей на позицию специалиста по Data Science.

9К открытий10К показов

Специалист по Data Science занимает третье место в рейтинге востребованных профессией от LinkedIn. Выше только специалист по искусственному интеллекту и инженер-робототехник. При этом Data Science — одна из немногих сфер в ИТ, где выше всего доля позиций для специалистов с опытом меньше года, по данным Яндекс.Практикума и Хедхантера.

C количеством вакансий растёт число кандидатов и интерес к профессии. Поэтому для успешного трудоустройства нужно прокачивать скиллы и понимать, как выделиться среди других соискателей. Анна Белова, менеджер по трудоустройству программ «Аналитик данных» и «Специалист по Data Science» в Яндекс.Практикуме, рассказывает, что работодатели ждут от начинающих специалистов по Data Science.

Какие задачи решает специалист по Data Science

Задачи могут отличаться от компании к компании. Если организация большая, возможна работа в нескольких направлениях. Например, в банке специалист по Data Science может решать задачу кредитной оценки и заниматься алгоритмами распознавания речи. В стартапе работа, наоборот, может быть сконцентрирована только на одном узком направлении, например создании системы компьютерного зрения для распознавания символов на изображении.

Какие ещё задачи может решить специалист по Data Science

  • написать программу, которая собирает полезную для машинного обучения информацию из нового источника;
  • настроить обработку данных, чтобы улучшить работу машинного обучения;
  • сделать прототип продукта на основе машинного обучения;
  • определить районы и точки для установки постаматов интернет-магазина, основываясь на адресах покупателей и загруженности существующей сети;
  • создать систему для прогнозирования платёжеспособности клиентов банка;
  • определить контент «18+» на фотографиях, чтобы исключить их из выдачи;
  • построить рекомендательную систему фильмов и сериалов для стримингового сервиса.

Какие нужны опыт и образование

У работодателей разные требования к позиции специалиста по Data Science. Начинающему специалисту может показаться, что он не подходит ни под одно описание и найти работу ему будет очень трудно. Но это не так.

Какие технические навыки ждут работодатели от начинающих датасаентистов

  • базовое знание математической статистики, алгоритмов машинного обучения (линейная регрессия и классификация, решающие деревья и их композиции, градиентный бустинг);
  • навыки подготовки данных к анализу;
  • способность выбрать подходящий алгоритм под задачу и создать модель на его основе;
  • умение защитить эффективность модели;
  • способность успешно внедрить модель в процесс или продукт.

Кроме технических навыков от начинающего специалиста будут ждать базовых soft skills, которые нужны практически на любой должности в сфере ИТ.

Какие soft skills ждут работодатели от начинающих датасаентистов

  • умение работать в команде: выстраивать коммуникацию с коллегами, предупреждать о возможных задержках и форс-мажорах, отвечать за результат;
  • самостоятельность: брать в работу задачи по техническому заданию, уметь декомпозировать их, самостоятельно находить ответы на вопросы, но знать, в какой момент лучше обратиться за советом к старшим коллегам;
  • уместность в представлении результатов: понимать разницу в коммуникации между сотрудниками разных уровней и компетенций (прямые коллеги, сотрудники из других отделов, руководители) и уметь выстроить презентацию полученных результатов с поправкой на эту специфику;
  • формулирование мыслей и своей позиции: уметь структурно изложить свои мысли, интерпретировать результаты своей работы, а не просто представить цифры;
  • критическое мышление: проверить входящую информацию, поставить под вопрос получаемые данные и знать, как их перепроверить.

Диплом сильного вуза и тематические научные работы чаще нужны в ситуации, когда компания ищет эксперта для решения конкретного кейса или консультации на стратегические проекты. Например, когда ИТ-компания планирует развитие продукта и хочет оценить необходимые технологии и ресурсы, или не ИТ-компания хочет использовать машинное обучение, но никакие стандартные приёмы не сработали. Эти ситуации встречаются редко. На практике выбирают специалиста, который способен решать ежедневные задачи компании.

Чек-лист подготовки к техническому собеседованию

Как пройдёт техническое собеседование, полностью зависит от интервьюера. Где-то могут глубже спрашивать Python, при этом в работе он вам на такой глубине не понадобится. Где-то — про архитектуру баз данных, когда работать в основном придётся в Excel. В целом все вопросы можно разделить на несколько категорий.

Python

Основные конструкции и типы данных, библиотеки для анализа данных (Pandas, NumPy), библиотеки для анализа текстов (PyMystem3, nltk), библиотеки для визуализации данных (Seaborn, Matplotlib, Plotly), модули для извлечения данных из HTML-страниц (Requests и BeautifulSoup), умение работать с документацией.

Есть два типа задач по Python на интервью. Первый — абстрактная задача, бесконечно далёкая от реальных. Например, поиск подстроки в строке. Такие задачи проверяют базовые знания языка.

Если знания языка уже доказаны тестовым заданием, появляется второй тип — «как бы ты решил(а) такую-то аналитическую задачу». Тут проверяется умение оперировать различными библиотеками языка. Пример: ваш друг предположил, что все, чьи имена заканчиваются на «А», — умные люди. Оспорьте эту гипотезу с помощью данных.

SQL

Основные операции и функции, извлечение и добавление данных, объединение и присоединение таблиц.

Здесь тоже два типа задач. Их выбор зависит от глубины необходимого погружения в SQL и подходов собеседующих. Первый тип — написать простой запрос и, например, объяснить разницу между left и right join. Второй — вопросы по архитектуре баз данных, например что такое реляционная база данных и в чём особенности PostgreSQL.

Математика

Ключевые концепции репрезентации данных, основы теории вероятностей, распределение вероятности дискретных случайных величин, биномиальное распределение и распределение Пуассона, нормальное распределение, выборочный метод, методы оценки параметров генеральной совокупности, построения доверительных интервалов и проверки гипотез, линейная алгебра, алгоритмы и численные методы.

Отдельно теорию вероятностей спрашивают редко. Но смотрят, как вы её понимаете, основываясь на ваших рассуждениях в задачах по статистике. В Яндексе на интервью в некоторые проекты могут предложить решить задачи из области высшей математики без привязки к данным, вспоминая на ходу формулы.

Анализ данных и понимание бизнеса

Предобработка данных, работа с несовершенными реальными наборами данных, работа с основными методами поиска дубликатов, исследовательский анализ данных (EDA), статистический анализ данных, анализ бизнес-показателей, умение соотносить знание о бизнес-процессах с принятием решений.

Чтобы понять, насколько вы ориентируетесь в бизнес-показателях, могут предложить абстрактные кейсы: «Есть соцсеть, придумайте для неё ключевую метрику». Или более конкретные: «Придумайте для сервиса такси модель, которая будет оценивать уровень усталости водителя». И тогда работодатель посмотрит, какие показатели и метрики вы будете использовать. Отдельно могут обратить внимание на интерпретацию результатов: как вы объясняете цифры, что они означают и какую пользу можно из них извлечь.

Машинное обучение

Умение решать задачи классификации и регрессии для данных разного характера, знание нескольких моделей машинного обучения, умение их применять и настраивать их основные гиперпараметры, знание типичных проблем при обучении моделей, умение их решать простыми способами, знание основных метрик машинного обучения, способность объяснить, чем они отличаются и в каких ситуациях применимы, знание библиотек Python для машинного обучения (sklearn, CatBoost, LightGBM, XGBoost, Keras).

Если вы не претендуете на должность с этим профилем, то спросят про машинное обучение в общих чертах: что знаете, что слышали, что читали.

Логические задачи

Одна из самых странных и плохо предсказуемых вещей на интервью. Сами по себе эти вопросы не проверяют какие-то специальные навыки, а типовые задачи можно просто заучить вместе с ответами.

Но некоторые интервьюеры по-прежнему любят давать их на собеседовании, изменяя формулировки. Для большинства логических задач очень важно умение вычленить настоящие вопросы, которые в них поставлены. Задание часто даётся на слух и специально включает много отвлекающих деталей. По факту задача может решаться через булеву алгебру или простым уравнением. Вот несколько ссылок на разные задачи такого типа, с готовыми решениями и без:

Как подготовиться к поиску работы

Добавьте проекты на основе реальных данных. Открытые датасеты можно найти на Kaggle, OpenDataSoft и UCI Machine Learning Repository. В интернете есть подборки данных по конкретным категориям, вот несколько примеров:

Ещё один рабочий вариант ― хакатоны, олимпиады и онлайн-соревнования. Работодатели часто учитывают соревнования на Kaggle и предлагают места в команде первой десятке победителей. Например, у нас в Яндекс.Практикуме в программе трудоустройства есть команда, которая специально готовит студентов к этим соревнованиям.

Составьте несколько вариантов резюме. Их можно разделить по ключевым требованиям к кандидату или по сфере деятельности компании, которая опубликовала вакансию. Подчеркните в каждом резюме то, что нужно конкретно этой группе.

Не игнорируйте сопроводительное письмо. Представьте, что вам нужно подготовить описание в Тиндере, где у тысячи других людей такой же запрос, как и у вас. Свайпают вправо тех, кто больше всех подходит и кто больше всех нравится. Хороший текст поможет поймать мэтч с тем, с кем вы будете максимально совпадать по каким-то явным и не очень критериям.

В сопроводительном письме расскажите, чем вы можете быть полезны компании. Предоставьте решение её задачи в виде собственных услуг — получится аналог коммерческого предложения, в котором вы продаёте себя как специалиста.

Как найти работу, если вы…

… студент или не хотите уходить с основной работы

Попробуйте найти проекты с почасовой оплатой, например на биржах фриланса или рекрутинговых сайтах. Обратите внимание на стажировки с обучением и частичной занятостью. Информацию о стажировках в конкретных компаниях публикуют на сайте компании или в её социальных сетях. Вариант для смелых — писать напрямую HR-менеджерам и интересоваться открытыми вакансиями.

Другой вариант — найти проект в университете или на текущей работе. Данные сейчас есть везде, даже в политологии или социологии. В этих областях, например, много открытых задач по анализу текстов. В вузовских лабораториях всегда не хватает рук, поэтому инициативе с вашей стороны будут только рады.

… опытный специалист в другой сфере

Главное ваше преимущество перед вчерашними выпускниками — soft skills: умение снимать запрос, работать с сопротивлением, соблюдать дедлайны, отвечать за результат. В этом плане вы не классические джуны, которых ещё нужно научить работать, вы уже это умеете. В резюме поделитесь кейсами, которые были связаны с анализом данных: что-то считали в Excel, оптимизировали работу отдела на основе данных, проверяли гипотезы с помощью данных.

Ещё в некоторых компаниях есть программы ротации — переход с одной должности на другую или в другой отдел. Этот путь может быть проще, чем искать релевантную позицию в незнакомой компании.

… давний выпускник ИТ-вуза и слушатель бесплатных курсов

Заходите на актуальные соревнования и не ограничивайтесь только созданием проекта. Налаживайте контакты с работодателями, докажите им, что ваших знаний достаточно, чтобы выполнять задачи, которые перечислены в вакансии. В отсутствие сертификата или другого подтверждения, что вы умеете качественно выполнять эту работу, работодатель будет ориентироваться только на ваши достижения и заинтересованность, поэтому тут нужна проактивность.

Следите за новыми постами
Следите за новыми постами по любимым темам
9К открытий10К показов