Что работодатели ждут от начинающих специалистов по Data Science
Разбираемся, какие скиллы нужно прокачивать и как выделиться среди других соискателей на позицию специалиста по Data Science.
9К открытий10К показов
Специалист по Data Science занимает третье место в рейтинге востребованных профессией от LinkedIn. Выше только специалист по искусственному интеллекту и инженер-робототехник. При этом Data Science — одна из немногих сфер в ИТ, где выше всего доля позиций для специалистов с опытом меньше года, по данным Яндекс.Практикума и Хедхантера.
C количеством вакансий растёт число кандидатов и интерес к профессии. Поэтому для успешного трудоустройства нужно прокачивать скиллы и понимать, как выделиться среди других соискателей. Анна Белова, менеджер по трудоустройству программ «Аналитик данных» и «Специалист по Data Science» в Яндекс.Практикуме, рассказывает, что работодатели ждут от начинающих специалистов по Data Science.
Анна Белова
менеджер по трудоустройству программ «Аналитик данных» и «Специалист по Data Science» в Яндекс.Практикуме
Какие задачи решает специалист по Data Science
Задачи могут отличаться от компании к компании. Если организация большая, возможна работа в нескольких направлениях. Например, в банке специалист по Data Science может решать задачу кредитной оценки и заниматься алгоритмами распознавания речи. В стартапе работа, наоборот, может быть сконцентрирована только на одном узком направлении, например создании системы компьютерного зрения для распознавания символов на изображении.
Какие ещё задачи может решить специалист по Data Science
- написать программу, которая собирает полезную для машинного обучения информацию из нового источника;
- настроить обработку данных, чтобы улучшить работу машинного обучения;
- сделать прототип продукта на основе машинного обучения;
- определить районы и точки для установки постаматов интернет-магазина, основываясь на адресах покупателей и загруженности существующей сети;
- создать систему для прогнозирования платёжеспособности клиентов банка;
- определить контент «18+» на фотографиях, чтобы исключить их из выдачи;
- построить рекомендательную систему фильмов и сериалов для стримингового сервиса.
Какие нужны опыт и образование
У работодателей разные требования к позиции специалиста по Data Science. Начинающему специалисту может показаться, что он не подходит ни под одно описание и найти работу ему будет очень трудно. Но это не так.
Какие технические навыки ждут работодатели от начинающих датасаентистов
- базовое знание математической статистики, алгоритмов машинного обучения (линейная регрессия и классификация, решающие деревья и их композиции, градиентный бустинг);
- навыки подготовки данных к анализу;
- способность выбрать подходящий алгоритм под задачу и создать модель на его основе;
- умение защитить эффективность модели;
- способность успешно внедрить модель в процесс или продукт.
Кроме технических навыков от начинающего специалиста будут ждать базовых soft skills, которые нужны практически на любой должности в сфере ИТ.
Какие soft skills ждут работодатели от начинающих датасаентистов
- умение работать в команде: выстраивать коммуникацию с коллегами, предупреждать о возможных задержках и форс-мажорах, отвечать за результат;
- самостоятельность: брать в работу задачи по техническому заданию, уметь декомпозировать их, самостоятельно находить ответы на вопросы, но знать, в какой момент лучше обратиться за советом к старшим коллегам;
- уместность в представлении результатов: понимать разницу в коммуникации между сотрудниками разных уровней и компетенций (прямые коллеги, сотрудники из других отделов, руководители) и уметь выстроить презентацию полученных результатов с поправкой на эту специфику;
- формулирование мыслей и своей позиции: уметь структурно изложить свои мысли, интерпретировать результаты своей работы, а не просто представить цифры;
- критическое мышление: проверить входящую информацию, поставить под вопрос получаемые данные и знать, как их перепроверить.
Диплом сильного вуза и тематические научные работы чаще нужны в ситуации, когда компания ищет эксперта для решения конкретного кейса или консультации на стратегические проекты. Например, когда ИТ-компания планирует развитие продукта и хочет оценить необходимые технологии и ресурсы, или не ИТ-компания хочет использовать машинное обучение, но никакие стандартные приёмы не сработали. Эти ситуации встречаются редко. На практике выбирают специалиста, который способен решать ежедневные задачи компании.
Чек-лист подготовки к техническому собеседованию
Как пройдёт техническое собеседование, полностью зависит от интервьюера. Где-то могут глубже спрашивать Python, при этом в работе он вам на такой глубине не понадобится. Где-то — про архитектуру баз данных, когда работать в основном придётся в Excel. В целом все вопросы можно разделить на несколько категорий.
Python
Основные конструкции и типы данных, библиотеки для анализа данных (Pandas, NumPy), библиотеки для анализа текстов (PyMystem3, nltk), библиотеки для визуализации данных (Seaborn, Matplotlib, Plotly), модули для извлечения данных из HTML-страниц (Requests и BeautifulSoup), умение работать с документацией.
Есть два типа задач по Python на интервью. Первый — абстрактная задача, бесконечно далёкая от реальных. Например, поиск подстроки в строке. Такие задачи проверяют базовые знания языка.
Если знания языка уже доказаны тестовым заданием, появляется второй тип — «как бы ты решил(а) такую-то аналитическую задачу». Тут проверяется умение оперировать различными библиотеками языка. Пример: ваш друг предположил, что все, чьи имена заканчиваются на «А», — умные люди. Оспорьте эту гипотезу с помощью данных.
SQL
Основные операции и функции, извлечение и добавление данных, объединение и присоединение таблиц.
Здесь тоже два типа задач. Их выбор зависит от глубины необходимого погружения в SQL и подходов собеседующих. Первый тип — написать простой запрос и, например, объяснить разницу между left и right join. Второй — вопросы по архитектуре баз данных, например что такое реляционная база данных и в чём особенности PostgreSQL.
Математика
Ключевые концепции репрезентации данных, основы теории вероятностей, распределение вероятности дискретных случайных величин, биномиальное распределение и распределение Пуассона, нормальное распределение, выборочный метод, методы оценки параметров генеральной совокупности, построения доверительных интервалов и проверки гипотез, линейная алгебра, алгоритмы и численные методы.
Отдельно теорию вероятностей спрашивают редко. Но смотрят, как вы её понимаете, основываясь на ваших рассуждениях в задачах по статистике. В Яндексе на интервью в некоторые проекты могут предложить решить задачи из области высшей математики без привязки к данным, вспоминая на ходу формулы.
Анализ данных и понимание бизнеса
Предобработка данных, работа с несовершенными реальными наборами данных, работа с основными методами поиска дубликатов, исследовательский анализ данных (EDA), статистический анализ данных, анализ бизнес-показателей, умение соотносить знание о бизнес-процессах с принятием решений.
Чтобы понять, насколько вы ориентируетесь в бизнес-показателях, могут предложить абстрактные кейсы: «Есть соцсеть, придумайте для неё ключевую метрику». Или более конкретные: «Придумайте для сервиса такси модель, которая будет оценивать уровень усталости водителя». И тогда работодатель посмотрит, какие показатели и метрики вы будете использовать. Отдельно могут обратить внимание на интерпретацию результатов: как вы объясняете цифры, что они означают и какую пользу можно из них извлечь.
Машинное обучение
Умение решать задачи классификации и регрессии для данных разного характера, знание нескольких моделей машинного обучения, умение их применять и настраивать их основные гиперпараметры, знание типичных проблем при обучении моделей, умение их решать простыми способами, знание основных метрик машинного обучения, способность объяснить, чем они отличаются и в каких ситуациях применимы, знание библиотек Python для машинного обучения (sklearn, CatBoost, LightGBM, XGBoost, Keras).
Если вы не претендуете на должность с этим профилем, то спросят про машинное обучение в общих чертах: что знаете, что слышали, что читали.
Логические задачи
Одна из самых странных и плохо предсказуемых вещей на интервью. Сами по себе эти вопросы не проверяют какие-то специальные навыки, а типовые задачи можно просто заучить вместе с ответами.
Но некоторые интервьюеры по-прежнему любят давать их на собеседовании, изменяя формулировки. Для большинства логических задач очень важно умение вычленить настоящие вопросы, которые в них поставлены. Задание часто даётся на слух и специально включает много отвлекающих деталей. По факту задача может решаться через булеву алгебру или простым уравнением. Вот несколько ссылок на разные задачи такого типа, с готовыми решениями и без:
- Дюжина логических задач с собеседований. Но в комментариях можно найти решения, посмотреть на рассуждения других и узнать, какие задачи из списка встречаются чаще остальных.
- Интересные логические задачки на собеседованиях. Автор делится четырьмя вопросами, которые зацепили его на собеседованиях. В комментариях можно найти решения и подробные объяснения.
Как подготовиться к поиску работы
Добавьте проекты на основе реальных данных. Открытые датасеты можно найти на Kaggle, OpenDataSoft и UCI Machine Learning Repository. В интернете есть подборки данных по конкретным категориям, вот несколько примеров:
- обработка естественного языка: обзоры Amazon и данные Wikipedia Links;
- финансы и экономика: открытые данные Всемирного банка и данные Международного валютного фонда;
- распознавание лиц: проект Labeled Faces In The Wild и набор данных UMDFaces.
Ещё один рабочий вариант ― хакатоны, олимпиады и онлайн-соревнования. Работодатели часто учитывают соревнования на Kaggle и предлагают места в команде первой десятке победителей. Например, у нас в Яндекс.Практикуме в программе трудоустройства есть команда, которая специально готовит студентов к этим соревнованиям.
Составьте несколько вариантов резюме. Их можно разделить по ключевым требованиям к кандидату или по сфере деятельности компании, которая опубликовала вакансию. Подчеркните в каждом резюме то, что нужно конкретно этой группе.
Не игнорируйте сопроводительное письмо. Представьте, что вам нужно подготовить описание в Тиндере, где у тысячи других людей такой же запрос, как и у вас. Свайпают вправо тех, кто больше всех подходит и кто больше всех нравится. Хороший текст поможет поймать мэтч с тем, с кем вы будете максимально совпадать по каким-то явным и не очень критериям.
В сопроводительном письме расскажите, чем вы можете быть полезны компании. Предоставьте решение её задачи в виде собственных услуг — получится аналог коммерческого предложения, в котором вы продаёте себя как специалиста.
Как найти работу, если вы…
… студент или не хотите уходить с основной работы
Попробуйте найти проекты с почасовой оплатой, например на биржах фриланса или рекрутинговых сайтах. Обратите внимание на стажировки с обучением и частичной занятостью. Информацию о стажировках в конкретных компаниях публикуют на сайте компании или в её социальных сетях. Вариант для смелых — писать напрямую HR-менеджерам и интересоваться открытыми вакансиями.
Другой вариант — найти проект в университете или на текущей работе. Данные сейчас есть везде, даже в политологии или социологии. В этих областях, например, много открытых задач по анализу текстов. В вузовских лабораториях всегда не хватает рук, поэтому инициативе с вашей стороны будут только рады.
… опытный специалист в другой сфере
Главное ваше преимущество перед вчерашними выпускниками — soft skills: умение снимать запрос, работать с сопротивлением, соблюдать дедлайны, отвечать за результат. В этом плане вы не классические джуны, которых ещё нужно научить работать, вы уже это умеете. В резюме поделитесь кейсами, которые были связаны с анализом данных: что-то считали в Excel, оптимизировали работу отдела на основе данных, проверяли гипотезы с помощью данных.
Ещё в некоторых компаниях есть программы ротации — переход с одной должности на другую или в другой отдел. Этот путь может быть проще, чем искать релевантную позицию в незнакомой компании.
… давний выпускник ИТ-вуза и слушатель бесплатных курсов
Заходите на актуальные соревнования и не ограничивайтесь только созданием проекта. Налаживайте контакты с работодателями, докажите им, что ваших знаний достаточно, чтобы выполнять задачи, которые перечислены в вакансии. В отсутствие сертификата или другого подтверждения, что вы умеете качественно выполнять эту работу, работодатель будет ориентироваться только на ваши достижения и заинтересованность, поэтому тут нужна проактивность.
9К открытий10К показов