Написать пост

Дорожная карта Data Science 2023: пошаговый гайд

Дорожная карта Data Science 2023, созданная практикующим специалистом. На диаграмме Исикавы 7 ветвей с инструментами учёного по данным.

Если вы только подступились к Data Science, дорожная карта – это способ сэкономить время. Так что представляю карту навыков Data Science глазами практикующего специалиста. На диаграмме Исикавы вы найдёте самые распространённые понятия и инструменты.

Вы наверняка слышали про разновидности дата-сайентистов:

  • дата-инженеры (Data Engineer – DE);
  • дата-аналитики (Data Analyst – DA);
  • дата-сайентисты (Data Scientist – DS)
Не все сферы, упомянутые на роадмапе, критически важны для всех подвидов DS, потому я подписала, каким из них тот или иной блок необходим.
Дорожная карта Data Science 2023: пошаговый гайд 1

Программирование

На дворе 2023 год, а значит, Науке о данных уже пошел уже седьмой (!) десяток, и способов решать задачи появляется с каждым годом все больше. Пока перед студентами-новичками выбор ЯП не ставят ребром: учим Python, заигрываем с R и слышим название Golang. Однако впоследствии, когда вы исчерпаете возможности первого языка, то непременно начнете копать в сторону двух остальных.

Курс “Python-разработчик” поможет вам оперативно освоиться с базовыми понятиями ЯП.

Сбор и хранение данных

Следующая стадия развития дата-сайентиста – работа с данными. Поскольку информация в сфере Data Science – кровь индустрии, то здесь вы встретите неимоверное количество инструментов. Среди них главенствующее положение по праву занимают SQL-подобные базы данных. В моей практике уже случилось так, что приходится обращаться сразу с двумя диалектами SQL: MySQL и BigQuery.

Статистика и математика

Вы уже наверняка слышали про дебаты “Нужна ли математика программисту”. Для дата-сайентиста ответ однозначный: нужна, как и статистика. Надеюсь, облегчение вам принесет тот факт, что обе эти науки можно свести к глоссарию на 50 самых важных терминов, вроде среднего арифметического и выбросов. Текущая образовательная неуниверситетская индустрия в Data Science устроена таким образом, что необходимый минимум по математике вроде обращения с матрицами, интегралов и теоремы Байеса вам преподнесут как нечто необязательное и сложное. Словно можно несколько раз просмотреть, но не “страдать” вопросом глубже. На тех технических собеседованиях, что мне доводилось побывать, даже интервьюерам не особо хотелось залезать в дебри высшей математики, больше спрашивают о владении конкретным ПО.

Дата-инжиниринг

Излюбленная мною часть Data Science, прекрасная смесь программирования и общения с хранилищами данных. Представьте кейс: вы собираете данные о пользовательском поведении на Kafka, храните данные в SQL-подобной базе данных вроде ClickHouse, налаживаете ETL-процессы (extract, transform, load – “извлечь, преобразовать, загрузить”) с помощью Airflow. Airflow для воспроизводимости вы держите в контейнере Docker, которым управляете с помощью командной строки. Отчеты собираете в Google Looker.

Вся сфера – это как раз тот случай, когда вы избегаете недостатков науки о данных вроде необходимости знать тервер, необходимости расчищать данные, но при этом ваши навыки очень востребованы и прекрасно оплачиваются.

Машинное обучение

Для многих российских IT-компаний этой стадии достичь непросто, ибо ее предваряет уж очень затратная стадия обработки, да и кадров не хватает. Ну раз уж нам довелось попасть в “созревшую” для DS организацию, то наши усилия условно можно разделить на четыре вида. Для каждой такой группы задач приведу по конкретному примеру для наглядности:

  • Обработка естественного языка: классификация разнородного массива обращений пользователей на входящей линии
  • Компьютерное зрение: обработка событий камер видеонаблюдения
  • Рекомендательные системы: выделение похожих на покупателей клиентов с целью “дожать” их средствами маркетинга
  • Риск-аналитика: определение кредитного рейтинга

Бизнес-аналитика

Как вы, наверное, заметили, в диаграмме Исикавы важна последовательность. Не случайно раздел “Бизнес-аналитики” появляется ПОСЛЕ “Машинного обучения”. На мой взгляд, глубоко осваивать инструменты визуализации данных, дашбординга стоит только после того, как вы получили доступ к реальным данным. Ну разве что краткий курс по устройству Tableau пройти до выхода на позицию.

Глубокое обучение

Нередко эту часть авторы роадмапов выносят в отдельное место, ибо сфера молодая, но особо требовательная. В первые несколько лет этот раздел вызывал у меня стабильный стресс: понять, что хочет объяснить автор очередного туториала по PyTorch, было весьма затруднительно. Однако за последние пару лет ситуация резко изменилась: теперь большинство студентов знают, что такое ChatGPT, а это мощная реклама Deep Learning. Реальность приведет вас к таким проектам лишь тогда, когда вы почувствуете свободу с классическим ML. А пока – заигрывайте, щупайте на здоровье модные фреймворки.

Заключение

Хотелось бы верить, что изучив мою дорожну карту Data Science 2023, вы сократите время освоения новой профессии. Поначалу довольно непросто выбрать, каким именно дата-сайентистом вы хотите стать. В моем случае любовь к иностранным и родному языкам стали предпосылкой к углублению в NLP: в какой-то момент я просто осознала, что принесу обществу больше пользы, если буду использовать свои природные способности к лингвистике. Надеюсь, у вас поскорее теперь наступит такой поворотный момент.

Самое клевое в роадмапах для программистов: необязательно осваивать все перечисленное, чтобы продвинуться от Junior-специалиста к Middle и выше. Спрос на DS достаточно высок, чтобы ценили даже хорошо освоенную часть карты навыков.

Следите за новыми постами
Следите за новыми постами по любимым темам
27К открытий31К показов