Обложка: Какое направление Big Data выбрать и какие перспективы у новичков: объясняет эксперт

Какое направление Big Data выбрать и какие перспективы у новичков: объясняет эксперт

Сегодня мы будем беседовать с Артёмом Гогиным — экспертом из мира Big Data. Артём имеет большой опыт работы с большими данными, в том числе построения и развития хранилищ данных в таких компаниях, как «Сбербанк» и «Мегафон». Также он является преподавателем и автором нескольких курсов по технологиям больших данных на портале GeekBrains.

Мы поговорим о том, какие есть направления в Big Data, какие задачи решают различные специалисты и как выбрать наиболее подходящее направление.

Карьера в Big Data – нужны ли новички

– Стоит ли сейчас начинать карьеру в больших данных? Насколько это востребованное направление?

Сегодня Big Data занимается всё больше и больше компаний. Могу выделить две причины этого:

  1. Создать большой объём данных не составляет труда. Даже если у компании нет значительного количества клиентов или операций, всегда можно увеличить детализацию данных. Например, сохранять и анализировать каждое движение мышкой пользователей сайта.
  2. Аналитика больших данных приносит свои плоды, конкурировать почти на любом рынке без такого подхода становится всё труднее.

Раз большими данными занимаются все, нужны и специалисты, которые будут с ними работать. Задач, возможностей и платформ для разработки и применения проектов Big Data становится только больше. Значит и специалисты по работе с большими данными становятся всё более востребованными.

– Растущее число возможностей касается только опытных специалистов или  найдутся задачи и для новичков?

Есть множество задач, которые требуют серьёзной экспертизы и являются очень узконаправленными. Существуют проекты, на которых работают только опытные специалисты. Но для новичков работы тоже предостаточно, потому что большинство задач являются типовыми (но не менее трудоёмкими). Например, нужно найти правильный join двух таблиц, добавить несколько колонок в таблицу или поменять тип колонок в таблицах.

Такие задачи возникают довольно часто и не требуют большой экспертизы. Зато могут потребовать некоторое время на согласование изменений в продакшне и на приёмку работы. Некоторые же задачи требуют экспертизы только во время составления плана. Дальше их можно передать новичку, предоставив ему инструкцию и пояснив основные особенности используемой системы.

Какие есть направления Big Data и что делают разные специалисты

– Какого рода задачи решают специалисты больших данных?

Если говорить именно о Big Data, то все задачи можно разделить на 3 направления:

  • аналитика данных,
  • разработка приложений для обработки больших данных,
  • построение моделей машинного обучения на основе подготовленных данных.

Проекты обычно начинаются с внутреннего или внешнего заказчика – поступает запрос от бизнес-подразделения с более или менее оформленной потребностью. Например, необходимо уменьшить отток клиентов или подобрать самый подходящий тариф для каждого клиента, или вообще понять, как мы можем автоматически управлять лояльностью.

Как только запрос от бизнес-подразделения получен, начинается аналитика. Нужно ответить на следующие вопросы:

  • На основе каких данных должна решаться поставленная задача?
  • Как получить доступ к этим данным?
  • Консистентны ли эти данные?
  • Какой результат мы должны получить в итоге?
  • Имеется ли техническая возможность подобной реализации?
  • Предложенное решение точно удовлетворит потребности заказчика?

На все эти вопросы отвечает дата-аналитик. Основные его инструменты – почта, общение и ручные запросы к базам данных. Ручные запросы —  это те, которые не ставятся в продакшн на регулярный запуск. Работая в тесной связи с бизнес-подразделениями, дата-аналитик является связующим звеном между лицами, принимающими решения, и техническими исполнителями любой бизнес-идеи в Big Data.

– С аналитикой данных разобрались, следующее направление — разработка приложений для обработки больших данных. Кто этим занимается и какие задачи решает?

В паре с дата-аналитиком зачастую работает дата-инженер. Это второе направление Big Data. Дата-инженеров ещё называют разработчиками больших данных.

Часто их задача состоит в том, чтобы поставить некую бизнес-логику на продакшн-рельсы. Т.е. настроить трансформацию или интеграцию данных так, чтобы всё выполнялось регулярно, не создавая проблем и потерь данных. На этапе получения задачи дата-инженеры зачастую работают с дата-аналитиками. Дата-аналитики транслируют бизнес-логику разработчику, оформляя для него ТЗ и вводя разработчика в бизнес-контекст создаваемой функциональности

В целом набор задач дата-инженера можно определить так: написать приложение или скрипт, который будет работать как часы без участия человека на протяжении долгого времени. Такие приложения могут выполнять следующие функции:

  • загружать и архивировать данные для хранения и последующего анализа;
  • выполнять расчёт отчётности;
  • трансформировать данные технических логов в наглядную, структурированную статистику;
  • группировать и фильтровать данные, оптимизируя их для чтения.

Основной упор в работе дата-инженеров приходится на технические особенности баз данных, оптимизацию используемых фреймворков и архитектуру потоков данных.

Использование машинного обучения и роль дата-сайентистов

– Собираем команду: дата-аналитик и дата инженер. Один разбирается, что нужно сделать, другой знает, как это сделать. Кто занимается третьим направлением — построением моделей машинного обучения на основе подготовленных данных?

Третья группа специалистов – дата-сайентисты, которые занимаются углубленным изучением данных и применяют в работе машинное обучение. Они также могут работать в команде с дата-аналитиком, а могут быть самостоятельными единицами и брать на себя обязанности по взаимодействию с бизнес-подразделением.

Также дата-сайентисты могут работать в команде с дата-инженерами. Например, получать от них подготовленные для анализа данные или передавать им алгоритмы исследования данных для оптимизации кода с целью постановки расчёта модели машинного обучения на регулярное расписание.

Дата-сайентисты фокусируются на детальном изучении данных с точки зрения статистики и корреляций. Такие подходы помогают управлять бизнес-процессами, где возможно найти зависимость в данных. Классические задачи дата-сайентистов —  предсказание целевого показателя (прибыль, поведение, конверсия, выбранный тариф и т.д.), кластеризация (группировка данных в неизвестные категории) и классификация (разделение данных на заранее определённые группы).

– Роль дата-сайентистов для многих всё равно остается туманной. Как именно устроены проекты с применением машинного обучения?

Чтобы лучше понять работу дата-сайентиста, можно представить следующую картину. Мы работаем в банке и хотим выдавать кредиты только тем людям, которые эти кредиты нам вернут. Для этого нам нужно как-то предсказывать, вернёт клиент кредит или нет. Предсказать мы это должны ещё до того, как деньги выданы, имея в распоряжении ограниченную информацию о клиенте.

Чтобы сделать такое предсказание, нам необходимо иметь исторические данные по прошлым кредитам других клиентов, про которых мы знали то же, что знаем сейчас про будущего клиента. Например, его возраст, средний доход, количество детей и, предположим, список домашних животных.

Модель машинного обучения

Пример работы трёх направлений Big Data

Как только мы определились со списком известных признаков клиента, модель машинного обучения способна выявить зависимости между этими признаками и целевым показателем – вернул человек кредит или нет. В нашем вымышленном случае мы можем представить, что все наши прошлые клиенты, у которых был щенок в списке домашних животных, в итоге вернули кредит вовремя, а те клиенты, у которых не было щенка, всегда уклонялись от выплат и не выплачивали кредит.

В данном случае модель машинного обучения, обучившись на таких исторических данных, создаст для себя некое правило, по которому владельцы щенков будут самыми перспективными клиентами. Используя такую модель для прогнозирования возврата кредита, достаточно узнать у клиента его список домашних животных. Зная эту характеристику, модель сможет одобрить или отклонить заявку на кредит.

Именно так и рассматриваются заявки на кредиты во всех современных банках, разве что признаков используется намного больше. А результатом моделей является не просто одобрение или отказ на заявку, а уменьшение или увеличение суммы и процента кредита. Чем надёжнее клиент, тем лучше для него условия. Клиенты, имеющие признаки ненадёжных плательщиков, должны переплачивать банку за риски невозврата кредита. А надёжность или ненадёжность будущего клиента определяется в зависимости от того, насколько новый клиент похож на предыдущих надёжных или ненадёжных заемщиков.

– Итак, дата-аналитики, дата-инженеры и дата-сайентисты — 3 классических направления Big Data. Давайте напоследок кратко сформулируем особенности каждой из этих профессий.

Дата-аналитики транслируют бизнес-потребность и находят данные, которые можно использовать для реализации бизнес-идеи.

Дата-инженеры получают ТЗ от аналитиков и создают оптимизированные приложения по обработке данных.

Дата-сайентисты исследуют данные, применяя методы статистики и машинного обучения для нахождения информации, которую невозможно проанализировать человеком.


Как выучить Big Data — отвечают эксперты.