Аналитик Big Data — чем занимается, и что нужно знать, чтобы им стать?
Совместно с GeekBrains рассказываем, что нужно знать, чтобы стать аналитиком Big Data — даже если у вас нету опыта работы.
10К открытий10К показов
Аналитик Big Data нужен, чтобы собирать, хранить и извлекать из огромного количества данных полезную информацию, которую различные компании могут использовать в своих целях.
Факультет Аналитики Big Data онлайн-университета GeekBrains помог нам разобраться, что нужно знать, чтобы стать аналитиком больших данных.
Работа с базами данных — язык запросов SQL
Самый первый и главный навык аналитика больших данных — это умение этими данными оперировать. SQL — язык, который позволяет создавать и менять базы данных, а также выбирать из них нужную информацию, сортировать и фильтровать её. Для аналитика это то же самое, что для математика умение складывать и вычитать числа.
Освоение баз данных можно разбить на такие темы:
- синтаксис SQL;
- CRUD-операции;
- представления, сортировка, фильтрация и объединение данных;
- хранимые процедуры и функции, транзакции, триггеры;
- оптимизация запросов.
Сбор данных и программирование
После того, как вы научились работать с базами данных, нужно понять, как эти данные собирать. Бродить по сайтам, вручную искать и копировать информацию — не вариант. Мы говорим о данных, которые исчисляются терабайтами (не просто же так эти данные называются большими) и обновляются в сети с огромной скоростью. Руками это всё перебрать будет тяжело, не так ли? Для этого нужно уметь работать с API, или даже самому писать парсеры для веб-скрейпинга.
Ещё нужно учесть, что большие данные — это видео, картинки, текст, геоданные и много прочего, собранного в одну неструктурированную солянку. То есть такой датасет очень разнообразен, из-за чего применить универсальное, уже существующее решение для его обработки может быть сложно. Поэтому часто приходится создавать своё, учитывая при этом все особенности конкретной ситуации.
Самые распространённые языки программирования для обработки и визуализации данных — это Python (с библиотеками NumPy, pandas, matplotlib и др.) и R. Но знание дополнительных языков, таких как Java, MATLAB и других, всегда будет в плюс. Так вы будете знать преимущества и недостатки каждого из них и в разных ситуациях сможете подобрать наиболее подходящий.
Для изучения Python и Java мы уже создали дорожные карты, которые помогут изучить эти языки программирования с нуля.
Организация хранения и работы с данными
Большие данные хранить на одном компьютере невозможно. Количество информации так велико, что приходится создавать целые распределённые системы.
Экосистема Hadoop — одна из них, и считается основой для аналитика Big Data. Это набор разных утилит и библиотек для хранения и обработки данных, которые распределены по сотням узлов. Большая часть из этих инструментов написана на Java или Scala, но поддерживаются API на Python.
Экосистема состоит из четырёх модулей:
- набор утилит и библиотек Hadoop Common;
- распределённая файловая система HDFS;
- система управления кластером YARN;
- Hadoop MapReduce.
Математика и анализ данных
Если обработка данных требует от специалиста Big Data хорошей технической подготовки, то для анализа потребуются знания из теории вероятностей (случайные события, дискретные и непрерывные случайные величины, законы распределения и т.д.), а также математической статистики (описательная статистика, проверка гипотез, корреляция величин).
Всё это нужно, чтобы из датасета выделить какие-то полезные данные. А для этого, в свою очередь, понадобится хорошее понимание алгоритмов анализа данных:
- линейной регрессии и градиентного спуска;
- масштабирования признаков;
- логистической регрессии;
- построения дерева решений и случайного леса;
- градиентного бустинга (алгоритм AdaBoost);
- классификации и кластеризации.
Большие данные и машинное обучение идут тандемом — линейная алгебра используется для создания статистической модели и прогнозирования. На основе этого строятся рекомендательные системы. Например такие, как у Netflix или Spotify. Всё вышесказанное подводит нас к следующему пункту.
Аналитику Big Data нужно понимать потребности бизнеса
Быть на «ты» с технологиями безусловно важно, но бизнесу всё равно, как вы будете собирать и обрабатывать данные. Ему нужны инсайты, с помощью которых компании выйдут на новые рынки и определят предпочтения клиентов.
Первый шаг в этом направлении — научиться сознательно спрашивать себя: «Какая информация может помочь клиенту и как он может её применить»? А вот чтобы ответить на эти вопросы, понадобится вникнуть в основы бизнес-аналитики:
- BI-системы;
- OLAP-кубы;
- витрины данных;
- управление данными и прогнозирование;
- умение составлять и интерпретировать отчёты.
Стать аналитиком Big Data — сложная задача, особенно, если у вас нет предыдущего опыта разработки или работы со статистикой. Но сложно — не значит невозможно. Упорство, труд и терпение обязательно приведут вас к этой профессии. Старайтесь посещать конференции, общаться и обмениваться опытом.
Также существует курс с обширной программой от Факультета Аналитики Big Data онлайн-университета GeekBrains, где люди без опыта становятся настоящими аналитиками. У вас тоже получится!
10К открытий10К показов