Big Data: как устроены большие данные и где они сейчас применяются

Партнёрский материал. Что это?
Обложка поста

С недавнего времени компании стали понимать ценность Big Data и начали вкладываться в специалистов по Data Science. В статье мы познакомим вас с темой Big Data, расскажем, где и как сейчас используются большие данные.

1

Что такое Big Data? Обычная база данных, только… больше?

Big Data — это термин, которым описывают наборы данных большого объёма, быстро растущие с течением времени, а также инструменты для работы с ними. Это способ собрать и обработать много информации, чтобы решить сложные прикладные задачи.

2

Как данные генерируются?

Большие данные берутся из самых разных источников. В качестве очевидного примера можно привести социальные и рекламные сети. Если вы не компания-гигант, которая предоставляет услуги миллионам людей, не отчаивайтесь — вы всё равно можете работать  с большими данными. Их сбором можно заняться, например, с помощью веб-скрапинга. Также многие сервисы предоставляют API для доступа к своим данным. Скорее всего, вам не дадут 100% имеющихся и поступающих данных, но это тоже неплохой вариант.

Пример — Streaming API ВКонтакте, который даёт доступ к новому содержимому с указанными ключевыми словами. По умолчанию доступен лишь 1% от всех данных, но можно попробовать запросить все 100%.

3

Как данные хранятся и обрабатываются?

Объемы данных растут быстрыми темпами, и для того чтобы их обработать, используются распределённые хранилища и программы. С увеличением количества данных можно просто добавлять новые узлы, а не переписывать текущее решение заново. Ниже в статье будет информация об инструментах, которые используются для работы с Big Data.

Важен вопрос о безопасном хранении данных. Из-за активного развития больших данных и отсутствия устоявшихся методологий по их защите, каждая компания должна сама решить, как подойти к решению этого вопроса.

Разумным шагом будет удалить из кластера конфиденциальные данные вроде паролей и данных банковских карт, это упростит настройку доступа к нему. Далее можно применять различные административные, физические и технические меры обеспечения защиты, требования к которым можно найти в разных сборниках стандартов вроде ISO 27001. Например, можно ограничить сотрудникам доступ к данным до уровня, которого достаточно для выполнения их рабочих задач. Не будет лишним вести логи взаимодействия сотрудника с данными и исключить возможность копирования данных из хранилища. Также можно использовать анонимизацию данных.

4

Геотаргетинг

Различные сервисы предоставляют свои услуги пользователям в обмен на данные о их местоположении. Зная, где бывают пользователи, можно предлагать им более релевантный контент. Представим, например, что у вас установлено приложение банка. Банк знает, в каких заведениях вы чаще всего бываете и может предложить приобрести карту с кэшбеком в соответствующих заведениях.

Пример использования геотаргетинга для решения социальных проблем — платформа «МегаФон.Поиск», с помощью которой проще искать пропавших людей. Поиск свидетелей, которые с большой вероятностью видели пропавшего, начинается по запросу правоохранительных органов и происходит по заданному радиусу с учетом социальных характеристик. После этого абонентам рассылаются SMS-сообщения с детальной информацией. Рассылка может быть отправлена абонентам всех операторов, а результаты могут передаваться поисково-спасательным отрядам. Благодаря этому время сбора данных сокращается с нескольких дней до нескольких минут.

5

Погода и климат

Данные со спутников, запускаемых по всему миру, можно использовать в том числе для прогноза погоды, изучения глобального потепления и характера стихийных бедствий. Пример в этой области — IBM Deep Thunder, исследовательский проект IBM, целью которого является улучшение краткосрочных прогнозов с помощью Big Data и высокопроизводительных вычислений.

6

Медицина

Основываясь на историях болезней пациентов, можно более точно поставить диагноз и как можно раньше назначить нужное лечение или профилактику, в том числе для серьёзных генетических заболеваний. Например, на основе данных ЭЭГ современные нейротехнологии позволяют диагностировать болезнь Паркинсона. Также большие данные можно использовать для предсказания и предотвращения эпидемий.

7

Виртуальные помощники

Можно использовать данные, собранные от всех пользователей, чтобы давать более логичные и ожидаемые ответы. А также благодаря сравнению паттернов поведения и использованию информации из других сервисов обеспечивать более персонализированное общение с каждым пользователем.

Приведём в пример проект «Елена» — виртуальный ассистент МегаФона, использующий технологию синтеза и распознавания речи Яндекса SpeechKit. Это AI-система, которая консультирует пользователей по вопросам, связанным с информацией о счёте, услугах и тарифах компании. «Елена» интегрирована во все системы МегаФона и при обработке запроса использует персонализированные данные клиента. Она знает тариф абонента, список подключённых услуг, местонахождение (в роуминге или в домашнем регионе) и другие параметры, поэтому может, например, посоветовать взять «Обещанный платёж», если баланс приближается к порогу отключения. Согласно опросу клиентов компании, около 72% пользователей нашли ответы на свои вопросы с помощью искусственного интеллекта.

8

Банковская система

Много данных генерируют и банковские системы. Их можно использовать, например, для выявления кражи и неправомерного использования банковской карточки с её последующей блокировкой до выяснения обстоятельств. Или, допустим, подаёт человек заявку на кредит. Система проверяет его кредитную историю и прочие данные, сравнивает с другими клиентами и подсказывает, с какой вероятностью человек вернёт этот кредит и стоит ли вообще его предоставлять.

9

Транспорт

Все данные о водителях, их транспортных средствах, местоположении анализируются и используются для того, чтобы предсказать спрос, предложение, местоположение водителей и тарифы для каждой поездки.

10

Сфера развлечений

В зависимости от вашего поведения в сети и контента, который вы просматривали в прошлом, вам будут показывать соответствующие рекомендации, что активно используется сервисами вроде Netflix для повышения вовлечённости пользователя. Само собой, использование Big Data для персонализированных рекомендаций не ограничивается сферой развлечений и используется в том числе в интернет-магазинах, поисковых системах и не только.

11

С какими технологиями ассоциируется Big Data?

Технологии, применяемые при работе с большими данными, можно условно разбить на три большие группы: для анализа данных (A/B-тестирование, проверка гипотез, машинное обучение), для сбора и хранения данных («облака», базы данных) и для представления результатов (таблицы, графики и так далее). Вот примеры некоторых из них.

Анализ данных

  • Apache Spark. Фреймворк с открытым исходным кодом для реализации распределённой обработки данных, входящий в экосистему Hadoop.
  • Elasticsearch. Популярный открытый поисковый движок, часто используемый при работе с большими данными.
  • Scikit-learn. Бесплатная библиотека машинного обучения для языка программирования Python.

Сбор и хранение

  • Apache Hadoop. Фреймворк, который нельзя не упомянуть при разговоре о Big Data. Он позволяет обеспечивать работу распределённых программ на кластерах из сотен и тысяч узлов.
  • Apache Ranger. Фреймворк для обеспечения безопасности данных в Hadoop.
  • NoSQL базы данных. HBase, Apache Cassandra и другие базы данных, рассчитанные на создание высокомасштабируемых и надёжных хранилищ огромных массивов данных.
  • Озёра данных (data lakes). Неструктурированные хранилища для большого количества «сырых» данных, не подвергающихся каким-либо изменениям перед сохранением.
  • In-memory базы данных. Например, в Redis данные хранятся в оперативной памяти.

Визуализация

  • Google Chart. Многофункциональный набор инструментов для визуализации данных.
  • Tableau. Система интерактивной аналитики, позволяющая быстро провести анализ больших массивов информации.
12

Кто работает с Big Data?

С большими данными работают преимущественно два типа сотрудников:

  • Инженер (Data Engineer) — строит системы по сбору и обработке данных, а также превращает собранную аналитику в готовый сервис или продукт.
  • Аналитик (Data Scientist) — анализирует и ищет закономерности в данных.

Специалисты по Big Data в России получают от 70 000 до 300 000 рублей, согласно исследованию Inc.Russia.

МегаФон постоянно ищет сотрудников по этому направлению. Предлагают корпоративное обучение, ДМС для семьи, фитнес и оплату мобильной связи. Узнать больше про работу в МегаФоне и посмотреть актуальные вакансии.