Big Data: как устроены большие данные и где они сейчас применяются
Компании стали понимать ценность Big Data и начали вкладываться в специалистов по Data Science. Знакомим вас с темой Big Data и рассказываем, где и как сейчас используются большие данные.
16К открытий17К показов
С недавнего времени компании стали понимать ценность Big Data и начали вкладываться в специалистов по Data Science. В статье мы познакомим вас с темой Big Data, расскажем, где и как сейчас используются большие данные.
Что такое Big Data? Обычная база данных, только… больше?
Big Data — это термин, которым описывают наборы данных большого объёма, быстро растущие с течением времени, а также инструменты для работы с ними. Это способ собрать и обработать много информации, чтобы решить сложные прикладные задачи.
Как данные генерируются?
Большие данные берутся из самых разных источников. В качестве очевидного примера можно привести социальные и рекламные сети. Если вы не компания-гигант, которая предоставляет услуги миллионам людей, не отчаивайтесь — вы всё равно можете работать с большими данными. Их сбором можно заняться, например, с помощью веб-скрапинга. Также многие сервисы предоставляют API для доступа к своим данным. Скорее всего, вам не дадут 100% имеющихся и поступающих данных, но это тоже неплохой вариант.
Пример — Streaming API ВКонтакте, который даёт доступ к новому содержимому с указанными ключевыми словами. По умолчанию доступен лишь 1% от всех данных, но можно попробовать запросить все 100%.
Как данные хранятся и обрабатываются?
Объемы данных растут быстрыми темпами, и для того чтобы их обработать, используются распределённые хранилища и программы. С увеличением количества данных можно просто добавлять новые узлы, а не переписывать текущее решение заново. Ниже в статье будет информация об инструментах, которые используются для работы с Big Data.
Важен вопрос о безопасном хранении данных. Из-за активного развития больших данных и отсутствия устоявшихся методологий по их защите, каждая компания должна сама решить, как подойти к решению этого вопроса.
Разумным шагом будет удалить из кластера конфиденциальные данные вроде паролей и данных банковских карт, это упростит настройку доступа к нему. Далее можно применять различные административные, физические и технические меры обеспечения защиты, требования к которым можно найти в разных сборниках стандартов вроде ISO 27001. Например, можно ограничить сотрудникам доступ к данным до уровня, которого достаточно для выполнения их рабочих задач. Не будет лишним вести логи взаимодействия сотрудника с данными и исключить возможность копирования данных из хранилища. Также можно использовать анонимизацию данных.
Геотаргетинг
Различные сервисы предоставляют свои услуги пользователям в обмен на данные о их местоположении. Зная, где бывают пользователи, можно предлагать им более релевантный контент. Представим, например, что у вас установлено приложение банка. Банк знает, в каких заведениях вы чаще всего бываете и может предложить приобрести карту с кэшбеком в соответствующих заведениях.
Пример использования геотаргетинга для решения социальных проблем — платформа «МегаФон.Поиск», с помощью которой проще искать пропавших людей. Поиск свидетелей, которые с большой вероятностью видели пропавшего, начинается по запросу правоохранительных органов и происходит по заданному радиусу с учетом социальных характеристик. После этого абонентам рассылаются SMS-сообщения с детальной информацией. Рассылка может быть отправлена абонентам всех операторов, а результаты могут передаваться поисково-спасательным отрядам. Благодаря этому время сбора данных сокращается с нескольких дней до нескольких минут.
Погода и климат
Данные со спутников, запускаемых по всему миру, можно использовать в том числе для прогноза погоды, изучения глобального потепления и характера стихийных бедствий. Пример в этой области — IBM Deep Thunder, исследовательский проект IBM, целью которого является улучшение краткосрочных прогнозов с помощью Big Data и высокопроизводительных вычислений.
Медицина
Основываясь на историях болезней пациентов, можно более точно поставить диагноз и как можно раньше назначить нужное лечение или профилактику, в том числе для серьёзных генетических заболеваний. Например, на основе данных ЭЭГ современные нейротехнологии позволяют диагностировать болезнь Паркинсона. Также большие данные можно использовать для предсказания и предотвращения эпидемий.
Виртуальные помощники
Можно использовать данные, собранные от всех пользователей, чтобы давать более логичные и ожидаемые ответы. А также благодаря сравнению паттернов поведения и использованию информации из других сервисов обеспечивать более персонализированное общение с каждым пользователем.
Приведём в пример проект «Елена» — виртуальный ассистент МегаФона, использующий технологию синтеза и распознавания речи Яндекса SpeechKit. Это AI-система, которая консультирует пользователей по вопросам, связанным с информацией о счёте, услугах и тарифах компании. «Елена» интегрирована во все системы МегаФона и при обработке запроса использует персонализированные данные клиента. Она знает тариф абонента, список подключённых услуг, местонахождение (в роуминге или в домашнем регионе) и другие параметры, поэтому может, например, посоветовать взять «Обещанный платёж», если баланс приближается к порогу отключения. Согласно опросу клиентов компании, около 72% пользователей нашли ответы на свои вопросы с помощью искусственного интеллекта.
Банковская система
Много данных генерируют и банковские системы. Их можно использовать, например, для выявления кражи и неправомерного использования банковской карточки с её последующей блокировкой до выяснения обстоятельств. Или, допустим, подаёт человек заявку на кредит. Система проверяет его кредитную историю и прочие данные, сравнивает с другими клиентами и подсказывает, с какой вероятностью человек вернёт этот кредит и стоит ли вообще его предоставлять.
Транспорт
Все данные о водителях, их транспортных средствах, местоположении анализируются и используются для того, чтобы предсказать спрос, предложение, местоположение водителей и тарифы для каждой поездки.
Сфера развлечений
В зависимости от вашего поведения в сети и контента, который вы просматривали в прошлом, вам будут показывать соответствующие рекомендации, что активно используется сервисами вроде Netflix для повышения вовлечённости пользователя. Само собой, использование Big Data для персонализированных рекомендаций не ограничивается сферой развлечений и используется в том числе в интернет-магазинах, поисковых системах и не только.
С какими технологиями ассоциируется Big Data?
Технологии, применяемые при работе с большими данными, можно условно разбить на три большие группы: для анализа данных (A/B-тестирование, проверка гипотез, машинное обучение), для сбора и хранения данных («облака», базы данных) и для представления результатов (таблицы, графики и так далее). Вот примеры некоторых из них.
Анализ данных
- Apache Spark. Фреймворк с открытым исходным кодом для реализации распределённой обработки данных, входящий в экосистему Hadoop.
- Elasticsearch. Популярный открытый поисковый движок, часто используемый при работе с большими данными.
- Scikit-learn. Бесплатная библиотека машинного обучения для языка программирования Python.
Сбор и хранение
- Apache Hadoop. Фреймворк, который нельзя не упомянуть при разговоре о Big Data. Он позволяет обеспечивать работу распределённых программ на кластерах из сотен и тысяч узлов.
- Apache Ranger. Фреймворк для обеспечения безопасности данных в Hadoop.
- NoSQL базы данных. HBase, Apache Cassandra и другие базы данных, рассчитанные на создание высокомасштабируемых и надёжных хранилищ огромных массивов данных.
- Озёра данных (data lakes). Неструктурированные хранилища для большого количества «сырых» данных, не подвергающихся каким-либо изменениям перед сохранением.
- In-memory базы данных. Например, в Redis данные хранятся в оперативной памяти.
Визуализация
- Google Chart. Многофункциональный набор инструментов для визуализации данных.
- Tableau. Система интерактивной аналитики, позволяющая быстро провести анализ больших массивов информации.
Кто работает с Big Data?
С большими данными работают преимущественно два типа сотрудников:
- Инженер (Data Engineer) — строит системы по сбору и обработке данных, а также превращает собранную аналитику в готовый сервис или продукт.
- Аналитик (Data Scientist) — анализирует и ищет закономерности в данных.
Специалисты по Big Data в России получают от 70 000 до 300 000 рублей, согласно исследованию Inc.Russia.
16К открытий17К показов