Big Data для новичков

Один из экспертов tproger подготовил колонку о Big Data для новичков. Эти слова в последнее время очень модные, но далеко не все понимают, что это такое на самом деле. Попробуем разобраться на простых примерах.

Иван Бибилов

Иван Бибилов, руководитель направления программирования в GoTo

Большие данные — один из самых популярных технических базвордов1 последних лет.

Начнем издалека. В современном мире нас окружают информационные системы – комплексы программ, которые передают и обрабатывают данные, как автоматически, там и при помощи людей, которые работают с ними.

Покупаете ли вы что-либо в сети продуктовых магазинов, летите самолетом, задаете вопросы поисковику, смотрите оценки своих детей на портале электронных дневников – все это ваши взаимодействия с информационными системами. Вы успеваете “наследить” своими данными в нескольких из них только за 1 день.

Представьте, сколько информации проходить через виртуальный мир ежесекундно. Там одних только твитов десятки тысяч в секунду. А еще есть медицина, экономика, транспорт, наука, военные, etc.

Все время говорят о том, что скоро появится интернет вещей — когда устройства массово могут обмениваться данными через интернет для принятия решений или обработки информации (все мы ждем холодильников, заказывающих продукты).

Короче говоря, если бы мы смогли видеть поток данных визуально, например, на улице, то у нас небо светило столь ярко, как будто нам всем сейчас лечат зубы.

Так вот. Оказывается, что мы живем в такое время, когда наши вычислительные мощности позволяют нам анализировать весь поток информации, проходящий через эти системы, а главное, мы можем ничего не удалять и хранить почти вечно.

Собственно, огромное количество всей этой информации, а также возможность ее обрабатывать интеллектуальными алгоритмами и породило термин “Большие данные” (сам термин еще не устоялся, потому что еще слишком молод, а также содержит в себе налет маркетологии. Например, в точном определении расходятся русскоязычный и англоязычный разделы Википедии).

То есть данные не проходят через информационные системы пассивным потоком и не пылятся на серверах. И ни в коем случае не удаляются. Они анализируются. Зачем? Чтобы повышать эффективность управления, обеспечивать рост продаж, делать научные открытия.

Что пользуется наибольшим спросом перед праздниками? Какая цена заставит покупать больше товара? В чем причина понижения светимости у звезды? Не является ли эта 17-летняя девушка во ВКонтакте 35-летним мужчиной? Влияют ли циклы луны на биржевую активность? Да все что угодно.

Вся наша жизнь сейчас оцифровывается и становится доступной для изучения.

Количество данных, которые доступны для обработки, огромно (на самом деле “большие данные” могут быть “большими” не только из-за объема, а из-за полноты, например, когда это ВСЕ данные в этой сфере).

Компании, в недрах которых лежат эти данные, поистине богаты.

Обработка данных иногда может иметь интересные последствия. Например, после введения электронных дневников государство может централизованно понимать ситуацию с образованием, выявлять и отслеживать дальнейшую судьбу талантливых детей. На больших данных можно построить алгоритмы, которые будут отличать отличников для галочки – зубрил от действительно талантливых детей. То же самое можно делать и с педагогами. То есть открывается возможность повысить степень вовлеченности талантливой молодежи в нужды страны, если такой проект возникнет. И это только потому что появились электронные дневники…

Надеюсь, вы вдохновились тем, что большие данные несут в нашу жизнь что-то новое, может быть даже революционное. Посмотрим, что из этого получится. Будет ли наш мир дивным и новым.

Узнать больше о Big Data можно будет в рамках первого хакатона образовательного проекта GoTo, который пройдёт 20—22 февраля 2016 года. Участниками могут стать старшеклассники и студенты, которые на основе открытых данных получат возможность исследовать свое поколение. Помимо самого соревнования в рамках хакатона пройдет серия открытых лекций, которые могут посетить все желающие вне зависимости от возраста.

Регистрация для участников и слушателей уже открыта!

  1. Buzzword — «модное словечко» (прим. ред.).