Как работали с данными с древних времён: краткая история Data Science

Наука о данных стала популярна лишь в 2010-е, но история Data Science началась чуть ли не 40 000 лет назад. Рассказываем, с чего именно.

1К открытий6К показов

Систематизировать данные стали в XVII веке, понятие Data Science ввели 50 лет назад, а популярность к дата-сайентистам пришла лишь в 2010-е. Но знания из данных извлекали на протяжении всей человеческой истории — рассказываем, как именно.

Бирки из костей и приходские книги

Люди собирали данные на протяжении всей истории. Так, в горах Лебомбо в Свазиленде была найдена кость бабуина, на которой имеется 29 зарубок. Возраст этого артефакта около 40 000 лет. Одна из версий, что эти насечки были чем-то вроде счётчика лунных фаз: то есть, по сути, одним из первых календарей. Были найдены и другие подобные предметы с зарубками, которые могли служить для расчётов запасов еды.

Более осязаемые следы работы с данными тянутся с середины XVII века. В 1640-х годах лондонский галантерейщик Джон Граунт, которого после стали называть «Колумбом статистики», собрал и изучил приходские книги рождений и смертей за несколько десятилетий и опубликовал наблюдения.

Так Граунт пытался предупредить вспышки бубонной чумы — а в итоге положил начало современной эпидемиологии. Он стал первым человеком, применившим анализ сводных данных для решения конкретной проблемы — собрал статистику смертности разных слоёв населения. И выяснил, что вспышки чумы, вопреки популярному тогда мнению, не связаны с движением планет или коронацией королей. А ещё он доказал, что женщины в среднем живут дольше мужчин и что большинство смертей приходится на первые годы жизни.

Ещё один учёный, немецкий физик Генрих Вильгельм Брандес, пытался решить проблему неурожая в Европе, который привёл к массовому голоду. Он предположил, что погодные изменения и последующий неурожай можно было предсказать. Чтобы доказать свою теорию, учёный собрал данные с метеостанций и к 1816 году нарисовал первую в истории карту погоды.

Ткацкие станки и шифровальщики

К началу XIX века набрала разгон индустриальная революция — ручной труд не успевал за прогрессом. Требовалось автоматизировать производство, а для этого закодировать станки.

Первая попытка такого программирования пришлась на 1725 год. Лионский ткач Базиль Бушон запустил ткацкий станок, которым управлял не человек, а зацикленная дырчатая бумажная лента: последовательность отверстий задавала последовательность движений челнока.

После Бушона над этой технологией трудились и другие исследователи. Постепенно бумажную ленту заменили жестяные и картонные таблички — их назвали перфокартами.

Популярность к ним пришла в 1805 году. Тогда Наполеон посетил ткацкую мастерскую Жозефа Жаккара, увидел, как станок сам ткёт узорчатое шёлковое полотно, — и распорядился сделать патент на изобретение общественным. Уже к 1812 году с помощью перфокарт во Франции работали 18 000 ткацких станков. После перфокарты стали использовать и в других отраслях промышленности.

В 1884 году американский инженер Герман Холлерит получил патент на табулятор — машину, способную считывать перфокарты и производить вычисления. С помощью этой техники в США провели перепись населения 1890 года. И новаторов ждал успех: предварительные результаты подсчитали в течение шести недель после переписи, а весь объём информации обработали в течение двух лет. Данные с формуляров набивали на перфокарты с помощью перфораторов. В табуляционную машину вводилась колода заранее подготовленных перфокарт, и далее всё происходило без вмешательства человека: считывание информации с перфокарт и проведение необходимых вычислительных операций.

В 1896 году Герман Холлерит открыл свою фирму по производству табуляторов. Через столетие весь мир узнал её как International Business Machines Corporation или IBM.

Вскоре появилась прародительница дискет и жёстких дисков — магнитная лента. В 1928 году немецкий инженер Фриц Пфлеймер запатентовал это изобретение: с помощью магнитов он записал информацию на тонкую бумагу, покрытую порошком оксида железа. Именно с Пфлеймера началась эра хорошо знакомых нам плёночных кассет для записи звука и видео.

Они быстро вытеснили цилиндры и диски для фонографов, граммофонов и патефонов: магнитные ленты были дешевле, вместительнее и долговечнее. По некоторым показателям ленты превосходят и современные накопители — поэтому их до сих пор используют в таких крупных дата-хранилищах как у Google и Европейского Центра ядерных исследований (CERN).

Во время Второй мировой войны военные остро нуждались в шифровке и дешифровке информации: с одной стороны, необходимо было координировать свои действия, скрывая это от врага, с другой — перехватывать секретные данные. Это спровоцировало разработку кардинально новых методов и инструментов для защиты данных.

Однако возможности обработки данных всё ещё были ограничены. Многие организации продолжали полагаться на ручной учёт и бумажные архивы до конца XX века.

Наука о данных

Следующий принципиально новый уровень работы с данными начался с появления ЭВМ в 40-е. А в 1948 году американский инженер и математик Клод Шеннон — позже его назвали «отцом информационного века» — ввёл понятия информации и бита как единицы измерения. Вскоре бит стал такой же базовой величиной, как дюйм или фунт.

Одним из первых инновациями воспользовалось то же Бюро переписи населения США — в итоге с ЭВМ обработка данных о переписи 1950 года заняла несколько месяцев. Это был настоящий прорыв.

Через несколько лет появились глобальные организации по работе с данными. В 1960-м — Международная федерация по обработке информации (IFIP). Она дала определение данным, назвав их «формальным представлением фактов или идей, которые можно передавать и которыми можно управлять каким-либо способом». В 1966 году Международный совет по науке открыл Комитет по данным для науки и техники (CODATA). С тех пор он разрабатывает стандарты для работы с информацией.

В 70-е британский учёный Эдгар Кодд разработал реляционную модель — она стала классикой структурирования данных и популярна до сих пор. Благодаря этой модели можно быстро находить связи в массивах данных: выполнять поиск по множествам таблиц с помощью одного запроса.

А американский математик Джон Тьюки предсказал, как будет эволюционировать работа с данными благодаря компьютерам — в 1977 году он опубликовал работу «Исследовательский анализ данных» и предложил одноимённую концепцию. Позже она легла в основу изучения больших данных.

И, наконец, появился официальный термин Data Science. Датский инноватор Петер Наур в своей книге «Краткий обзор компьютерных методов» 1974 года определил, что наука о данных изучает жизненный цикл цифровой информации — от возникновения до преобразования и использования в других областях знаний.

Соцсети, ИИ и Big Data

В конце XX века распространяется Интернет, появляются социальные сети и данные растут в геометрической прогрессии.

В нулевых научные организации, СМИ и корпорации начинают провозглашать Data Science как новую дисциплину — и говорить о необходимости её внедрения в бизнес-процессы. В 2006-м Томас Дэвенпорт, учёный, специализирующийся на аналитике и инновациях, заявляет, что теперь бизнес будет конкурировать за счёт умения собирать, анализировать данные — и прогнозировать на их основе.

В 2008 году Nature посвящает спецвыпуск журнала взрывному росту объёма информации и впервые использует словосочетание «большие данные» — так начинается формироваться концепция Big Data. А в 2012-м Harvard Business Review провозглашает: «дата сайентист — самая сексуальная профессия 21 века».

Сейчас мы генерируем данные постоянно: пока делаем покупки, ходим на медицинские осмотры и листаем ленты социальных сетей. Прогнозируется, что к 2024-му человечество нагенерирует около 150 зеттабайт данных. Это в 2,5 раза больше, чем в 2020-м. А значит, современных вычислительных мощностей скоро будет недостаточно — человечеству нужны кардинально новые технологии для хранения и обработки данных, такие как искусственный интеллект и квантовые вычисления.

Датацентричная организация

Газпромбанк развивается как датацентричная организация — это одно из направлений нашей стратегии. В банке мы используем как классические подходы для работы с данными, так и алгоритмы и модели собственной разработки. Мы также создаем новую инфраструктуру для хранения и обработки данных. О том, как мы автоматизировали обработку данных, можно прочитать в этой статье.

Недавно мы запустили программу cтажировок для старшекурсников, выпускников и начинающих специалистов по направлению Data Science и Machine Learning. О новых наборах объявим в нашем блоге, так что подписывайтесь и следите за новостями. А наши вакансии по всем направлениям можно посмотреть здесь.

1К открытий6К показов

Также рекомендуем

Как настроить интеграцию между Great Expectations и Impala для работы с большими данными

Рассказываем, как мы заставили GX подружиться с Impala.

Фронтенд-разработка: чем занимаются и сколько зарабатывают специалисты

Профессия фронтенд-разработчика сейчас в числе самых востребованных в IT. Разбираем базовые вопросы для тех, кто планирует стать фронтенд-разработчиком.

Газпромбанк провел III Межкорпоративный киберспортивный турнир

Газпромбанк провел третий сезон киберспортивного турнира по Dota 2, Counter-Strike 2, Hearthstone: Battlegrounds и EA FC 24, в котором поучаствовали более 200 человек из крупнейших компаний.

Как не стоит писать код: разбираем ошибки

Вторая часть цикла статей про чистый код. В ней покажем пример некачественного кода и разберём основные ошибки.