Повышение качества данных с использованием Zero Bug Policy
Олег Харатов, Technical Unit Lead в Авито, рассказывает, как навести порядок в огромном хранилище и не сойти с ума.
Рубрика, посвященная тому, что такое Big Data, инструментам для работы с большими данными и тому, как применить эту сферу IT на практике.
Олег Харатов, Technical Unit Lead в Авито, рассказывает, как навести порядок в огромном хранилище и не сойти с ума.
Data Science продолжает набирать обороты, а вместе с ней — и языки программирования. Ниже — большая подборка библиотек и фреймворков Python для работы с данными, которые будут актуальны в наступающем году (и не только).
Генераторы данных в Python позволяют работать с ними более продуктивно. Рассказываем, как это работает и какие есть библиотеки.
Python и SQL — самые популярные инструменты для работы с данными. Но какой из них изучать первым? Разбираемся в статье.
Apache Hadoop и Apache Spark — две популярные платформы в сегменте обработки и анализа больших данных. В статье рассмотрим основы фреймворков, сравним преимущества, а также разберем сценарии оптимального применения на проекте.
Узнайте три подхода к обработке больших объемов данных в формате JSON, включая даже альтернативы традиционным базам данных.
Англоязычный блогер Daniel Dan сравнил должностные роли в мире данных: Data Scientist, Data Analyst и Data Engineer.
«Защитник» определяет, кто звонит пользователю, даже если номера нет в телефонной книге. А также позволяет пожаловаться на спам в два клика.