Почему дата-аналитики должны перестать работать «дворниками»

Дата-аналитики приносят пользу, когда извлекают из данных полезные инсайты. Но зачастую им не до этого, ведь данные ещё нужно очистить.

Автор перевода Григорий Иванов, программист

Дата-аналитики должны глубоко погружаться в работу с данными, чтобы извлекать из них полезные для бизнеса инсайты. Вместо этого они часто тратят большую часть своего времени на подготовительную работу и первичную очистку данных.

Почему так происходит и как решить эту проблему – рассказывает Фара Ким, Менеджер по маркетингу продукции в компании Data Ladder.

Если вы специалист по данным или аналитик, вам очень повезло. Вы сделали карьеру, которая считается «самой сексуальной работой 21 века».

Тем не менее, за кулисами работа с данными вовсе не выглядит таковой. На самом деле, дата-аналитик может тратить до 80% своего времени на подготовку данных: очистку и организацию сотен тысяч строк и колонок. Получается, что вас нанимали, чтобы вы проанализировали всю эту информацию и помогли компании получить глубинные практические инсайты. А вместо этого ваши задачи сводятся к функции «стиральной машины для данных».

Более того, многие эксперты называют тяжёлую работу дата-сайентиста «дворником по данным». Упс, а как же «самая сексуальная работа»? Просто приманка?

Я работаю в компании, специализирующейся на решениях в области качества данных, имея возможность (и честь) общаться с аналитиками данных, работающих в организациях из списка Fortune 500.

На основе этого опыта хочу поделиться некоторыми фактами и развенчать некоторые мифы, чтобы помочь руководителям, рекрутерам и профессионалам лучше понять роль аналитика и то, как он может помочь организации в достижении ее целей от работы с данными.

Почему аналитики тратят столько времени на очистку данных

Анализ данных должен следовать правилу 80/20: 80% вашего времени должно быть потрачено на их анализ и всего 20% — на очистку. Однако каким-то непостижимым образом это соотношение перевернулось, и основные причины этого сдвига — процедурные.

Аналитики не могут тратить 80% своего времени на анализ, если от них ожидают, что они решат базовые организационные проблемы, которые приводят к генерации некачественных, «грязных» данных и дубликатов.

Специалисты по data science тратят большую часть рабочего времени не на разработку продуктов

tproger.ru

Вот три наиболее распространенные проблемы, с которыми сталкиваются аналитики.

Человеческий фактор при вводе данных

Всякий раз, когда человек вводит какие-то данные в систему, следует ожидать, что они будут введены с ошибками. Первая проблема заключается в том, что сотрудники часто не обучены стандартам ввода информации, поэтому люди заносят данные в соответствии со своими личными представлениями о том, как это делается.

Другая основная проблема — случайные ошибки, например из-за синдрома «толстых пальцев», которые часто остаются незамеченными. Только через какое-то время, когда ваша маркетинговая команда посылает электронное письмо господину «Джонастану», а не Джонатану («ой…опечатался – ну, просто у меня толстые пальцы») – вся коммуникация летит к чертям.

И вот вы уже наблюдаете, как обиженный клиент разглагольствует на LinkedIn о том, как небрежно ведет себя ваша компания, рассылая электронные письма с опечатками в имени.

Множество разрозненных приложений и систем

Предположим, ваша команда по генерации лидов использует в своей работе кастомные инструменты и LinkedIn. Ваша маркетинговая команда использует HubSpot CRM, специалисты по продажам — Salesforce, а служба поддержки клиентов — Jira. И ни один из этих инструментов не подключен к централизованной базе данных.

Руководители требуют от вас инсайтов по поводу оптимизации организационных аспектов работы компании, но вы не можете ничего отследить, потому что все эти платформы и системы работают в разрозненном режиме.

Лидогенерация не подключена к CRM, CRM не подключен к процессу продаж, а служба поддержки клиентов находится в совершенно другой зоне. Вам приходится просить каждый отдел физически передавать данные из всех этих источников, чтобы вывести из них полезные для компании инсайты.

Эта проблема усугубляется на уровне предприятия. На сегодняшний день в среднем в компании работает 464 различных программных продукта, каждый из которых извлекает данные из нескольких систем.

Команды аналитиков данных должны постоянно сортировать эти данные и решать, что из них следует хранить, а что – вычищать или удалять. Эта постоянная и неизбежная задача, которая делает работу аналитика в целом довольно обременительной.

Более половины опрошенных мною аналитиков, говорят, что процесс подготовки данных — худшая часть их работы. Это сложно и занимает много времени, а также не всегда вознаграждает за потраченные усилия, так как результат обычно оставляет желать лучшего.

Аналитики часто вынуждены тратить время на свод воедино данных из нескольких источников, и это включает в себя итерационные процессы их очистки, каждый из которых решает только одну проблему за один раз.

Например, чтобы сопоставить поле Имя в двух источниках, аналитику придется запускать скрипты для проверки полноты (все ли поля заполнены?), затем для проверки орфографических ошибок или опечаток, или для проверки того, были ли назначены правильные заголовки (Mr./Miss/Mrs./Dr. и т.д.). Они должны будут повторить тот же процесс для полей Фамилия, Телефонные номера, Адрес и так далее. Этот процесс является скрупулезной, утомительной работой, которая, несмотря на свою сложность, совершенно не гарантирует точных результатов на выходе.

Вместо «озер данных» — свалка отходов

Оказывается, люди любят хранить данные! Бизнес сегодня создает «озёра данных», чтобы хранить всю информацию, которой не получается управлять в реальном времени, с надеждой вернуться к этим данным, когда они потребуются в будущем.

Однако компаниям часто не хватает правильного понимания сроков применимости разных типов данных. Например, данные CRM-систем могут «разлагаться» (устаревать, терять релевантность) на целых 30% процентов в год.

Для предприятий, инвестирующих в большие big data-решения, эти «озера данных» становятся репозиториями, которые никогда не трогаются, потому что у компаний не хватает инструментов для извлечения информации оттуда в режиме реального времени. Аналитики должны проводить большие объемы очистки, чтобы извлечь из такого озера данные, которые легко могут оказаться неактуальными или недостаточно свежими, чтобы получить ценный бизнес-инсайт.

Нельзя ожидать, что аналитик будет качественно анализировать данные, если эти технологические пробелы и проблемы не будут устраняться в зародыше.

Сегодня большинство дата-аналитиков настолько погрязли в исправлении этих проблем, что у них почти не остается времени для глубокого изучения данных. Именно такая неэффективность нарушает операционные процессы, вызывая конфликты между отделами, и, в конечном счете, замедляет достижение ключевых бизнес-целей.

Вооружайте аналитиков необходимыми инструментами

Автоматические инструменты для очистки данных постепенно заменяют необходимость в ручных обработках. Эти инструменты предназначены для фактической очистки, позволяя аналитику тратить больше времени на просмотр и оценку данных, которые он хочет сохранить, очистить, слить с другими массивами или полностью удалить.

В недавнем прошлом навыки аналитика по программированию и написанию скриптов были столь же важны, как и его навыки критического мышления. По мере того, как автоматизация набирает скорость, настоящий навык аналитика стал заключаться не в том, насколько хорошо он может написать код для очистки, а в том, насколько хорошо он понимает данные и как быстро он может достичь целей, основанных на обработке данных.

Опытные аналитики знают, что низкое качество данных, требующее ручной очистки и подготовки, является признаком серьезных технологических ошибок. Они знают, что очистка данных — часть работы, но она не должна занимать 80% их времени.

По словам дата-архитекторов, очистка набора данных с 1000 строками занимает семь недель. Вот примерная разбивка того, куда уходит это время:

Неделя первая — соберите данные из нескольких отделов.

Неделя вторая — проанализируйте их, чтобы выяснить несколько основных проблем. Это может занять до двух недель в зависимости от загрязненности данных.

Третья неделя — если существующие скрипты или правила очистки не применимы к задаче, команде необходимо написать новые правила, используя Python для очистки данных. Например, существующие скрипты могут изменить все сокращенные названия городов на полные версии или обеспечить корректность приветствий. Но такие редкие проблемы, как использование псевдонимов, потребуют от аналитика создания алгоритмов, которые будут определять псевдонимы и предлагать альтернативы. Если у человека разные имена в разных учетных записях, аналитику придется использовать нечеткие алгоритмы сопоставления (fuzzy matching) записей перед заменой имени.

Неделя с четвертой по шестую — если необходимо сопоставить несколько списков, чтобы удалить дубликаты и создать одну запись, то этот процесс будет одновременно длительным и утомительным, так как аналитику придется попробовать несколько алгоритмов, чтобы сделать это сопоставление корректным.

Седьмая неделя — обзор изменений. Его следует повторять, если после первого обзора данные по-прежнему содержат ошибки.

В идеале предполагается, что аналитик работает восемь часов в день, посвящая себя пересмотру изменений. В реальности делового мира, однако, очень немногие могут посвятить этому целые дни, не отвлекаясь на другие задачи. Это означает, что проект, скорее всего, затянется на месяцы. К тому времени, как обзор завершится, данных будет больше. И тогда потребуется повторить весь процесс.

Решение этой проблемы требует использования соответствующих инструментов: решений без необходимости программировать, разработанных для работы с современными структурами данных и спроса на мгновенные бизнес-инсайты. С помощью хорошего инструмента подготовки данных аналитик может собрать, консолидировать, просмотреть, очистить и доработать данные всего за одну неделю. Нереально?

Вот реальный пример из моей практики. Мы работали с клиентом, у которого на старте проекта были обширные дата-сеты из базы данных, датированной 2005 годом. Они готовились перенести более чем 100 000 записей из старой системы в новую. Однако, прежде чем начать миграцию, они должны были убедиться в том, что все дубликаты удалены, а сырые данные обработаны.

Аналитики консалтинговой группы использовали Ruby и SQL-инструменты для очистки данных, но их результаты оказались неточными. Хуже того, процесс занял месяцы! Команда приближалась к крайнему сроку осуществления миграции, но результат подготовки их не устраивал. Именно тогда они решили искать другие возможные варианты.

Когда у задаче применили автоматизированное решение по сопоставлению данных, получилось очистить, удалить дубликаты и создать консолидированные записи за несколько дней до дедлайна. Потребовалось около трех дней, чтобы нормализовать данные, сопоставить их и представить наиболее точную версию записей для миграции.

7 советов для новичков в Data Science

tproger.ru

Этот пример подготовки данных и многие другие, подобные ему, доказывают, что при наличии правильных инструментов и решений аналитики могут сэкономить время и выполнить проекты, не перегружая себя.

В век автоматизации полагаться на старые, устаревшие методы выполнения базовых бизнес-задач — неэффективно. Зачем исправлять данные вручную, если у вас есть инструменты, которые могут справиться с этим гораздо лучше? Автоматизация сегодня жизненно необходима для того, чтобы аналитик данных преуспел в своей роли.

Так что же должен делать аналитик?

Информация о ролях аналитиков часто путается и вводит в заблуждение из-за рекрутеров или охотников за талантами, которые не уверены в том, что и кто им нужен.

Поскольку у руководителей высшего звена аллергия на грязные данные, дата-аналитиков привлекают для того, чтобы «починить» этот участок.

Грязная CRM? База данных, полная устаревших, несвязных данных? Много данных, но нет никого, кто мог бы разобраться в них? Давайте наймем аналитика данных! Хотя аналитик может помочь в решении этих проблем, не стоит нанимать его только и исключительно для этих задач, и не стоит ожидать, что он будет делать всю грязную работу.

Вместо очистки и подготовки данных, аналитиков лучше всего использовать в следующих четырех ключевых областях.

Создание правил оценки качества данных и фреймворков

Аналитик должен иметь полномочия для создания новых процессов, проведения дата-политик и внедрения новых инструментов, которые позволят организации управлять данными и обеспечивать их качество.

Например, аналитик выяснил, что 80% ошибок происходит в точке ввода данных. Он может решить эту проблему путем обучения сотрудников, настройки протоколов ввода данных, создания правил управления, а также через ввод дополнительных процедур для минимизации ошибок.

Формирование мышления компании в дата-ориентированном ключе

В наши дни этот термин data-driven звучит громко и повсюду, но вы не станете дата-ориентированной компанией только за счет накопления объемов данных или вытягивания случайных отчетов по мере возникновения задач.

В настоящих дата-ориентированных организациях отлажены процессы хранения, управления и использования всего объема генерируемых данных. Вы должны ценить качество больше, чем количество, эффективность больше, чем традиционность, а реальный успех больше, чем причудливые понятия и термины. Например, приоритет использования автоматизации перед инструментами ETL повышает эффективность работы с данными.

Обеспечение точности и удобства использования данных поможет вам достигать более узко-ориентированных маркетинговых целей, чем вложение средств в облачное хранилище, которое ничего не делает для повышения удобства использования данных. И хороший аналитик данных, архитектор дата-решений или инженер — лучший специалист для этой работы.

Быть важной частью проектов по M&A и миграции

Планируете слияние или миграцию? Вам нужен опытный специалист по анализу данных до и после процесса, чтобы убедиться, что самый ценный актив вашей организации — данные — безопасно передан, и гарантируя, что контекст и качество не пострадают во время этого процесса.

Укрощение хаоса больших проектов по обработке данных

Любая компания, которая может себе это позволить, инвестирует в большие данные. Это следующее большое стратегическое направления развития любого бизнеса. Однако мало кто из этих компаний знает, что большие данные — кошмар для профессионалов в области качества данных.

Представьте себе обработку данных из социальных сетей, фирмографику, демографических и психографических данных на миллион человек. Представьте себе хаос, с которым вы столкнетесь, когда эти данные будут противоречить друг другу (люди используют прозвища вместо настоящих имен), когда будут выявлены дубликаты, устаревшая информация и десятки других проблем.

Именно тогда вашей команде аналитиков данных с их острыми аналитическими навыками потребуется помощь в организации, использовании и осмыслении этого хаоса.

Все еще звучит, как самая сексуальная работа 21 века? Если да, то это именно то, чем и должен заниматься дата-аналитик.

Позвольте мне сделать вывод вкратце. Если вы хотите уверенно двигаться в будущее, основанное на анализе данных, вооружите своего аналитика лучшими системами, процессами и инструментами для выполнения работы.

Таким образом, они могут перевернуть нынешнее негативное соотношение на 80% анализа и 20% очистки.

4К открытий4К показов

Также рекомендуем

Дайджест Python #9: PandasAI, Телеграм-бот на Django и языковые модели на Python

Собрали лучшие материалы по Python с 1 по 15 мая. Узнайте, что такое PandasAI и как сделать языковую модель на Python.

Identifying the Top 10 Failures in the Process of Monitoring Your Software Application

Look at ten mistakes that companies often make when monitoring applications, and give professional advice on how to avoid them.

Как работали с данными с древних времён: краткая история Data Science

Наука о данных стала популярна лишь в 2010-е, но история Data Science началась чуть ли не 40 000 лет назад. Рассказываем, с чего именно.

Практика работы с файлами и базой данных в Laravel и ChatGPT

Рассказываем, как ChatGPT справилась с обработкой данных. Модель попросили взять данные из таблицы, перенести их в БД и экспортировать в csv.