Ваше новое хранилище данных: на что обратить внимание при миграции?
Рассказываем об основных шагах, как правильно провести миграцию хранилища данных на новые технологии в современных условиях в России.
77 открытий1К показов
В последние два года многие российские компании сталкиваются с необходимостью миграции своих хранилищ данных (ХД) с международных платформ на отечественные или open source решения.
Параллельно меняется сам подход к построению ХД. Раньше компании сначала загружали данные в единое хранилище и только потом думали, какие аналитические отчеты на его базе строить. Теперь же большинство организаций сразу решает бизнес-задачу – создает отчетность по определенному блоку, и для этого строит ХД. Получается, что у них уже есть отчетность и ХД и им не нужно собирать потребности пользователей. Этот подход облегчает миграцию данных: компании видят, какие отчеты нужны, и мигрируют ХД соответственно.
Тем не менее, есть несколько важных шагов, которые придется учитывать при переносе вашего ХД, чтобы ваш заказчик был доволен.
Шаг 1: Определить цели миграции
Первоочередная задача, которую вы должны решить — определить цели миграции. Это нужно сделать, опираясь на проблемы, с которыми компания столкнулась. Это может быть, например, нехватка места для новых данных в ХД или необходимость ухода от западных технологий.
Необходимо проанализировать, какие основные задачи закрывало старое ХД. Новое хранилище должно не только выполнять те же функции, но и обладать актуальной документацией и оптимизированной структурой без излишних данных. Если не решить эти задачи заранее, то вместо миграции вы будете заниматься рефакторингом: то есть поменяете код, но оставите старые ошибки.
Шаг 2: Проверить качество данных
Качество данных в ХД является одним из критических аспектов для получения консистентной информации, которой можно доверять. Несмотря на то, что существуют специализированные инструменты Data Quality, которые обеспечивают качество данных, необходимо помнить, что со 100% вероятностью какая-то информация в старое ХД заливалась из Excel, что-то подправлялось вручную, а что-то корректировалось прямо в интерфейсе. Это приводит к тому, что данные в старом и новом хранилищах не «сойдутся».
Как этого избежать? Надо понять причины, почему появились внесистемные данные, а дальше внедрить комплексный подход к ведению информации. Внесистемные данные — это риски, которые могут и в дальнейшем приводить к ошибкам и вынуждать заниматься корректировкой данных.
Если внесистемные данные были временным явлением, можно перенести их из старого ХД за прошлые периоды, то есть рассматривать старое ХД просто как источник исторических данных.
Шаг 3: Провести предпроектное обследование
До начала миграции стоит провести аудит старого ХД и четко задокументировать, какая функциональность у него останется. Возможно, имеет смысл оставить в нем исторические данные для того, чтобы при необходимости восстановить систему отчетности прошлых лет, при этом не перегружая новое ХД.
Шаг 4: Выбрать модель данных
Во многих проектах по миграции ХД стало «модно» использовать модель данных datavault. Однако надо помнить, что, помимо плюсов, у этой модели есть особенности, которые могут повлиять на скорость расчета витрин — большое количество таблиц, дополнительные джойны, которые раньше были не нужны.
Поэтому при выборе модели для будущего ХД надо вспомнить о цели, ради которой оно строится. Если это просто хранение с возможным последующим масштабированием данных, то data vault подойдет. Однако если это подготовка агрегатов, витрин данных и аналитической отчетности, лучше делать комбинацию data vault с третьей нормальной формой.
Шаг 5: Обучить команду
От того, насколько команда разработки и поддержки мотивирована и готова заняться работой с новым ХД, зависит успех проекта миграции.
Если в организации есть собственная сильная ИТ-команда, то можно строить ХД самостоятельно. Однако многие компании решают эту задачу приглашением консультантов-интеграторов или вендоров, которые уже реализовывали миграцию и проводят полноценное обучение.
Куда мигрировать хранилища данных сегодня
Сегодня выбор технологий для ХД в России не так велик — это может быть Greenplum, Hadoop или Spark, то есть решения на базе open source.
Вне зависимости от того, что вы выберете, помните, что главное, что надо учитывать — это масштабируемость, скорость обработки и легкость интеграции с существующими системами при выборе платформы.
К сожалению, нет «супертаблетки», которая поможет сделать отличное ХД: в каждом конкретном случае надо смотреть на цели и задачи. В любом случае важно помнить, что успех миграции определяется не только техническими решениями, но и четким пониманием бизнес-потребностей и организационной подготовленностью компании. Тщательное планирование и внимание к деталям могут обеспечить плавный переход к современным решениям для работы с данными.
77 открытий1К показов