Что такое Dython
Обозреваем Dython (Dynamic Python) – библиотеку Python для лёгкого анализа данных, особенно в области анализа зависимостей и корреляций.
940 открытий3К показов
Dython (Dynamic Python) – это библиотека Python, созданная для облегчения анализа данных, особенно в области анализа зависимостей и корреляций.
Она включает в себя набор инструментов, облегчающих исследование и визуализацию взаимосвязей в данных. Dython специализируется на изучении взаимосвязи между переменными различных типов, включая номинальные, ординальные и числовые переменные.
Ключевые особенности
1. Операции с табличными данными: Dython предлагает различные операции для работы с данными в формате таблицы (датафрейма): фильтрация, сортировка, объединение и агрегирование данных.
2. Очистка данных: фреймворк предоставляет функции и методы для эффективной очистки данных, включая обработку пропущенных значений, удаление дубликатов, преобразование типов данных и другие манипуляции.
3. Инжиниринг признаков: утилита обеспечивает набор функций для создания новых признаков на основе существующих данных. Это может включать создание новых столбцов, преобразование значений и извлечение информации из существующих признаков.
4. Статистический анализ: инструмент предлагает удобные функции для выполнения статистического анализа данных. Вы можете проводить описательную статистику, проверку на нормальность распределения, корреляционный анализ, тестирование гипотез и другие статистические операции.
5. Визуализация данных: Dython предоставляет инструменты для создания графиков и визуализации данных. Вы можете создавать диаграммы, гистограммы, диаграммы рассеяния и другие типы графиков для исследования и представления данных.
Dython стремится сделать процесс анализа данных более простым и удобным для пользователей Python. Он строится поверх стандартных библиотек Python, таких как Pandas, Matplotlib и NumPy, и предлагает дополнительные функции и утилиты, которые помогают ускорить разработку и анализ данных.
Пример кода
Давайте посмотрим, как работает этот инструмент. Для начала установим его:
После установки потребуется перезапуск среды (жмем ‘Restart Runtime’). Затем импортируем тул в наш ноутбук, а также другие библиотеки:
Загрузим данные – известный игрушечный набор о цветах ириса в датафрейм:
Выделим целевой признак – вид ириса:
Подготовим данные для построения матрицы корреляции:
Построим матрицу корреляции:
Мы получим такой замечательный correlation plot, причем в сопоставление попадут лишь подходящие признаки (Dython сам отфильтрует неподходящие):
Чуть ниже вы найдете перечень коэффициентов корреляции в виде таблицы на случай, если этот текст нужно куда-то скопировать.
Конечно, во всей своей сложности реальные данные одной строкой Dython не почистит, и уж тем более не сможет создать все осмысленные искусственные переменные, однако частичная автоматизация в сфере EDA (“разведочный анализ данных”) все же теперь существует, что сэкономит вам десятки рабочих часов.
Пощупать код вы можете в моем ноутбуке, не требующем дополнительной настройки. Помните, что после установки утилиты pip’ом требуется перезапуск среды исполнения кнопкой ‘Restart Runtime’.
С документацией фреймворка можно ознакомиться здесь:
Каким инструментом для предварительной обработки данных вы пользуетесь чаще всего?
scikit-learn
pandas-profiling
dython
Другой инструмент
940 открытий3К показов