НСПК / 24.12.24 / перетяжка / 2W5zFK76vmn
НСПК / 24.12.24 / перетяжка / 2W5zFK76vmn
НСПК / 24.12.24 / перетяжка / 2W5zFK76vmn

Что такое Dython

Обозреваем Dython (Dynamic Python) – библиотеку Python для лёгкого анализа данных, особенно в области анализа зависимостей и корреляций.

958 открытий3К показов
Что такое Dython

Dython (Dynamic Python) – это библиотека Python, созданная для облегчения анализа данных, особенно в области анализа зависимостей и корреляций. 

Она включает в себя набор инструментов, облегчающих исследование и визуализацию взаимосвязей в данных. Dython специализируется на изучении взаимосвязи между переменными различных типов, включая номинальные, ординальные и числовые переменные.

Ключевые особенности

1. Операции с табличными данными: Dython предлагает различные операции для работы с данными в формате таблицы (датафрейма): фильтрация, сортировка, объединение и агрегирование данных.

2. Очистка данных: фреймворк предоставляет функции и методы для эффективной очистки данных, включая обработку пропущенных значений, удаление дубликатов, преобразование типов данных и другие манипуляции.

3. Инжиниринг признаков: утилита обеспечивает набор функций для создания новых признаков на основе существующих данных. Это может включать создание новых столбцов, преобразование значений и извлечение информации из существующих признаков.

4. Статистический анализ: инструмент предлагает удобные функции для выполнения статистического анализа данных. Вы можете проводить описательную статистику, проверку на нормальность распределения, корреляционный анализ, тестирование гипотез и другие статистические операции.

5. Визуализация данных: Dython предоставляет инструменты для создания графиков и визуализации данных. Вы можете создавать диаграммы, гистограммы, диаграммы рассеяния и другие типы графиков для исследования и представления данных.

Dython стремится сделать процесс анализа данных более простым и удобным для пользователей Python. Он строится поверх стандартных библиотек Python, таких как Pandas, Matplotlib и NumPy, и предлагает дополнительные функции и утилиты, которые помогают ускорить разработку и анализ данных.

Пример кода

Давайте посмотрим, как работает этот инструмент. Для начала установим его:

			!pip install dython
		

После установки потребуется перезапуск среды (жмем ‘Restart Runtime’). Затем импортируем тул в наш ноутбук, а также другие библиотеки:

			import pandas as pd
from dython.nominal import associations
from sklearn import datasets
		

Загрузим данные – известный игрушечный набор о цветах ириса в датафрейм:

			iris = datasets.load_iris()
		

Выделим целевой признак – вид ириса:

			target = ['C{}'.format(i) for i in iris.target]
		

Подготовим данные для построения матрицы корреляции:

			X = pd.DataFrame(data=iris.data, columns=iris.feature_names)
y = pd.DataFrame(data=target, columns=['target'])
df = pd.concat([X, y], axis=1)
		

Построим матрицу корреляции:

			associations(df)
		

Мы получим такой замечательный correlation plot, причем в сопоставление попадут лишь подходящие признаки (Dython сам отфильтрует неподходящие):

Что такое Dython 1

Чуть ниже вы найдете перечень коэффициентов корреляции в виде таблицы на случай, если этот текст нужно куда-то скопировать.

Конечно, во всей своей сложности реальные данные одной строкой Dython не почистит, и уж тем более не сможет создать все осмысленные искусственные переменные, однако частичная автоматизация в сфере EDA (“разведочный анализ данных”) все же теперь существует, что сэкономит вам десятки рабочих часов.

Пощупать код вы можете в моем ноутбуке, не требующем дополнительной настройки. Помните, что после установки утилиты pip’ом требуется перезапуск среды исполнения кнопкой ‘Restart Runtime’.

С документацией фреймворка можно ознакомиться здесь:

Каким инструментом для предварительной обработки данных вы пользуетесь чаще всего?
scikit-learn
pandas-profiling
dython
Другой инструмент
Следите за новыми постами
Следите за новыми постами по любимым темам
958 открытий3К показов